Em andamento

Pablo Arantes

Desenvolvidas no âmbito do PPGL/UFSCar no quadriênio 2021-2024.

Potencial de uso de parâmetros prosódicos e de voz na fonética forense

Neste projeto, exploramos o potencial de uso de parâmetros prosódicos e de qualidade de voz na fonética forense. Duas frentes principais serão exploradas no âmbito deste projeto:

A primeira frente diz respeito à investigação de características da frequência fundamental (f0) que podem ter a combinação desejável de duas características desejáveis para os parâmetros úteis à identificação de vozes: baixa variabilidade intrafalante e alta variabilidade interfalante. Na literatura prévia da área, descritores estatísticos com a média e o desvio-padrão da f0 foram investigados. Nosso propósito é incluir entre os descritores investigados índices de variabilidade como a assimetria e a curtose das distribuições de f0, que descrevem detalhes mais finos dessas distribuições.

A segunda frente consiste da organização de bancos da dados que permitam a geração de estatísticas a respeito da distribuição populacional de parâmetros acústicos da fala. No contexto das tarefas de comparação de vozes, a prática mais moderna para estabelecer o peso probatório da evidência fonética inclui o uso da razão de verossimilhança (likelihood ratio, em inglês, abreviada como LR), que é uma razão entre duas probabilidades: a da hipótese de que duas amostras de fala provenham do mesmo falante e a da hipótese de que duas amostras de fala não tenham sido produzidas pelo mesmo falante. Uma outra forma de entender a LR é pensá-la como a razão entre um índice de semelhança entre duas amostras e a tipicidade dos padrões linguísticos encontrados nas duas amostras comparadas. Conhecer a distribuição de um determinado parâmetro acústico na população de falantes é uma maneira de estabelecer sua tipicidade. Duas amostras podem ser muito semelhantes em uma determinada dimensão. Mas se os valores na dimensão considerada (como a média da f0) forem muito comuns na população relevante, isto é, se sua tipicidade for muito alta, a semelhança perde força como evidência para a hipótese de que as duas amostras têm a mesma origem, isto é, foram produzidas pelo mesmo falante.

Essas distribuições populacionais devem ser, idealmente, estabelecidas para cada língua, já que em muitos casos o parâmetro linguístico ou acústico terá uma distribuição específica em cada língua. No caso do português brasileiro, há uma escassez quase total de dados desse tipo, o que dificulta a adoção do uso da LR na prática pericial. Daí a importância prática do projeto.

Metodologia para extração automática de parâmetros de um modelo do ritmo da fala

O projeto parte de um modelo do ritmo baseado na proposta de que a produção do ritmo pode ser modelada como um sistema de osciladores acoplados que representam dois níveis de organização temporal: a silabicidade e a acentuação. Valores de três parâmetros livres do modelo têm o maior impacto na geração de contornos de duração simulada: a taxa de indução do oscilador silábico pelo oscilador acentual (α), a taxa de decaimento do oscilador silábico após a ocorrência de uma batida do oscilador acentual (β) e a força relativa de acoplamento entre os dois osciladores (w0). Uma das aplicações teóricas interessantes do modelo é a possibilidade que ele abre de reinterpretar a chamada tipologia rítmica -- classicamente, a divisão das línguas em dois tipos rítmicos: o silábico e o acentual -- como uma consequência da variação gradiente no predomínio relativo entre os osciladores silábico e acentual. Grosso modo, as chamadas línguas de ritmo acentual seriam aquelas em que o componente acentual predomina sobre o silábico e as de ritmo silábico aquelas em que o componente silábico tem mais força. Nos termos do modelo dinâmico, o parâmetro w0 seria o principal fator a determinar em que ponto entre os polos acentual e silábico uma determinada língua se localiza. Esse parâmetro, por hipótese, é considerado relativamente estável dentro de uma comunidade linguística e os demais, α e β, seriam mais variáveis numa mesma língua.

Muito embora diversos trabalhos tenham usado esse modelo dinâmico de maneira bem-sucedida para explicar fenômenos rítmicos, não existe uma metodologia estabelecida para determinar qual seria o valor típico de $w_{0}$ e quais seriam as bandas de variação típicas de α e β para uma determinada língua e para diferentes falantes nessa língua. Nos trabalhos que já fizeram uso do modelo, a escolha dos parâmetros normalmente é dada pela comparação qualitativa entre contornos de duração de frases naturais com contornos simulados gerados por diferentes combinações dos três parâmetros. Seria desejável, portanto, que se desenvolvesse uma metodologia mais objetiva para estimar os valores da tripla <α; β; w0> a partir de uma série de enunciados naturais. Uma das consequências do desenvolvimento de uma metodologia como essa permitiria, entre outras coisas, que se testasse empiricamente a suposição de que w0 é de fato relativamente estável para um grupo homogêneo de falantes e aferir o nível de variabilidade dos outros dois parâmetros entre diversos falantes da mesma variedade linguística.

O objetivo do projeto é propor e testar um procedimento que permita a extração da tripla de parâmetros <α; β; w0> a partir de enunciados naturais. A ideia central da metodologia é a aplicação de um procedimento de otimização que aponte qual é a combinação de valores da tripla <α; β; w0> que minimiza a distância entre contornos de duração normalizada de enunciados produzidos por falantes humanos e contornos produzidos pelo modelo de ritmo.

Para a fase inicial da pesquisa, os enunciados a serem usados serão leituras feitas por oito falantes nativos de português brasileiro de um texto com aproximadamente 150 palavras, lidas em três taxas de elocução (habitual, lenta e rápida). De cada frase será extraído o contorno duracional bruto, que será então normalizado e suavizado. O procedimento de otimização da extração dos parâmetros consistirá da geração de contornos simulados a partir de triplas de valores para os parâmetros <α; β; w0> que varrerão todas as combinações possíveis dentro de uma ampla gama de valores. A combinação ótima de parâmetros será aquela que minimiza a distância entre o contorno normalizado natural, isto é, aquele produzido por um falante e um dos contornos simulados. Serão testadas três métricas comuns na literatura sobre otimização para medir a distância entre os contornos naturais e simulados: erro quadrático médio (root mean squared error), erro absoluto médio (mean absolute error) e dynamic time warping.

Em uma segunda etapa, quando os procedimentos estiverem testados e validados, eles serão então aplicados a outras línguas. Duas candidatas interessantes são o inglês e o espanhol, por serem línguas tradicionalmente consideradas como de ritmo acentual e silábico, respectivamente. A hipótese crucial a ser testada nessa fase é a de que os valores de w0 estimados pelo procedimento para as duas línguas serão distantes -- menores para o espanhol e maiores para o inglês.

Metodologia para análise da entoação do espanhol como L2 em bilíngues brasileiros

Neste projeto, empregamos métodos fonético-acústicos para descrever e caracterizar a produção da prosódia, em especial a entoação, de bilíngues tardios de espanhol como L2 com o objetivo de buscar elementos que permitam estabelecer de forma objetiva em que medida a produção dos bilíngues reproduz com sucesso características prosódicas fundamentais da L2 e em que medida a produção apresenta traços de transferência da L1. Além disso, investigamos a produção de L1 dos bilíngues para buscar possíveis evidências de atrito linguístico, isto é, da interferência da L2 sobre a produção de L1.

Embora já exista alguma literatura prévia a respeito do ensino e da aprendizagem de aspectos entoacionais do espanhol L2 falado por brasileiros, a pesquisa anterior tendeu a estudar aprendizes em estágio relativamente inicial e em ambiente escolar. A escolha desse público como objeto de estudo enseja o aparecimento do fenômeno da transferência de L1 para L2 e menos o fenômeno de atrito. O aparato descritivo usado na literatura prévia é um aspecto da literatura é um aspecto em que o presente projeto pretende avançar em relação aos resultados anteriores. Propomos o uso de ferramentas e metodologias fonético-acústicas que buscam descrever aspectos fundamentais das curvas entoacionais que mantém uma separação mais clara entre os níveis fonético e fonológico. Esse aspecto é importante, uma vez que a produção dos bilíngues é o resultado uma negociação entre dois sistemas (o da L1 e o da L2) e portanto o uso de uma notação com aspectos fonológicos (como o sistema ToBI, por exemplo) pode ser problemática para caracterizar curvas entoacionais com aspectos híbridos -- seja por conta da transferência de L1 para L2 no aprendizado, seja pela influência da L2 na L1 quando há atrito.

O material linguístico a ser analisado na pesquisa são enunciados em três modalidades: declarativa, interrogativa total e interrogativa pronominal. Essas modalidades foram escolhidas porque existem boas descrições e análises entoacionais para a implementação dessas modalidades tanto no português brasileiro quanto no espanhol e essa implementação, em especial a das modalidades interrogativas, é bastante diferente nas duas línguas. Serão analisados enunciados produzidos em espanhol e português por bilíngues brasileiros, além de produções de monolíngues brasileiros e monolíngues espanhóis, usadas como condição controle. Diferentes técnicas de análise da curva entoacional serão testadas, tais como a normalização temporal e identificação de picos e vales e seu alinhamento em relação ao material segmental, em busca da descrição que melhor caracterize as diferenças entre as produções dos monolíngues e que permita, a partir daí, a salientar em que medida a produção dos bilíngues se aproxima e se afasta dos padrões de L1 e L2. Os resultados serão posteriormente analisados à luz do Speech Learning Model, de Flege, e também da literatura, relativamente incipiente, sobre a manifestação de atrito linguístico no componente fonético-fonológico, especialmente no componente prosódico.

Tiago Pereira Rodrigues

Pesquisa de doutorado em andamento no âmbito do Programa de Pós-Graduação em Linguística da Universidade Federal de São Carlos (PPGL/UFSCar).

Vogais postônicas mediais na variedade de São Carlos (SP): um estudo sociolinguístico e fonético-acústico

A pesquisa trata da produção oral de vogais postônicas mediais faladas na variedade do município paulista de São Carlos. Seu principal objetivo é estudar essas vogais a partir de um arcabouço teórico-metodológico envolvendo as áreas de Fonética Acústica, Sociolinguística Variacionista e Sociofonética.

Para a coleta de dados, voluntários são-carlenses estão sendo convidados a preencher um pequeno formulário social e a realizar dois experimentos de produção oral de palavras: experimento 1 e experimento 2. Durante a realização dos experimentos, a fala de cada voluntário está sendo gravada.

O experimento 1 consiste em levar os voluntários a identificar palavras faltantes em frases por meio de perguntas realizadas pelo pesquisador e por meio de imagens. As palavras faltantes são todas proparoxítonas. Os participantes são solicitados a ler em voz alta apenas as frases cujas palavras faltantes eles tiverem identificado. Com relação ao experimento 2, ele consiste na leitura em voz alta de
frases inteiras, todas contendo as mesmas palavras-alvo do experimento 1.

A pesquisa será composta por análises categóricas e por análises de variáveis dependentes contínuas. As análises categóricas têm por objetivo: (i) verificar quais vogais constituem o inventário vocálico postônico medial da variedade de São Carlos; (ii) identificar processos fonológicos que incidem sobre essas vogais; (iii) investigar se esses processos e as vogais que eles atingem estão envolvidos em casos de variação linguística; (iv) verificar se, na fala de São Carlos, quando a vogal /e/ postônica medial é antecedida por /t/ ou /d/, ocorre o alçamento da vogal seguido da africação (sem palatalização) dessas consoantes; e (v) observar possíveis influências de variáveis linguísticas e extralinguísticas sobre a aplicação dos processos fonológicos que forem identificados. Por sua vez, as análises de variáveis dependentes contínuas têm por intuito verificar possíveis efeitos de variáveis linguísticas e extralinguísticas sobre parâmetros fonético-acústicos das vogais postônicas mediais que forem identificadas: frequência fundamental, formantes, duração e ênfase espectral.

Tanto nas análises categóricas quanto nas análises de variáveis dependentes contínuas, serão observadas, a príncipio, as seguintes variáveis independentes: consoante precedente (oclusiva, fricativa, soante), consoante seguinte (oclusiva, fricativa, soante), item lexical, sexo (masculino, feminino) e tipo de experimento (experimento 1, experimento 2).