Realizar busca
test

Detectores de textos produzidos por GPT têm vieses contra falantes não nativos

Um estudo de pesquisadores de Stanford aponta limitações das ferramentas usadas para identificar redações geradas por inteligência artificial

Um estudo de pesquisadores de Stanford aponta limitações das ferramentas usadas para identificar redações geradas por inteligência artificial

 

Um estudo realizado por um grupo de pesquisadores da Universidade Stanford, nos Estados Unidos, aponta que algoritmos de computador frequentemente usados para identificar textos gerados por inteligência artificial erroneamente classificam artigos escritos por pessoas que não têm o inglês como língua nativa como sendo criados por inteligência artificial. Os pesquisadores alertam que o desempenho pouco confiável desses programas de detecção de textos pode afetar negativamente diversas pessoas, incluindo estudantes e candidatos a emprego não nativos.

O estudo foi publicado recentemente no Patterns, um periódico de acesso aberto da Cell Press, que publica pesquisas na área de ciência de dados.

Educadores vêm demonstrando crescente preocupação com o uso de ferramentas como o ChatGPT em trabalhos realizados pelos alunos. Esse chatbot criado pela empresa OpenAI é capaz de produzir textos convincentes, resolver problemas de matemática e ciência e até mesmo criar códigos em diferentes linguagens de programação. Muitos professores passaram a utilizar detectores de GPT para analisar os trabalhos escolares, com o objetivo de identificar textos gerados por inteligência artificial. No entanto, de acordo com os pesquisadores de Stanford, esses detectores têm limitações e ainda são pouco confiáveis.

Em um dos estudos, os pesquisadores testaram sete detectores de GPT amplamente utilizados para analisar textos escritos por falantes não nativos de inglês no exame de proficiência TOEFL (Test of English as a Foreign Language). Os detectores classificaram erroneamente mais da metade dos textos como “gerados por IA”, com uma taxa média de falsos positivos de 61,3%. Segundo os pesquisadores, esse viés suscita preocupações sobre a avaliação justa do trabalho de falantes não nativos de inglês em contextos educacionais. Em comparação, os detectores foram capazes de classificar corretamente como geradas por humanos mais de 90% das redações escritas por alunos da oitava série em escolas americanas.

A classificação errônea de textos escritos por não nativos parece estar relacionada ao conceito de “perplexidade do texto”, uma medida de quão previsível é a escolha de palavras em uma redação. A escrita de uma pessoa não nativa, devido ao seu repertório linguístico limitado, tende a apresentar uma perplexidade de texto mais baixa, o que é erroneamente associado à escrita gerada por IA. Quanto mais palavras complexas e sofisticadas uma pessoa utiliza em uma redação, maior a probabilidade de esse texto ser classificado pelos algoritmos como sendo escrito por um humano. Isso ocorre porque modelos de linguagem grandes, como o ChatGPT, são treinados para gerar texto com baixa perplexidade, uma vez que buscam simular a fala de um ser humano médio.

Para mitigar o viés dos detectores de GPT, os pesquisadores exploraram o enriquecimento da diversidade linguística na escrita de inglês não nativo. Usando o ChatGPT para enriquecer o vocabulário e emular o uso da língua nativa em ensaios do TOEFL, as taxas de classificação incorreta diminuíram significativamente — a média de falsos positivos caiu para 49,7%.

Os pesquisadores concluíram que o uso de detectores de GPT em contextos educacionais, especialmente para não nativos de inglês, deve ser feito com cautela devido às altas taxas de falsos positivos identificadas no estudo. É essencial realizar uma avaliação completa desses detectores, abrangendo diversas amostras de escrita, a fim de reduzir preconceitos e promover a equidade. Além disso, os detectores de GPT não devem seguir uma abordagem única, mas serem personalizados em colaboração com especialistas, enfatizando seu uso como uma ferramenta auxiliar.

Segundo os pesquisadores, combater o viés dos detectores de GPT é essencial para garantir um ambiente digital justo e inclusivo, evitando a marginalização de não nativos em inglês e promovendo a confiança e a inclusão de todas as pessoas, independentemente de suas habilidades linguísticas.

Este website usa Cookies

Saiba como o Insper trata os seus dados pessoais em nosso Aviso de Privacidade, disponível no Portal da Privacidade.

Aviso de Privacidade

Definições Cookies

Uso de Cookies

Saiba como o Insper trata os seus dados pessoais em nosso Aviso de Privacidade, disponível no Portal da Privacidade.

Aviso de Privacidade