Assistentes virtuais e chatbots permitem um atendimento ininterrupto, instantâneo e padronizado, diz o professor Fabrício Barth
Leandro Steiw
O Vale do Silício, berço das inovações tecnológicas, fica nos Estados Unidos, mas é por aqui que algumas novidades se espalham mais rapidamente. No Brasil, apenas 30% dos atendimentos a clientes de bancos e fintechs são feitos exclusivamente por humanos, bem abaixo dos 64% entre as instituições financeiras americanas. Sete em cada dez brasileiros recorrem a aplicativos de bate-papo, assistentes virtuais telefônicos e chatbots, indica um estudo encomendado pela Infobip, empresa global de comunicação em nuvem, para a consultoria Frost & Sullivan.
Algumas hipóteses podem explicar a difusão dos assistentes virtuais, segundo Fabrício Barth, professor do Insper. Como é um robô que está tratando as requisições, o serviço é ininterrupto — 24 horas por dia, sete dias por semana — e instantâneo, da ordem de segundos. No relacionamento telefônico humano, pode se formar uma fila de espera. O robô também padroniza o atendimento, pois o conhecimento do especialista é digitalizado e inserido no assistente virtual. Ou seja, as respostas serão sempre daquele especialista que treinou o robô, eliminando os ruídos de comunicação causados entre diferentes atendentes humanos.
Como funciona esse processamento de linguagem natural? Basicamente, a ideia é fazer o computador entender a intenção por trás de uma requisição. Imagine o usuário que fale ou escreva: “Eu não reconheço uma compra no meu cartão de crédito” ou “Acho que clonaram o meu cartão de crédito”. Esses são dois exemplos de sentenças em linguagem natural que são classificadas dentro da mesma intenção. Uma vez que a tecnologia entende a intenção, consegue dar o direcionamento adequado — perguntar dados pessoais, número do cartão de crédito, data do vencimento etc.
Outra característica é que o assistente virtual resolve as solicitações mais genéricas. Conforme Barth, no cenário de call center, registra-se um fenômeno chamado de long tail. Poucas dúvidas são muito frequentes, e muitas dúvidas, pouco frequentes. “Aquela regra de que 20% atendem 80% da demanda é verdade neste cenário”, observa o professor. No domínio bancário, as pessoas perguntam pelo saldo da conta, pedem um extrato, relatam problemas com o cartão de crédito. Raramente surgem demandas como financiamento de aeronaves. Situações muito específicas são redirecionadas para atendimento humano.
O problema é que, muitas vezes, essa ferramenta não consegue compreender o que deveria compreender. Como se utiliza aprendizagem de máquina, o processo requer a inserção do conhecimento do especialista num sistema computacional por meio de exemplos. Fornecem-se sentenças de como solicitar saldo, extrato e problemas relacionados a cartão de crédito. A partir dessas expressões, a máquina cria um modelo e tenta generalizar.
Toda generalização comete erros. Uma solução com 80% a 85% de acurácia falhará em 15% a 20% das requisições. A decisão vai para a balança. “Será que vale a pena substituir um atendimento humano por um atendimento robótico sendo que esse atendimento robótico vai cometer alguns erros na interpretação do texto?”, questiona Barth. As estatísticas sugerem que sim. Há formas de aumentar a acurácia do sistema, mas o custo de desenvolvimento aumenta.
O conceito de assistente virtual já vem da década de 1960. Entre 2010 e 2015, o uso do método de deep learning, ou aprendizado profundo, impulsionou as pesquisas acadêmicas sobre classificação de texto e imagem e processamento de linguagem natural feita por computador. “No caso da classificação de imagem, temos datasets gigantescos que já estão rotulados e ocorrem competições anuais nas quais os pesquisadores propõem algoritmos que cada vez buscam uma taxa de erro menor”, afirma Barth, doutor em Engenharia Elétrica pela Universidade de São Paulo.
Em 2015, desenvolveu-se uma solução de deep learning na qual a taxa de erro da máquina na classificação de imagens é inferior à taxa de erro de um humano – respectivamente, 3,5% e 5,1%, de acordo com os parâmetros do ImageNet, o dataset usado nas competições. Utilizou-se uma rede neural profunda, formada por neurônios artificiais que imitam o funcionamento do nosso cérebro. A evolução da tecnologia de imagens logo chegou ao mercado, incorporada por empresas mais especializadas, como IBM, Google e AWS.
Na classificação de texto, um marco em problemas de linguagem natural foi o software Watson, que derrotou, em 2011, os dois maiores campeões humanos do Jeopardy!, um programa de perguntas e respostas da TV americana. Diferentemente dos mecanismos de pesquisa da internet, o Watson não apenas listava os inúmeros resultados correspondentes a palavras-chave. O software analisava as perguntas, classificava as respostas e pontuava cada uma delas, decidindo em três segundos a probabilidade de acerto ou erro. Inúmeros algoritmos atuavam simultaneamente, processando informações equivalentes a um milhão de livros, desde enciclopédias até o conteúdo da Wikipedia.
A tecnologia de classificação de texto começou a ser utilizada em assistentes virtuais e foi aperfeiçoada até atingir uma grande capacidade de generalização. Desde então, bancos, operadores de serviços públicos, provedores de internet e comércio eletrônico, entre outros, automatizaram o atendimento e criaram um sistema híbrido, que não deixa de recorrer ao agente humano em casos particulares.
Segundo estudo da Frost & Sullivan e Infobip, só 17% dos clientes brasileiros preferem visitar pessoalmente a instituição financeira para resolver problemas, tirar dúvidas ou fazer reclamações. Outros 29% ligam para um agente de atendimento. A predileção pelos serviços remotos fica clara na sequência: 26% usam aplicativos como WhatsApp e Telegram; 12%, o e-mail; 7%, o chatbot; 5%, redes sociais como Facebook e Instagram; e 5%, mensagens de texto e SMS. A pesquisa indica que os clientes que precisam repetir informações de segurança ou a descrição do problema são duas vezes mais propensos a trocar de banco. O desejo de autoatendimento eficiente, portanto, é outra das hipóteses para a aceitação dos assistentes virtuais no Brasil.
A indústria financeira tem justificativas suficientes para investir na tecnologia. A consultoria Juniper Research estima que os chatbots reduzam para quatro minutos o tempo médio de atendimento. Também projeta uma economia de 7,3 bilhões de dólares para os bancos só com a adoção das ferramentas virtuais. No Bradesco, a assistente BIA responde a 95% das dúvidas dos clientes. Os robôs negociaram, em oito meses, 11 milhões de reais em dívidas da Serasa e reduziram para 180 mil reais o custo mensal com a central de atendimento, anteriormente de 800 mil reais.
O aperfeiçoamento dos assistentes virtuais segue um processo supervisionado por profissionais com amplo domínio do negócio no qual será implantado o robô. Atendentes de call centers que atingiram um nível sênior tornam-se treinadores de inteligência artificial. Assistentes virtuais usados em museus, para distribuir informações sobre as obras em exposição, são tutorados por curadores de arte.
Barth trabalhava na IBM quando a equipe de tecnologia da informação foi desafiada a desenvolver uma aplicação na qual os visitantes da Pinacoteca de São Paulo conversassem com as obras de arte. Uma dificuldade era manifesta: a audiência de museus é eclética, seja em idade, seja em conhecimento de artes plásticas. Convidou-se, então, o público interno da IBM para elaborar perguntas sobre as imagens de obras reproduzidas em um website. As questões constituíram o dataset inicial do assistente. “Esse conjunto de dados passa pela curadoria de um especialista, que agrupa as perguntas com as mesmas intenções”, explica Barth.
Depois da implementação, sempre que surge uma sentença nova que o sistema não soube responder, os especialistas adicionam a pergunta a uma intenção nova ou já programada. Considera-se a validade estatística: se muitos usuários têm dúvida similar, a questão deve ser incluída no sistema. “Existe o custo de manter uma equipe de curadoria, mas a opção totalmente sem supervisão gera alguns problemas”, alerta Barth.
O professor recorda o caso do chatbot Tay, da Microsoft, em 2016. Em 16 horas de interação com internautas pelo Twitter, o robô começou a apresentar comportamento racista, misógino e xenófobo. Três anos antes, o campeão de game show Watson passou a xingar os seus programadores ao ser alimentado com um dicionário de gírias. Os tutores queriam ensinar as sutilezas da fala humana e foram tratados com palavrões e expressões chulas. Sútil demais, meu caro Watson. “Na academia, há diversas pesquisas em busca de um processo não supervisionado que de fato funcione, ou de um processo semissupervisionado que reduza a carga de trabalho da equipe de curadoria”, comenta Barth.
Para atender à demanda do mercado, os alunos do Insper aprendem os fundamentos da tecnologia na disciplina de Machine Learning, eletiva para os graduandos de Engenharia de Computação e obrigatória para os de Ciência da Computação. Antes, é preciso passar pelas disciplinas Ciência de Dados e Inteligência Artificial e Robótica. “Em Ciência da Computação, temos essa trilha voltada só para tomada de decisão, só para a construção de sistemas inteligentes”, diz Barth. “É uma das vertentes fortes do curso, que permite aos alunos exercitar e desenvolver todos os conceitos necessários para a criação de soluções inteligentes.”