Realizar busca
test

Aluno desenvolve projeto de iniciação científica em machine learning

João Gabriel Valentim Rocha, do curso de Engenharia de Computação, trabalha em uma metodologia de avaliação e customização de modelos de aprendizado por reforço

João Gabriel Valentim Rocha, do curso de Engenharia de Computação, trabalha em uma metodologia de avaliação e customização de modelos de aprendizado por reforço 

 

Tiago Cordeiro

 

Como uma criança aprende a utilizar um brinquedo específico que nunca viu antes, como um carrinho de controle remoto? Por tentativa e erro, aumentando a complexidade das tarefas gradativamente. Primeiro testa os botões do controle, identificando aqueles que permitem acelerar, frear ou mudar a direção. Se continuar repetindo o processo, tende a conseguir fazer manobras mais complexas, em maior velocidade. É o chamado aprendizado por reforço.

A técnica também está na base do aprendizado de máquinas, ou machine learning, que consiste em supervisionar um aparelho de forma que ele desenvolva ações mais complexas a partir das informações que coleta ao interagir com o meio ambiente.

O aprendizado por reforço está na base do desenvolvimento dos chamados agentes autônomos, que incluem a otimização da caminhada de um robô, a trajetória de carros que dirigem sem a necessidade de um motorista e sistemas que podem aprender a jogar jogos eletrônicos. Envolve também a otimização de um termostato para a economia de energia e as aplicações capazes de faze negociações financeiras de forma automática.

 

Agentes autônomos inteligentes

É uma área em franca expansão: mais da metade das pesquisas já produzidas em aprendizado por reforço foram publicadas nos últimos dez anos. Foi para mapear a evolução desses trabalhos e identificar as técnicas mais promissoras que o aluno João Gabriel Valentim Rocha, de 24 anos, propôs ao professor Fábio José Ayres desenvolver um projeto de iniciação científica.

Acabou por ser aprovado para participar do Programa de Bolsas do Insper. “Sou nascido em Alagoas, morei em comunidades carentes de Maceió e Paripueira. Estudei no Instituto Federal de Alagoas, no Instituto Tecnológico de Aeronáutica (ITA) e no Instituto Militar de Engenharia (IME), mas não era o que eu queria fazer”, diz o estudante. Foi quando descobriu o Insper. “O professor Ayres foi crucial para que eu conseguisse desenvolver o projeto. Ele se empolga com a minha empolgação, sou muito grato a ele e ao Insper.”

Ayres explica a proposta do aluno: “O trabalho do João Gabriel consiste em avaliar técnicas de aprendizado por reforço para a construção de agentes autônomos inteligentes. Um agente é um programa que coleta informações sobre o meio ambiente em que se insere (virtual ou real) e executa alguma ação em função dessa percepção do meio.”

Por exemplo: um carro autônomo coleta várias informações sobre os seus arredores, sobre seu próprio funcionamento (como velocidade e temperatura do motor), e também recebe informações mais amplas como dados de trânsito e mapas. Baseado nessas informações e na definição de seu objetivo (que é cumprir o trajeto em segurança e de modo eficiente), o carro executa as ações necessárias, como acelerar, frear, mudar de direção.

“Aprendizado por reforço refere-se ao conjunto de técnicas de machine learning em que o agente percebe uma recompensa (ou penalidade) em função das ações tomadas, e com isso aprende a escolher as ações que maximizem essas recompensas”, explica o docente.

“Existem várias técnicas de treinamento de agentes autônomos usando aprendizado por reforço. No trabalho do João Gabriel, estamos fazendo uma análise comparativa de algumas das técnicas mais representativas”, detalha. “Outro aspecto interessante do trabalho do aluno é o emprego de ‘currículos’ de aprendizado: em vez de treinar o agente em um ambiente simulado complexo, constrói-se um conjunto de ‘tarefas’ de complexidade crescente, de modo que o agente incorpora as lições aprendidas em tarefas simples para ter maior chance de sucesso no aprendizado de tarefas mais complexas.”

 

Redes neurais profundas

Aluno do segundo semestre do curso de Engenharia de Computação, João Gabriel viu nessa iniciativa uma forma de aplicar o conhecimento que acumulou ao longo de sua trajetória. Seu objetivo é desenvolver uma metodologia de avaliação e customização de modelos de aprendizado por reforço para máquinas.

“Nos últimos dez anos, o campo de aprendizado de máquina passou por uma mudança significativa com o advento das redes neurais profundas”, ele explica, na descrição do projeto, denominado Estudo comparativo de modelos de otimização de agentes autônomos baseados em aprendizado por reforço.

“Estas são redes neurais com um grande número de camadas escondidas e topologias inovadoras, que tem se mostrado bastante efetivas na construção de modelos preditivos”, prossegue. Aplicados com sucesso na área de processamento de imagem, agora os conceitos de aprendizado por reforço profundo vêm sendo aplicados na otimização de agentes autônomos.

João Gabriel selecionou três modelos de aprendizado profundo para comparar. “Neste projeto serão avaliados os desempenhos dos modelos DQN, PG e GA em tarefas clássicas de otimização de agentes autônomos, bem como será desenvolvida uma metodologia de avaliação e customização de modelos para tarefas específicas, tais como classificação otimização de comportamentos de direção.”

Assim, o estudante pretende descrever e comparar técnicas de aprendizado por reforço aplicadas a otimização de agentes autônomos, com o objetivo de desenvolver uma técnica própria de otimização de comportamentos de direção de agentes autônomos com aprendizado por reforço.

“É uma pesquisa relevante, porque o tema tem muitas aplicações”, afirma o aluno. “Um drone precisa dessa capacidade de aprendizagem para fazer entregas e voltar ao ponto de origem, repetidas vezes. A todo momento surgem modelos novos de aprendizagem por reforço, é uma área em ebulição.”

O resultado do projeto será traduzido em diferentes artigos acadêmicos. “Queremos participar de eventos da área. Meu aprendizado tem sido enorme, e ainda há muito a fazer”, diz João Gabriel.

 

João Gabriel Valentim Rocha
João Gabriel Valentim Rocha: área de estudo com potencial de muitas aplicações

Este website usa Cookies

Saiba como o Insper trata os seus dados pessoais em nosso Aviso de Privacidade, disponível no Portal da Privacidade.

Aviso de Privacidade

Definições Cookies

Uso de Cookies

Saiba como o Insper trata os seus dados pessoais em nosso Aviso de Privacidade, disponível no Portal da Privacidade.

Aviso de Privacidade