Realizar busca
test

Estudante testa a visão sobre-humana dos computadores para contagem de pessoas

Projeto de iniciação científica permite melhorar o desempenho das máquinas na análise de multidões por meio das redes neurais convolucionais

Projeto de iniciação científica permite melhorar o desempenho das máquinas na análise de multidões por meio das redes neurais convolucionais

 

Leandro Steiw

 

A necessidade de distanciamento e isolamento social durante a pandemia da covid-19 reforçou o interesse no tema da contagem de multidões por meio de visão computacional. Uma das abordagens para solucionar o problema é o uso da rede neural convolucional, ou CNN (na sigla em inglês). Essas redes surgiram do estudo do córtex visual do cérebro humano e são usadas no reconhecimento de imagens desde a década de 1980. As CNNs foram desenvolvidas com base nas reações químicas do cérebro ao processamento de informação visual. Assim, são especializadas na análise de imagens e, em alguns casos, podem atingir desempenho sobre-humano.

Problemas deste tipo serão constantemente apresentados aos estudantes do novo curso de Ciência da Computação, assim como em outros cursos do Insper. É o caso do aluno de Engenharia de Computação Eiki Luis Yamashiro Batista dos Santos, que trabalhou no projeto de iniciação científica “Contagem de multidões através de uma rede neural convolucional” em 2020 e 2021, orientado pelo professor Raul Ikeda. “Durante o terceiro semestre, os alunos cursam a disciplina de Robótica Computacional, na qual é introduzido o conceito de redes neurais em visão computacional. Portanto, já havia tido contato com projetos de visão computacional que utilizaram redes neurais convolucionais”, diz Eiki Yamashiro. “Porém, não chegamos a treinar a rede, pois o professor disponibilizou um modelo já treinado, visto que não era o foco da disciplina ensinar como treinar um modelo de aprendizado de máquina.”

Em 2009, a análise de cenas de multidões foi discutida no PETS (Performance Evaluation of Tracking and Surveillance), uma conferência anual da Universidade de Reading, na Inglaterra, na qual pesquisadores da área de vigilância visual avaliam o desempenho de métodos e técnicas de rastreamento. Um banco de dados é fornecido exclusivamente para a avaliação dessas técnicas, permitindo discutir os desempenhos de diferentes métodos. Uma das barreiras para comparar soluções distintas é justamente a utilização de diversos bancos de dados, que aumentam a variabilidade. Yamashiro partiu do banco de dados de imagens do PETS 2009, um conjunto de fotos de multidão tiradas no campus da Universidade de Reading. Então, comparou as análises de multidões de três artigos científicos.

 

Mapa de densidade

Segundo o aluno, a topologia da rede neural escolhida para o projeto tem dois grandes diferenciais, quando comparada a abordagens tradicionais de redes neurais convolucionais. A primeira diferença é em relação a sua arquitetura. A ideia é aproveitar a variação da densidade ao longo da foto da multidão para aumentar o desempenho. Assim, a foto recebida pela rede é recortada e cada recorte é enviado para um classificador, que analisa a densidade da multidão e encaminha para a rede neural mais adequada. Ou seja, em vez de apenas uma rede neural, utilizou-se uma rede para o classificador e outras três redes como regressores para a contagem. Outro diferencial da rede é a forma como a regressão é feita: regredir direto a contagem tem um elevado custo computacional, então, os regressores retornam um mapa de densidade, que possibilita o cálculo de quantas pessoas há na foto. Dessa forma, as CNNs conseguem aproveitar a variação da densidade ao longo da imagem da multidão para aumentar a precisão da contagem.

A tecnologia tem aplicações práticas. “Atualmente, são muito utilizadas na área da visão computacional e em produtos de inteligência artificial, como os detectores de máscaras presentes nas entradas de alguns supermercados ou as catracas com reconhecimento facial instaladas em portarias de prédios”, diz Yamashiro. Ele também cita os carros autônomos, que usam redes neurais convolucionais para auxiliar a direção do automóvel e permitir uma condução segura e confortável, tanto para o passageiro/motorista quanto para os pedestres e demais carros da via.

Durante a iniciação científica, os alunos precisam registrar todos os resultados cuidadosamente. “Uma das etapas mais importantes de projetos de machine learning e inteligência artificial é o levantamento dos dados, pois são necessárias altas credibilidade, quantidade e fidelidade. Assim, o projeto desenvolvido, por possuir uma topologia de quatro redes neurais, tem uma grande quantidade de parâmetros treináveis, o que necessita de um elevado volume de dados para convergir a curva de acurácia, ou seja, atingir o máximo desempenho possível durante o período de treinamento dos regressores e do classificador”, explica Yamashiro.

Conforme o aluno, os resultados obtidos apontaram para um caminho no qual aumentar a quantidade de regressores poderia otimizar o desempenho da rede, uma vez que o intervalo de densidade em que cada regressor é especializado seria menor, o que permite minimizar a intensidade do erro da regressão. “Em relação à economia do processamento computacional, de fato, ao regredir mapas de densidades, o treinamento dos regressores foi mais rápido, o que possibilitou o aumento da quantidade de dados para treinamento, permitindo uma maior acurácia por parte dos regressores”, diz.

 

Horizonte de estudos

Por se tratar de um projeto de aprendizado de máquina, aproveitam-se os conceitos estudados na disciplina de Ciência dos Dados, do segundo semestre, além do cálculo e da estatística envolvidos. “Em termos de programação, a disciplina de Design de Software, do primeiro semestre, foi muito importante para me ensinar a programar e desenvolver programas da forma correta. Ao longo do curso, também escrevi diversos relatórios que me auxiliaram a redigir o relatório final da iniciação científica”, conta Yamashiro.

O mercado de trabalho em computação está, permanentemente, em busca de profissionais com experiências em aprendizado de máquina e inteligência artificial. Os estudantes de Ciência da Computação do Insper também terão a oportunidade de se preparar com projetos de iniciação científica. “Foi uma grande conquista, que com certeza é um dos meus maiores orgulhos como estudante. Após a iniciação, decidi que gostaria de seguir uma carreira nessa área e pretendo cursar as eletivas da trilha de Machine Learning e Ciência dos Dados que o Insper disponibiliza para os alunos de Engenharia de Computação”, afirma Yamashiro. A iniciação científica é outra forma de ampliar horizontes na faculdade. “O projeto despertou em mim um grande interesse pelos trabalhos científicos e acadêmicos, que me motiva a seguir para um mestrado e, posteriormente, para um doutorado”, planeja.

Eiki Luis Yamashiro: projeto de iniciação científica sobre contagem de multidões
O aluno Eiki Luis Yamashiro

Este website usa Cookies

Saiba como o Insper trata os seus dados pessoais em nosso Aviso de Privacidade, disponível no Portal da Privacidade.

Aviso de Privacidade

Definições Cookies

Uso de Cookies

Saiba como o Insper trata os seus dados pessoais em nosso Aviso de Privacidade, disponível no Portal da Privacidade.

Aviso de Privacidade