Em março de 2025, os participantes de uma das mais influentes conferências de patologia do mundo, o 2025 USCAP Annual Meeting, realizada pela United States and Canadian Academy of Pathology (USCAP), vão conhecer uma solução de estruturação de dados desenvolvida em conjunto pelo departamento de anatomia patológica do A.C. Camargo Center, pela equipe de dados da organização e por alunos da Engenharia de Computação.
São eles Felipe Banzato Pinto de Lemos, nascido em Campinas (SP), João Victor Pazotti Silva, paulistano que já viveu no Rio de Janeiro (RJ) e no Uruguai, e Ykaro de Sousa Andrade, nascido em Ubajara (CE), que completou a formação escolar em Sobral (CE) e Fortaleza (CE) e, na segunda tentativa, passou no vestibular do Insper e conseguiu bolsa integral.
Ao longo do primeiro semestre de 2024, os três se dedicaram a desenvolver um algoritmo capaz de encarar um desafio enfrentado diariamente pela instituição de saúde: melhorar a capacidade de produção e análise dos dados, de forma a levar a diagnósticos mais precisos e a uma gestão de processos mais eficaz. A missão foi abraçada na forma de projeto de conclusão de curso, ou Capstone, antigo Projeto Final de Engenharia (PFE).
No jargão utilizado por profissionais de gestão e análise de dados, a documentação gerada em centros de atendimento médico costuma ser não estruturada, fragmentada, dissociada e pouco acessível. Cada hospital, e muitas vezes até mesmo cada médico, preenche as informações de prontuários e laudos de diferentes formas. Eles não seguem um padrão único, o que dificulta a capacidade de estruturar as diferentes informações de maneira eficiente.
Fundado em 1953, o A.C. Camargo Cancer Center é responsável pela formação de médicos e profissionais de saúde de diversas áreas relacionadas à oncologia. O curso de pós-graduação stricto sensu, criado em 1997, já formou mais de 450 mestres e 250 doutores.
É, portanto, um centro de referência no diagnóstico, tratamento, ensino e pesquisa em câncer na América Latina, que, naturalmente, entende a importância de promover eficiência e capacidade de produzir insights relevantes. E buscou no Insper uma parceria capaz de desenvolver um algoritmo de processamento de linguagem natural para dados da saúde.
“A capacidade de manipular e analisar dados de anatomia patológica apresenta excelentes oportunidades para o avanço da oncologia personalizada. No entanto, o acesso a esses dados médicos pode ser desafiador, principalmente devido à sua natureza não estruturada”, afirma Adriana Passos Bueno, membro do departamento de anatomia patológica do A.C. Camargo. “Nossa abordagem enfrenta esse problema fornecendo um método promissor para gerenciar bancos de dados de laudos de anatomia patológica, garantindo acesso automatizado, seguro e eficaz a dados estruturados com alta qualidade de laudos de anatomia patológica.”
Uma das soluções desenvolvidas internamente é o PatoDig, criada para realizar o tratamento de laudos de anatomia patológica. Foi para avaliar o desempenho efetivo dessa ferramenta que a instituição submeteu a demanda ao Insper.
O que aproximou os três estudantes foi o interesse em trabalhar com dados. Os alunos, aliás, já trabalham, mas não em saúde: João é desenvolvedor de software na IBM, Ycaro é engenheiro de analytics no Itaú e Felipe é empreendedor há um ano e meio, atualmente à frente de uma startup dedicada a apoiar as empresas na gestão de documentos financeiros utilizando inteligência artificial, a Balancete AI.
A orientação ficou a cargo do professor Maciel Calebe Vidal. “O Capstone é um processo muito intenso. Em uma empresa, você tem mais tempo para fazer onboarding no projeto, para aprender a utilizar uma determinada ferramenta”, diz o docente. “Neste caso, os alunos tinham dois meses para estabelecer o foco e começar a documentar e a escrever. Muitas vezes, em projetos envolvendo dados, é difícil visualizar quanto tempo será necessário. E os três foram eficientes e rápidos na definição do escopo.”
O trabalho foi desenvolvido em parceria com o departamento de anatomia patológica, a especialidade médica responsável por fornecer diagnóstico, estadiamento e perfil molecular de neoplasias através da amostragem de tecidos. O departamento conta com 19 médicos patologistas, que contribuem para estabelecer diagnósticos e perfil molecular de aproximadamente 60.000 exames anualmente.
Era preciso definir como atacar o desafio de gerar um algoritmo capaz de analisar os dados médicos de pacientes da área. Existem muitos exames diferentes, e foi preciso tomar uma decisão. Nesse momento, a parceria com a mentora dentro do A.C. Camargo Cancer Center foi muito produtiva, aponta Ykaro. “A doutora Adriana foi muito disposta e engajada. Ela nos recebeu pessoalmente, nos apresentou a esteira de recebimento de amostras de exames de sangue. Foi quando começamos a entender o escopo.”
O grupo propôs focar em exames de PD-L1, teste molecular realizado em laboratórios de anatomia patológica com volume de laudos menor do que outros tipos de testes. Seria, portanto, um bom modelo para testar o desempenho do projeto. Inicialmente, a equipe utilizou o SpaCy, uma biblioteca Python de processamento de linguagem natural, que apresentou um desempenho satisfatório na identificação e extração de informações específicas para exames de PD-L1.
“No entanto, para casos em que as informações eram irregulares ou ausentes, ou seja, não estavam explícitas no laudo, o SpaCy não se demonstrou escalável”, apontam os alunos, no relatório final do projeto.
“Dessa forma, para atender a essa necessidade e garantir uma solução mais abrangente e flexível, o projeto migrou para o uso de Modelos de Linguagem de Grande Escala (LLMs), que são mais aptos a interpretar e processar uma variedade ampla de contextos e estilos textuais, fundamental para o progresso e a ampliação do escopo do projeto. O modelo trouxe uma melhoria substancial.”
É uma solução viável, também para opções que geram um volume maior de laudos, caso dos exames de imuno-histoquímica. O passo seguinte foi utilizar ferramentas de visualização de dados, como PowerBI, para que as equipes médicas tenham acesso aos dados de uma maneira intuitiva é ágil.
“A solução que apresentamos pode ter continuidade no desenvolvimento, com foco em outros tipos de exames”, diz Felipe. “Foi um processo de muita aprendizagem. Tivemos que sair do mindset de sala de aula, em que a atividade seguinte acaba trazendo uma informação útil para um problema que está sendo debatido. O Capstone nos colocou na posição de solucionar desafios com maior independência, como acontece no mercado”, reforça João. “Trabalhar em grupo representou uma ótima oportunidade de aprendizagem, assim como atuar em interação com o professor e com a mentora”, aponta Ykaro.
“Alcançamos nosso objetivo e fomos além, testando tanto o SpaCy quanto um modelo LLM para identificar e extrair as informações específicas dos exames de PD-L1. Partindo do laudo original, validamos ambas as abordagens e comparamos os resultados do SpaCy com os do LLM para cada entidade coletada”, afirma Adriana.
“Esse exame detalhado nos permitiu compreender como cada modelo operava e se comportava. Além disso, exploramos maneiras de melhorar o desempenho e reduzir erros. Mais importante, identificamos qual modelo seria mais adequado para diferentes situações. Esse mapeamento minucioso dos diversos comportamentos dos modelos foi crucial para o desenvolvimento de futuros modelos de forma custo-efetiva”, ela diz.
“Estamos verdadeiramente satisfeitos com o desempenho dos alunos; foi excelente”, afirma. “O compromisso deles com as entregas semanais programadas realmente se destacou, e eles demonstraram um interesse genuíno pelo tema, que foi além do esperado.”