A ciência de dados tem ganhado muita atenção na última década. A criação de vários programas de graduação e pós-graduação, no Brasil e no exterior, é um testamento desse avanço. Empresas e indústrias, das mais diversas áreas, estão consolidando áreas de ciência de dados, comumente agregando expertise vinda predominantemente da estatística e da ciência da computação.
Reunindo quatro mulheres cientistas de dados e futuros profissionais da área para debater suas áreas de atuação, seus desafios profissionais e, igualmente importante, seus desafios num ambiente ainda predominantemente masculino, o workshop contou com tutoriais introdutórios de R e Python para ciência de dados, baseados em exemplos reais tais como a relação entre doenças infecciosas e vacinação, com três palestras. Nelas, as cientistas de dados dividiram conosco a importância da visualização de dados, além de abordarem termos relevantes como data literacy e visual literacy. Também falaram sobre causalidade no mundo atual dos algoritmos de aprendizagem de máquina e aplicações altamente complexas em geoprocessamento.
Tutorial: Python para Ciência de Dados (Paloma Schwartzman, iFood)
Tutorial: R para Ciencia de Dados (Marina Muradian, Doutorado Insper)
Palestra I: DataViz: O Canivete Suíço da Ciência de Dados (Nathalia Demétrio, Cabify)
Palestra II: Causalidade em Ciência de Dados (Paloma Schwartzman, iFood)
Veja como foi o evento:
Evento gratuito e sujeito à lotação do espaço.
Data: 22/11/2019
Horário: 09h00
Local: Octavio Gouvea de Bulhões - 2º andar - Prédio 1
Entrada: Rua Quatá, 300 - Vila Olímpia
Estacionamento: Rua Uberabinha, s/n – Vila Olímpia
Python para ciência de dados: Paloma Schwartzman (iFood)
O objetivo do tutorial é mostrar como um cientista de dados pode utilizar o Python no pipeline de construção de modelos. Serão abordados os seguintes tópicos:
Noções básicas de Python para análise exploratória de dados utilizando bibliotecas como Pandas, NumPy e Seaborn;
Noções básicas de estatística utilizando a biblioteca SciPy;
Construção de modelos preditivos usando o scikit-learn.
Coffee break
R para ciencia de dados: Marina Muradian (Insper)
Em formato de estudo de caso, o workshop será uma introdução à análise de dados usando o R, passando pelas etapas de preparar, visualizar e modelar. Utilizando pacotes do tidyverse como dplyr e ggplot2 para preparação e visualização dos dados, o caso utilizará modelos de análise multivariada e séries temporais para analisar os dados de doenças infecciosas e vacinas nos Estados Unidos ao longo dos anos.
Almoço
DataViz, o canivete suíço da Ciência de Dados: Nathalia Demetrio (Cabify)
A visualização de dados, ou simplesmente DataViz, é um recurso fundamental dentro de qualquer uma das etapas da Ciência de Dados, contemplando desde o entendimento do problema e modelagem dos dados, até a apresentação das conclusões propriamente dita. Porém, apesar da relevância e complexidade deste tema, visto demandar desde conhecimentos técnicos até toda a ciência social que envolve a transmissão de uma mensagem, a “visualização de dados” é praticamente negligenciada dentro dos materiais relacionados à Ciência de Dados.
Causalidade em ciência de dados: Paloma Schwartzman (iFood)
Essa apresentação falará sobre a importância de inferir causalidade ao invés de correlação em diversas aplicações dentro de Ciência de Dados. Os modelos/algoritmos tradicionais de Machine Learning/Deep Learning muitas vezes falham em estimar o efeito causal de determinada intervenção/variável, no entanto, o futuro da Ciência de Dados/ Inteligência Artificial depende de uma melhor inferência destas relações de causa-efeito. Serão apresentadas, resumidamente, algumas técnicas desde experimentos aleatórios controlados até métodos observacionais como árvores aleatórias causais, modelos uplift, propensity score e causalidade em séries temporais.
Aprendizado de máquina para descoberta de recursos naturais: Bianca Zadrozny (IBM Brasil)
A palestra trará uma visão geral de alguns dos projetos mais recentes do grupo Natural Resources Analytics da IBM Research Brasil, cuja missão é desenvolver novas técnicas de aprendizado de máquina que levem em conta as características dos dados da subsuperfície terrestre e conhecimento especializado para auxiliar geocientistas na descoberta de recursos naturais. Será concentrando em um projeto em parceria com a mineradora Goldcorp no Canadá, onde utilizamos aprendizado de máquina para prever o nível de mineralização de ouro com base na informação geológica circundante.
Mesa redonda: desafios correntes e futuros (Nathalia, Paloma & Bianca)
Encerramento
Evento gratuito e sujeito à lotação do espaço.
É de conhecimento do participante que eventuais filmagens e/ou fotografias realizadas no evento poderão ser utilizadas em qualquer meio de mídia para uso institucional.
Bacharel em Administração de Empresas pelo Insper (2012) e Mestre em Administração pela Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo (2016). Atualmente é Doutoranda em Business Economics pelo Insper com área de pesquisa em Marketing Analytics e é professora do Insper.
Bacharel em estatística pela UFPE e mestre pela USP, atende por estatista, cientista de dados, growth hacker, ou o que melhor definir uma profissional apaixonada pela mistura de: dados, programação, comunicação e propósito. Com experiência em áreas como pesquisa de mídia e fusão de dados pela Kantar IBOPE Media, insights 'go to market' e business performance pela VIVO, atualmente é Growth Manager na Cabify. Conselheira eleita no CONRE-3, co-organizer das R-Ladies São Paulo, mãe do Guga, entre outros, acredita na responsabilidade individual e coletiva em relação ao meio em que vivemos.
Graduada em Economia pela UFRJ, Paloma Schwartzman fez mestrado acadêmico em Teoria Econômica na FEA/USP, com foco em econometria, e doutorado em Estatística pelo IME/USP. Desde cedo tem interesse em inferir padrões através de dados e descrever/ prever 'o mundo' através de modelos matemáticos. Atuou em diversas empresas com Modelagem Estatística/Ciência de Dados como LCA, Itaú, Almap e iFood e deu aulas de econometria no Insper. Defensora da causa de mais mulheres em Exatas/ Tecnologia e educação plural.
Lidera o grupo de pesquisas em análise de dados para recursos naturais na IBM Research Brasil desde 2012. A missão do grupo é desenvolver técnicas de aprendizado de máquina para auxiliar geocientistas no processo de descoberta de recursos naturais. Bianca é graduada em Engenharia de Computação pela PUC-Rio e tem mestrado e doutorado em Ciência da Computação pela Universidade da Califórnia, San Diego. Ela é uma pesquisadora ativa nas áreas de aprendizado de máquina e mineração de dados, tendo publicado mais de 40 artigos científicos.