[{"jcr:title":"Aprenda o que é e para que serve um pipeline de dados"},{"targetId":"id-share-1","text":"Confira mais em:","tooltipText":"Link copiado com sucesso."},{"jcr:title":"Aprenda o que é e para que serve um pipeline de dados","jcr:description":"A ideia é possibilitar que dados de fontes diferentes sejam integrados com eficiência, gerando insights para a empresa"},{"subtitle":"A ideia é possibilitar que dados de fontes diferentes sejam integrados com eficiência, gerando insights para a empresa","author":"Ernesto Yoshida","title":"Aprenda o que é e para que serve um pipeline de dados","content":"A ideia é possibilitar que dados de fontes diferentes sejam integrados com eficiência, gerando insights para a empresa     Bruno Toranzo   Na indústria de gás e petróleo, o pipeline é um tubo de grosso calibre para o transporte desses combustíveis a locais distantes. O objetivo é fazer com que eles saiam dos locais de produção e cheguem ao mercado, para posteriormente ser distribuídos ao consumidor. Essa é a dinâmica também do chamado pipeline de dados, que tem sido cada vez mais utilizado no contexto da transformação digital. Por meio dele, [ocorre o processamento correto dos dados, com o propósito de gerar inteligência para os negócios](https://www.insper.edu.br/educacao-executiva/cursos-de-curta-duracao/estrategia-e-negocios/data-science-analise-exploratoria-de-dados/) .   O que é um pipeline de dados? Trata-se de um conjunto de etapas que levam dados do ponto A ao ponto B. O ponto inicial é o lugar onde os dados são gerados — as chamadas fontes de dados ou data producers . Já o destino são geralmente os usuários ou data consumers . Nesse ponto B, os dados ficam hospedados em um [data warehouse](https://www.insper.edu.br/noticias/data-warehouse-o-que-e-para-que-serve-e-como-funciona/) centralizado ou banco de dados. O processamento de dados está baseado no pipeline, o que demonstra a relevância desse conceito para os arquitetos de dados. Entre esses dois pontos, os dados passam por transformações e integrações, a fim de que cheguem prontos ao destino para aplicação na finalidade desejada. Uma das características da transformação é modificar os dados. Isso é feito por meio de padronização, ordenação, validação e verificação, permitindo que os dados fiquem “limpos” e prontos para análise. O pipeline de dados recebe, portanto, dados brutos e, na sequência, promove a limpeza e o redirecionamento deles. Por fim, executa cálculos ou agregações antes de armazenar os dados processados, que são consumidos pelos clientes, relatórios ou APIs ( Application Programming Interfaces ou Interfaces de Programação de Aplicação).   LEIA TAMBÉM: [• Alfabetização em dados é competência essencial para qualquer profissão](https://www.insper.edu.br/noticias/alfabetizacao-em-dados-e-competencia-essencial-para-qualquer-profissao/)   Para que serve um pipeline de dados? O propósito é gerar inteligência para o negócio. Quando bem trabalhados, os dados podem resultar em insights para o dia a dia da empresa. O pipeline de dados permite que dados de fontes diferentes sejam integrados com eficiência. Por meio dele, é possível analisar dados relativos ao comportamento do cliente-alvo, que pode ser o consumidor final, automação de processos, jornadas do comprador e experiências do cliente. Em uma economia tecnológica como a de hoje e altamente competitiva, essa inteligência não pode ser descartada, sendo, na realidade, indispensável para os negócios. Um site de comércio eletrônico, por exemplo, pode identificar a etapa da jornada de compra com maior porcentagem de desistência. Isso pode significar descobrir o motivo pelo qual o consumidor não está efetivando a compra. Ou, ainda, qual é a experiência de compra mais desejada ou buscada por seu cliente — a partir de dados diversos que indiquem o canal de compra predileto e o gatilho de compra mais efetivo, como descontos enviados por e-mail. Com o pipeline de dados, é possível, ainda, obter esses insumos de forma instantânea. Quem navega bem por esse ambiente obtém análises rápidas e precisas — destinadas inclusive a determinadas necessidades organizacionais. Outra vantagem do pipeline de dados é que ele reduz o esforço de análise porque entrega somente as informações necessárias à equipe ou ao projeto. Os administradores podem até mesmo restringir o acesso às informações dos pipelines. Essa questão de segurança é imprescindível frente ao crescimento das ameaças cibernéticas.   LEIA TAMBÉM: [• Data warehouse: o que é, para que serve e como funciona](https://www.insper.edu.br/noticias/data-warehouse-o-que-e-para-que-serve-e-como-funciona/)   Quais as diferenças entre pipeline de dados e ETL? A sigla ETL significa extract (extrair), transform (transformar) e load (carregar). Há algumas diferenças entre ETL e pipeline de dados. O ETL está concentrado em um sistema específico de armazenamento de dados, diferentemente do pipeline de dados, que se caracteriza por ser abrangente nesse aspecto. O ETL é especialmente útil para centralizar as fontes de dados, com o objetivo de ajudar a empresa a visualizar uma versão consolidada dos dados. Os profissionais de CRM, por exemplo, podem utilizar a solução ETL para extrair os dados dos clientes de vários pontos de contato referentes à jornada do cliente. O ETL move os dados em lotes para esse sistema específico em intervalos regulares. Já o pipeline de dados tem como característica uma aplicabilidade ampla para transformar e processar dados. Em outras palavras, no ETL, os dados são movidos em grandes volumes para o sistema de destino e em determinado horário. Pode ser executado, por exemplo, uma vez a cada 12 horas. O pipeline de dados, por sua vez, é um processo em tempo real. Isso torna ainda mais ágil o processamento de dados, permitindo fazer análises de negócio sempre atualizadas. Por fim, o pipeline de dados, ao contrário do ETL, não precisa finalizar o carregamento de dados em um banco de dados ou data warehouse . É possível carregar os dados para qualquer sistema de destino, como um bucket da AWS ou um data lake ."}]