Como as ferramentas de observabilidade podem ajudar as empresas a identificarem e resolverem problemas antes que eles afetem os clientes
Luiz R. B. Cristovão*
No mundo de hoje, podemos afirmar que não há mais negócios que não sejam digitais. Desde o mais sofisticado modelo, como bancos ou serviços de entrega, que dependem de uma gama tecnológica altamente especializada, até os negócios mais simples, que em boa parte necessitam de aplicativos de mensagens e redes sociais para atingir seu público. Todos estão sujeitos a cometer um erro e perder a confiança dos clientes — vemos bancos apresentando erros em saldos de contas, falhas nos provedores de nuvem que geram instabilidades em diversos negócios e até mesmo as grandes plataformas do Vale do Silício ficando fora do ar por horas. Qual é a solução?
Sou defensor da ideia de que só se gerencia o que se mede e, para manter um sistema funcionando corretamente, dentro das expectativas dos clientes, precisamos de KPIs (key performance indicators) muito bem estabelecidos e uma forma robusta de medi-los. Nesse sentido, a disciplina de observabilidade pode nos prestar um grande favor.
Para quem não está familiarizado com esse conceito, observabilidade é a coleta de dados de formatos diversos, de n fontes, com o intuito de correlacioná-los e gerar inteligência e insights, que nos digam exatamente como está a saúde dos sistemas, o estado da experiência dos clientes, os resultados do negócio. E se em algum momento houver um desvio da tendência esperada, que nos digam se isso tem relação com o ambiente de tecnologia. Em seu estado mais maduro, a observabilidade também nos traz dados preditivos de falhas nos sistemas. Ou seja, nos informa se há uma degradação na entrega de determinado serviço que possa afetar a experiência dos clientes e, consequentemente, os resultados do negócio.
A boa notícia é que os profissionais de tecnologia e negócios estão dando bastante atenção ao tema. De acordo com o relatório “The Age of Application Observability”, produzido em 2023 pela Cisco, 85% dos 1.140 entrevistados, incluindo brasileiros, declararam que observabilidade é uma prioridade estratégica em suas empresas, ainda que os desafios sejam significativos. Serviços em nuvem vieram para resolver muitos problemas, entre eles a agilidade de que os profissionais de TI necessitam na entrega de novos serviços e funcionalidades, mas também trouxeram novos contratempos. As arquiteturas de tecnologia ficaram muito mais complexas e foi-se o tempo em que tínhamos os sistemas sob nosso controle. Hoje as estruturas são efêmeras e o número de serviços de que os provedores de nuvem dispõem para resolver os diversos tipos de desafios geram um volume de dados que cresce exponencialmente, tornando humanamente impossível monitorar os sistemas manualmente.
Outra questão de grande relevância é a colaboração entre os times de tecnologia. É comum observarmos a existência de silos dentro de uma organização de TI — profissionais de cada área tendem a monitorar seu próprio ambiente, sem uma visão comum e contextualizada da oferta de negócios. Para sabermos quão divididos estão os nossos times de tecnologia, basta contarmos as representações da organização de TI que existem em uma sala de guerra, um espaço muito comum nas empresas para resolver crises. Um exemplo clássico é quando há uma crise em andamento e os times rapidamente encontram evidências para dizer que o problema não é deles, em vez de colaborar com dados relevantes que possam levar a uma indicação de onde está a causa-raiz.
É papel da observabilidade apresentar caminhos para essas complexidades, e a jornada deve se iniciar com a compreensão do grau de maturidade da empresa nesse tema. É fato que toda organização tem minimamente algumas ferramentas de monitoramento, mas, se houver muitos silos, provavelmente o nível de maturidade é baixo e deve-se fazer um trabalho no sentido de unificar as frentes de monitoramento, buscando maior comunicação entre os times. Outros aspectos importantes são o engajamento das equipes de desenvolvimento para que a observabilidade nasça na organização desde o momento da criação de novas aplicações, a adoção de um padrão como o OpenTelemetry para normatização dos dados, iniciando por aquelas aplicações mais críticas para o negócio da empresa — onde há grande risco de exposição de marca, impacto no NPS (net promote score) e perda de receita.
Outros aspectos que mostram a baixa maturidade é a falta de contexto de negócios e o baixo engajamento do time. As definições relacionadas ao monitoramento dos KPIs ligados a receita, produtividade, jornada do cliente, volume de tráfego e tempo de resposta aceitável para uma transação, entre outros, devem ser feitas em conjunto. Um último aspecto, não menos importante, é contar com a inteligência artificial para maior agilidade na identificação de potenciais problemas, na investigação da causa-raiz de problemas existentes e na definição da relação causa-efeito. O objetivo é diminuir o famoso MTTR (mean-time-to-repair), um dos indicadores mais importantes, que precisamos estabelecer e medir.
O tema é complexo e, durante a jornada, devemos sempre fazer o exercício de voltar ao básico quando nos deparamos com questões difíceis. A observabilidade é mais uma ferramenta que possibilita entregarmos a melhor experiência aos clientes. Por isso, em primeiro lugar, coloque-se no lugar deles, pense como eles, faça o raciocínio de fora para dentro e defina o que é mais importante para seu usuário. Após esse exercício, defina os KPIs, os papéis de cada equipe, modele as respostas. Somente após essas definições, parta em busca de uma plataforma tecnológica. Nunca faça o caminho contrário e não deixe que um produto defina seu modelo.
*Luiz R. B. Cristovão, graduado em Engenharia Elétrica, é alumus do Insper, onde cursou o MBA em 2019. É diretor regional da Cisco Brasil.