Estudo global coletou dados de mais de 8 milhões de sites e traz informações sobre como foram construídos
Bernardo Vianna
Pesquisadores do HTTP Archive, um projeto do Internet Archive, organização sem fins lucrativos que mantém uma espécie de banco de dados digital da web, periodicamente percorrem milhões de sites da rede mundial de computadores e recolhem informações detalhadas sobre como são desenhados, as tecnologias utilizadas em seu desenvolvimento e até mesmo a performance do carregamento de suas páginas. Os dados são coletados levando em consideração tanto a versão desktop quanto os dispositivos móveis dos sites visitados, e o resultado pode ser conferido em The 2022 Web Almanac.
Com base nos dados coletados ao longo dos dez últimos anos, é possível observar que a mediana do tamanho das páginas em bytes traça uma curva com tendência de crescimento constante. Desde 2012, páginas para desktops estão 1,6 MB (megabyte) mais pesadas (221%), enquanto páginas mobile cresceram 1,7 MB (594%).
Ao longo desse mesmo período, a disseminação de diferentes técnicas e processos de automação de coleta de dados tornou importante que as páginas web possam ser facilmente lidas não apenas por humanos, como também por máquinas. Um exemplo disso são os robôs que alimentam os motores de ferramentas de busca, que, por sua vez, melhor poderão direcionar tráfego para determinado site.
Há diversos modelos por meio dos quais é possível referenciar conteúdos em texto, imagem, áudio e vídeo para que robôs que visitem determinada página entendam de que assunto ela trata. Assim, apresentando as informações como dados estruturados, um site pode ser lido como um banco de dados, o que amplia as possibilidades de interação entre site, máquinas e humanos, criando a base para o que chamamos de web semântica.
A edição de 2022 do Web Almanac é a segunda vez em que a publicação coleta informações sobre como os sites organizam seus dados de forma estruturada. De acordo com a publicação, os formatos mais utilizados são o RDFa e o Open Graph, seguidos por Twitter meta tags e JSON.
Existe, porém, um tipo de acesso por máquina que os sites modernos desejam evitar — aquele feito por robôs programados para explorar os dados disponibilizados de forma indevida. De acordo com o Web Almanac, os serviços de proteção contra robôs maliciosos mais utilizados são o reCaptcha e o Cloudflare.
Em 2022, porém, o principal público das páginas web ainda é formado por pessoas e, por isso, há uma série de métricas utilizadas para verificar o grau de acessibilidade das páginas para olhos humanos. Um desses indicadores é justamente o que mede se há ou não suficiente contraste de cores nas páginas para que a leitura seja confortável, o que foi verificado em apenas 22% dos sites avaliados.
Outro fator importante de acessibilidade são as especificações ARIA, ou Accessible Rich Internet Applications. Por meio de marcações no código da página é possível descrever a função de cada elemento para aplicativos de leitura de tela, permitindo que pessoas com baixa visão possam interagir com botões, menus suspensos ou qualquer outro elemento interativo.