O AI engine optmization e suas consequências

Mais uma grande inovação que o hype da IA generativa nos traz. Agora você não precisa mais avaliar informações potencialmente falsas. O seu agente de IA vai consumir as lorotas e agir baseado nelas sem você precisar mover um dedo!

Assista completo no canal:

Esta nova reportagem da 404 Media comenta sobre um artigo demonstrando como LLMs e agentes são enganados por simples comentários do Reddit:

https://www.404media.co/it-is-trivially-easy-to-use-reddit-to-manipulate-ai-search-research-suggests/

Um fenômeno que já foi notado antes por administradores de sites e que já tem um nome e nicho de influenciadores o AEO (ou AI-engine optimization)

A pesquisa da Cornell revela que os agentes de busca profunda - aqueles scrapers em tempo real utilizados por ferramentas como a busca com IA do Google e o ChatGPT para recuperar conteúdo da web com citações em resposta às consultas dos usuários - citam conteúdo gerado por usuários (de sites como Reddit ou Wikipedia) em cerca de metade de todas as consultas, e que quase um quarto de todas as citações provêm de sites desse tipo.

O estudo sugere que o que temos visto é, basicamente, a transformação da sugestão de um usuário do Reddit - como colocar cola na pizza - em um serviço, ou então um ataque de ponta a ponta contra os sistemas que dominam cada vez mais a maneira como as pessoas acessam informações online. Os pesquisadores constataram que "um único comentário 'envenenado' no Reddit pode influenciar as respostas geradas para todo um conjunto de consultas relacionadas [à IA]", segundo o artigo.

Ver exemplo sobre o restaurante de comida mexicana no artigo:

“Demonstramos que um trecho minúsculo - de apenas 13 palavras - de texto recuperado em um site de conteúdo gerado pelo usuário (UGC), como Reddit, Wikipedia, Quora, Facebook, etc., pode levar agentes de IA a gerar conteúdo de spam ou golpes de maneira bastante consistente”, disse Triedman ao 404 Media.

Este artigo só confirma e demonstra uma coisa que editores da wikipedia e todo tipo de site com conteúdo gerado por usuários já vem dizendo faz muito tempo. Existe mais um custo escondido na “revolução da IA”, na “democratização da inteligência”, no “aumento massivo de produtividade” e ele é a diluição do conhecimento e a automatização da burrice
Sempre lembrar do ciclo, o oroboros de lixo comendo o seu próprio rabo feito com slop de IA:
- Sites proveem a infra e usuários proveem o conteúdo → IA papa todo o conteúdo → IA canibaliza o público e sustento dos sites → IA enfia conteúdo de baixa qualidade de volta nos sites → IA papa todo conteúdo → …
E quais as consequências reais desse efeito?

Por exemplo, na semana passada escrevemos sobre o subreddit r/biohackers ter proibido discussões sobre peptídeos, uma vez que o volume de empresas promovendo esses produtos por meio de conteúdo não autêntico havia se tornado excessivo, e sobre a ascensão de empresas como a RedRover, que anunciam realizar ações de posicionamento de marca no Reddit com o objetivo expresso de alterar os resultados de busca gerados por IA.

Essa pesquisa está em sintonia com o que temos observado na prática: artistas, celebridades e pessoas comuns também notaram que a busca por IA captura textos aparentemente insignificantes ou imprecisos espalhados pela web e os apresenta como se fossem fatos. Esse cenário também ganha relevância à medida que empresas começam a abastecer seus sites com conteúdo voltado especificamente para a otimização para mecanismos de resposta (AEO) - visando agentes de IA - e diante de uma decisão judicial na Alemanha estabelecendo que o Google pode ser responsabilizado pelo conteúdo exibido em seus resumos gerados por IA.

A maneira por que esse tipo de ‘hack’ funciona é que o AEO pode gerar padrões que aproximam as buscas por certo tipo de conteúdo e os agentes de IA tendem a rankear um comentário do reddit com o mesmo nível de importância que um texto científico (afinal é apenas texto)
- Lembrem que mesmo resolvendo esse problema do ranking ainda estamos no ciclo oroboros de slop

Manipular os resultados de LLMs é, basicamente, tão fácil quanto fazer postagens direcionadas em subreddits altamente relevantes para o setor ou a empresa que você deseja promover, formulando o comentário de modo a coincidir com consultas comuns feitas a esses modelos e tentando escapar da moderação pelo maior tempo possível, disse Triedman.

E de novo, eu não tava brincando que isso é a automatização da lorotagem na internet, considerem esse vídeo aqui do ano passado:

Aqui nós descrevemos como fazendas de bots, alimentados por LLM, são usados para manipular a opinião média nas redes sociais. Só que esse trabalho fica muito mais fácil se é preciso apenas manipular a opinião do resumo de IA do google por exemplo
- Por que, ignorando o meu espernear e gritar, muitas pessoas já consultam somente o resumo de IA da Google ou uma conversa de ChatGPT como fonte

Alguns pensamentos finais:

Isso novamente cai no ‘vale da estranheza’ da IA generativa que eu já comentei em vídeos passados. O que é mais danoso pra sociedade?
- “Aumente seu pênis. Esse suplemento milagroso que os invejosos não querem que você descubra por apenas R$99!!!”
- “Diversos usuários relatam sucesso e um aumento de 25% em seus penises com o uso de medicamentos naturais à base de Cesio-137.” + 4 fontes provavelmente erradas e que você não vai clicar
A internet como existia já morreu faz tempo e isso está instrinsicamente ligado ao fluxo de grana e investimento em tecnologia. Não é coincidência que a opinião dos defensores de IA é exatamente a mesma das empresas que vendem esses produtos:
- “Se você não se adaptar vai ficar pra trás” → Você agora paga tokens pra chegar no mesmo resultado de maneira mais rápida e sem garantia nenhuma de qualidade
- “A direita está usando IA e a esquerda só sabe demonizar” → Me mostrem um uso que não seja mentir, enganar ou destruir as bases da confiança na informação e eu estarei usando com prazer
- As ideias de uma época são as ideias da classe dominante
Eu estou explicitamente escolhendo não demonizar quem usa esse tipo de ferramenta e investir na conscientização de como elas funcionam.
Não deleguem o seu pensamento para ferramentas de IA!

Tecnologia e Classe

O AI engine optmization e suas consequências

Alguns pensamentos finais: