
Já faz algumas semanas que terminei de ler o livro “Dominados Pelos Números, Do Facebook e Google às Fake News – os Algoritmos que Controlam Nossa Vida”. Estava enrolando para fazer uma resenha, mas depois do discurso dessa semana do ministro Alexandre de Moraes na São Francisco, concluí que se tratava de uma tarefa que não podia ser mais adiada.
O núcleo do discurso do ministro foi o poder das Big Techs e a sua influência sobre milhões de pessoas ao redor do mundo. O centro desse poder residiria nos malignos algoritmos, que manipulariam mentes e nos transformariam em monstros fascistas, em troca de clics em anúncios. Essa é uma narrativa comprada a valor de face por grande parte da imprensa e do mundo político e intelectual, uma verdade auto evidente que não necessita ser provada. O problema é que não há evidência científica que comprove essa narrativa, e o livro que vou resenhar descreve as pesquisas de um cientista de dados que a desmascaram. Na verdade, vou resenhar apenas os capítulos 5 e 11, que concentram as críticas do cientista ao modo como os algoritmos são geralmente entendidos.
Em primeiro lugar, é importante falar um pouco sobre o autor. Na era da crítica ad hominem, em que vale mais quem diz do que o que se diz, um livro escrito por um trumpista raivoso ou por um jornalista da Fox News receberia pouca atenção. Mas David Sumpter, o cientista de dados autor do livro está longe, muito longe disso.
David Sumpter é inglês, doutor em Matemática pela Universidade de Manchester e é professor de Matemática Aplicada na Universidade de Uppsala, na Suécia. Sua especialidade são modelos probabilísticos aplicados a jogos, tanto que seu perfil no X é @Soccermatics, em que difunde seus modelos sobre apostas em jogos de futebol. O Google Scholar lista 178 artigos em que Sumpter aparece como autor ou coautor.
Mas não são suas credenciais acadêmicas que importam aqui, ainda que sejam importantes. O que verdadeiramente importa é o que ele pensa sobre a Vida, o Universo, e Tudo Mais. Afinal, o cara pode ser um professor fascista, não é mesmo? Não é o caso de Sumpter.
David Sumpter se define como “um inglês da classe média, de meia-idade, pai de dois filhos, que escapou da turbulência política de seu país natal para ter uma vida tranquila na Suécia” (o livro foi publicado dois anos depois do Brexit). Parece tudo, menos um ativista raivoso. E sua preocupação com o racismo e sexismo dos algoritmos, expresso ao longo do livro, parece ser algo genuíno. Portanto, não parece se tratar de um típico representante do “negacionismo da extrema-direita”.
Tendo feito essa introdução sobre o autor, vamos à obra. O livro aborda a ciência de dados aplicada a vários âmbitos, incluindo apostas esportivas, compras na internet, pesquisas eleitorais, investigações criminais e sentenças judiciais, mas vou focar na questão dos algoritmos das redes sociais. Aqui, é preciso entender o contexto.
O livro foi publicado em 2018, e provavelmente foi escrito entre 2016 e 2017 (aliás, os capítulos finais tratam dos inícios da IA generativa, ele explica bem o processo e mostra os primeiros resultados toscos da técnica). Naquele momento, não se falava de outra coisa a não ser a influência das redes sociais no Brexit e na eleição de Donald Trump. Neste último caso, o nome Cambridge Analytica se destaca, e é abordada no capítulo 5.
Apenas para lembrar: a Cambridge Analytica (CA) foi acusada de influenciar as eleições a partir da manipulação de milhões de dados a respeito da psicologia dos eleitores, obtidos em seus perfis no Facebook, à época a mais influente rede social em atividade. Na verdade, a empresa não fez muita questão de desmentir a fama. Pelo contrário, usava-a como evidência do que poderia fazer para as empresas em relação aos seus clientes.
A ideia era simples: a partir dos perfis no Facebook, a CA supostamente elaborava anúncios que apelavam para os “pontos fracos” dos eleitores, aumentando as chances de convencê-los a votarem em Donald Trump. Por exemplo,
“uma pessoa de QI baixo pode ter sido bombardeada por teorias da conspiração não confirmadas sobre as contas de e-mail de Hillary Clinton; uma pessoa com QI alto pode ter sido informada de que Donald Trump é um homem de negócios pragmático; uma pessoa com “afinidades afro-americanas” pode ter sido informada sobre uma restauração na periferia; um trabalhador branco desempregado pode ter recebido a informação de que um muro seria construído para manter imigrantes do lado de fora; e eleitores “com afinidade hispânica” podem ter sido informados sobre uma atitude firme em relação à Cuba de Castro”.
David Sumpter dedica o capítulo para descrever a sua pesquisa sobre o suposto algoritmo da CA. A história contada acima é muito convincente para leigos, mas não para cientistas como Sumpter, que conhece como funcionam os algoritmos. E algo não encaixava.
Para começar, os seres humanos não são preto no branco. Por exemplo, um latino pode ou não gostar de Fidel, e um branco desempregado pode ou não gostar de imigrantes com alguma probabilidade. O que os algoritmos fazem é uma avaliação dessas probabilidades. Aliás, a CA não inventou o método. A segmentação por preferências é algo conhecido do marketing e praticado por publicitários há décadas. A diferença é que a CA passou a ter muitos mais dados à disposição para fazer essa segmentação. E que tipo de dados? Basicamente “likes”. E é aí que mora o problema.
Enquanto a segmentação por raça, idade, gênero, estado civil e endereço eram os únicos dados disponíveis, tínhamos uma avaliação objetiva a respeito do indivíduo, ainda que estivéssemos distantes daquilo que ia em sua mente. Dois homens de 30 anos morando no mesmo bairro podem pensar de maneira completamente oposta. Os “likes” do Facebook, teoricamente, provém o que falta, um certo “perfil psicológico” do usuário, com base em suas preferências, e que poderiam desvendar as suas simpatias. Como dizia o CEO da CA, a empresa era capaz de prever a “personalidade política” de qualquer pessoa com base em seus “likes” no FB. Para agregar à teoria da conspiração, Steve Bannon, braço de direito de Trump, fazia parte da diretoria da empresa.
David Sumpter testou o modelo. Baixou um pacote com dados anônimos de 20 mil usuários do FB. Apenas um quarto desses usuários havia expressado explicitamente apoio político a algum partido. Destes, 30% eram republicanos e 70%, democratas (os dados haviam sido coletados entre 2007 e 2012, quando os democratas eram maioria no FB). Sumpter, então, rodou uma super regressão dos dados contra o partido apoiado. Uma vez ajustado, o modelo conseguiu prever bem o partido daqueles que haviam expressado o seu apoio. Ponto para o algoritmo.
O problema, no entanto, foi tentar antecipar as simpatias partidárias daqueles que não haviam expressado qualquer preferência, que eram a maioria, por sinal. E não somente as simpatias partidárias. A predição do modelo para quaisquer traços psicológicos (a partir de um modelo que ele chama de Big Five, que define uma pessoa a partir de 5 características psicológicas) era sofrível, pois o número de “likes” necessários para construir um modelo minimamente confiável é muito grande, e poucas pessoas (18%, na amostra usada por Sumpter) curtiam um número superior a 50 páginas no FB, número considerado mínimo para construir qualquer modelo de predição de personalidade.
Sumpter concluiu que, do ponto de vista estatístico, o tão falado “poder de predição” da CA era impossível de ser alcançado. Um psicólogo da CA, em conversa com Sumpter depois das eleições, afirmou sobre o CEO da CA:
“Nix (o CEO) está tentando promover o algoritmo de personalidade porque ele tem um grande incentivo financeiro para contar uma histórica sobre como a CA tem uma arma secreta”.
Sumpter coloca uma parte dessa confusão toda na mídia. Ele reproduz algumas manchetes de 2015 na revista Wired (“Como o FB o conhece melhor do que os seus próprios amigos”), no jornal Telegraph (“O FB o conhece melhor do que os membros da sua própria família”) e do NYT (“O FB o conhece melhor que todo mundo”). As 3 manchetes se referiam a um mesmo trabalho científico, que reproduzia o experimento que Sumpter faria mais tarde, com a diferença de que o poder preditivo era medido pela capacidade de antecipar respostas a um questionário. A regressão “previu” melhor algumas respostas, mas isto está longe de provar que o FB prevê o seu comportamento. Segundo Sumpter, do ponto de vista científico, as manchetes transmitem uma ideia falsa e sensacionalista sobre o que os algoritmos conseguem fazer.
Sumpter observa que, depois da eleição de Trump, a CA removeu a referência ao modelo de personalidade Big Five de seu site. No final, descobriu-se que o FB mandou que a empresa deletasse todas as informações de “curtidas” de sua base de dados, no que foi atendido. Assim, todo o trabalho da CA foi baseado nos velhos dados de segmentação por idade, gênero, cor, etc. Em resumo, a CA praticou uma farsa para se autopromover, mas, até hoje, cita-se o seu caso como um exemplo de “manipulação das redes sociais para fins políticos”.
Ao longo do livro, Sumpter se mostra, nas palavras dele,
“menos preocupado com o fato de algoritmos fazerem predições perigosamente acurada sobre nós e mais preocupado em como eles estavam sendo apresentados”.
Ou seja, há uma crença sobre o poder dos algoritmos muito acima do que os algoritmos são realmente capazes de entregar, e a mídia, em particular,
“tem muita dificuldade em escrever artigos sensatos baseados em pensamentos probabilísticos”.
Na verdade, acrescento eu, não interessa escrever artigos “sensatos”, porque não geram engajamento.
No capítulo 11, Sumpter aborda um tema sempre presente quando falamos da influência das redes sociais: a criação de “bolhas” e o efeito “polarização” provocados pelos algoritmos. Lembre-se, o livro foi escrito pós Brexit e eleição de Trump e, segundo Sumpter,
“Havia uma necessidade desesperada para explicar como e por que os eleitores, de uma hora para outra, não concordavam com o que a maioria de nós considerava ser um consenso estabelecido sobre como as coisas devem ser feitas”.
Sumpter notou que uma explicação recorrente
“… era que os algoritmos seriam os culpados por informar as pessoas erroneamente. O New York Times, o Washington Post, o Guardian e a Economist estavam entre os muitos meios de comunicação nos quais foram publicadas reportagens, que soavam como matemática, sobre o isolamento e a polarização criados por algoritmos.”
Essa “explicação” deixou o autor desconfortável com a forma como a matemática estava sendo usada nessas reportagens e o que elas sugeriam sobre as pessoas que estavam expostas às redes sociais. Em suas palavras
“Eram os americanos assim tão estúpidos a ponto de as únicas mensagens que eles não filtraram serem aquelas geradas por adolescentes da Macedônia e trolls russos? As pessoas estavam assim tão influenciadas pelo que viam no Facebook? Muitos dos meus colegas achavam que sim. Eu não estava tão certo.”
Sumpter começa sua pesquisa a partir de um artigo escrito em 2004, quando o que existia eram apenas blogs políticos. Esse artigo relacionava os links entre blogs liberais e conservadores, e concluía que cada um ficava em sua respectiva bolha, ainda que ambos se alimentassem de reportagens das mesmas mídias mainstream. O mesmo iria acontecer anos depois com o Facebook e outras redes sociais, mas daí já como efeito dos “filtros” criados pelos algoritmos. O Facebook, dessa maneira, cria bolhas. Nas palavras de Sumpter,
“Os usuários ficam presos em ideias autocorroboradas e interações com um grupo menor de amigos.”
Mas é aí que a teoria das bolhas encontra um processo autolimitante. Em uma pesquisa sobre bolhas de teorias da conspiração, Sumpter constatou que, quanto maior o alcance da teoria (em termos de visualização de vídeos no YouTube, por exemplo), maior a chance de ter comentários e reações contrários. Ou seja, bolhas devem ser pequenas, caso contrário seu efeito se perde.
Em 2013, o mesmo cientista que havia escrito o artigo de 2004 sobre blogs políticos, realizou uma pesquisa com a base de dados do Facebook, e descobriu que, ao contrário das relações estanques encontradas em 2004, no Facebook havia uma fluidez muito maior. Por exemplo, 34% do conteúdo compartilhado por amigos de conservadores eram de notícias liberais, contra uma média de 40% no Facebook como um todo. Do outro lado, 23% do conteúdo compartilhado por amigos de liberais era notícias conservadoras, contra 45% na média do Facebook. Números que indicam um certo filtro, mas bem menos do que o que havia sido constatado no artigo dos blogs políticos de 2004.
O ponto é que somos seres multidimensionais. Temos uma rede de contatos (família, amigos, colegas e ex-colegas de trabalho, ex-colegas de escola, etc) que podem ter, e geralmente têm, opiniões política diversas. O resultado disso é que somos expostos a diferentes opiniões políticas o tempo inteiro. A conclusão do estudo é que
“Nós somos mais propensos a ver artigos em nosso feed de amigos mais próximos, mas as opiniões políticas expressas não são mais extremas do que aquelas expressas por todos os nossos amigos. Grande parte do que vemos no Facebook não está de acordo com as nossas próprias opiniões.”
E também:
“… tanto liberais quanto conservadores ficavam expostos a somente um pouco menos de opiniões opostas por intermédio do filtro do que se o FB tivesse fornecido publicações aleatórias em seu feed”.
Isso aconteceu justamente porque há uma diversidade de origens das pessoas que interagem conosco, e essas origens geralmente pouco tem a ver com pensamento político. Alguém poderá dizer que com o Whatsapp é diferente, porque escolhemos os grupos aos quais pertencemos. Sim, mas aí não é mais o algoritmo o culpado, não é mesmo? Afinal, nós mesmos é que fazemos o filtro e criamos a nossa bolha.
Para encerrar esta resenha, vou transcrever o final do capítulo 11, em que Sumpter como que resume as suas conclusões a respeito da suposta influência dos algoritmos em nosso comportamento:
“Há muito exagero com o Facebook e seu efeito em nossa vida. Mas o que me deixou mais perplexo, após uma reanálise cuidadosa dos grandes estudos feitos e após conversar com os pesquisadores envolvidos, foi que os resultados eram, quase sempre, distorcidos ou exagerados quando transmitidos pela mídia.
O exagero dissonava com meu próprio entendimento da ciência. Sim, o Facebook poderia inflar uma pequena bolha no dia de uma eleição que fizesse um número um pouco maior de pessoas votar. Sim, poderia esvaziar ligeiramente nossa bolha emocional, nos mostrando apenas publicações depressivas. E, sim, o Facebook não provê notícias que sejam inteiramente representativas da ampla variedade de opiniões expressadas pelo mundo inteiro. Mas nenhum desses seria um efeito transformador de vida. O efeito do Facebook em nossa vida é muito pequeno comparado ao efeito de nossas interações diárias com pessoas na vida real.”
O livro tem muito mais do que vai nessa breve e parcial resenha. Vale muito a leitura.
Este artigo foi publicado pela primeira vez em https://marceloguterman.substack.com/p/dominados-pelos-numeros.