Perguntar sem incomodar para alimentar modelos "exactos" do cidadão de carne e osso
Tinha feito a promessa ao leitor e a mim mesmo que discutiria o impacto da aprendizagem automática no funcionamento da Democracia, usando como desculpa alguns frases do livro "A Revolução do Algoritmo Mestre" do Prof. Pedro Domingos. Tendo o livro sido escrito originalmente há quase uma década atrás, o Prof. Pedro era - pelo menos nessa altura, agora não faço ideia - um optimista de que a Democracia iria funcionar melhor.
Neste texto resolvi trazer à discussão a seguinte frase do livro (pág. 43):
No futuro, desde que os modelos de eleitores sejam exatos, os representantes eleitos poderão perguntar mil vezes por dia aos eleitores o que estes querem e agir em conformidade - sem ter de importunar os verdadeiros cidadãos de carne e osso.
Esta frase transmite duas ideias que considero um pouco contenciosas. Que é possível criar modelos "exactos" de nós os eleitores através de muitos dados. E que esses mesmos dados podem ser colectados sem incomodar os cidadãos de carne e osso e sem haver consequências. Essas duas ideias causaram-me um certo desconforto, tal como vou explicar abaixo.
Mas antes de fazer disso, quero deixar a ressalva de que a frase acima é uma tradução do inglês. Não tendo tido acesso à versão original do livro, posso estar a sobre-interpretar a frase em discussão. Se assim o for, peço desde já as minhas desculpas ao leitor e ao Professor Pedro Domingos.
Na senda de modelos "exactos"
A realidade que nos rodeia é extremamente complexa e como tal, recorremos a representações aproximadas da mesma. Essas representações são chamadas de modelos cuja fidelidade da realidade é em certa medida controlada pela nossa atenção e consciência do que estamos a observar. No caso particular da Estatística, usam-se inúmeros modelos matemáticos que ajudam a descrever a probabilidade de observar um determinado conjunto de dados, que permitam captar os padrões de incerteza que os dados aparentam apresentar, e que permitam fazer julgamento da possível relação causal entre várias variáveis. Neste contexto, os dados são a matéria-prima sob a qual vamos construir um modelo matemático que torna a interpretação da realidade um pouco mais tangível ou simples.
Assim sendo, não é de espantar que o exercício de modelar (ou analisar) um conjunto de dados possa ser visto quase como um processo criativo onde uma bonita escultura (o modelo) emerge de um bloco de pedra sem forma definida (os dados observados). Assim sendo, a modelação estatística é uma mistura de arte com ciência, mistura essa que, no entanto, deve obedecer a algumas regras de consenso. Uma dessas regras é o princípio da parcimónia, também conhecido por Navalha de Ockham. Este princípio advoga que, dentro de todos os modelos que possam descrever bem os dados, se deve escolher aquele que seja o mais simples do ponto de vista de interpretação ou do número de suposições admitidas para os dados (1).
É neste esquema conceptual que George E. P. Box escreveu judiciosamente de que "all models are wrong but some are useful", frase que já citei em dois textos deste blogue. Fiquei então surpreendido com a sugestão da frase em discussão de que podemos construir modelos "exactos" desde que tenhamos muitos dados (2). Do meu ponto de vista, não podemos nunca aspirar a isso e portanto a frase parece-me estar a "vender gato por lebre" em termos das riquezas infinitas que os modelos podem trazer (3). Penso que a ideia de criar modelos "exatos" é um sintoma do Dadismo (Dataism), uma espécie de religião moderna descrita pelo historiador Yoan Noah Harrari no seu livro "Sapiens". De facto, a crença central do Dadismo é que dados são tudo o que precisamos para compreender e navegar no o mundo. Como corolário, se tivermos uma infinitude de dados disponíveis, podemos ambicionar a representação exata da realidade, seja esta na sua vertente política, social e, quiçá, até espiritual (3). Não é isso que a Inteligência Artificial e o movimento Big Data ambicionam fazer atualmente?
A este ponto da discussão, volto a pegar nas ideias que expus nos meus dois últimos textos sobre o pós-modernismo. Se a verdade de hoje deixa de o ser amanhã, principalmente em política, e mesmo crendo que é possível criar modelos "exactos" da realidade, como é possível criar esses modelos de um dia para outro? A pista para a resposta a essa questão está exatamente no "perguntar mil vezes por dia" ao cidadão de carne e osso. Vamos lá discutir o que isso significa na prática.
Perguntar mill vezes por dia ao cidadão de carne e osso
Se o leitor chegou a este blogue e a este texto em particular, posso admitir que o mesmo tem o conhecimento de que é possível recolher dados sem incomodar o cidadão de carne e osso neste mundo global conectado digitalmente. O leitor pode constatar isso mesmo na estatística de visualizações que incluí no sítio do blogue. Cada vez que alguém entra no sítio e visualiza um texto do blogue, o servidor desse sítio recolhe dados que depois vão dar origem ao valor de visualizações correntes. Se eu quiser ir mais longe na minha análise, posso saber um pouco mais sobre o perfil dos meus leitores (utilizando a ferramenta Google Analytics), tal como o país de onde se conectaram, o dispositivo digital que usaram, a hora de conexão e de que forma tiveram "conhecimento" do sítio. O mesmo pode ser feito pelos partidos quando acedemos aos seus sítios ou às suas contas das redes sociais. Acho que é este o sentido que tem "perguntar mil vezes por dia aos eleitores".
A questão fundamental é saber o sentido quando colocamos "perguntar mil vezes ao dia" em linha com "sem incomodar o cidadão de carne e osso". Será possível perguntar mil vezes ao dia sem incomodar? Eu acho que não é possível se as perguntas forem feitas de forma directa. Não é por acaso que é cómico a cena do filme "Shrek 2" em que o burro, na voz inconfundível de Eddie Murphy, pergunta uma quantidade insana de vezes "Are we there yet?" ao Shrek e Fiona no caminho para o reino "Far Far away". Por outro lado, perguntar diretamente mil vezes ao dia poderá ser visto como uma espécie de assédio constante dos políticos aos eleitores. Não é assédio um crime punido por lei? Não é se for consentido abertamente.
Assim, só posso concluir de que "perguntar mil vezes ao dia" sem incomodar só pode ser realizada indirectamente. Ou num outro advérbio de modo um pouco mais caustico, sub-repticiamente, sem o cidadão saber que está a ser perguntado. Como tal, o futuro imaginado na frase acima é em muito semelhante à sociedade descrita no livro "1984" por George Orwell onde se invade a vida privada e há um sentimento latente de vigilância permanente.
Felizmente, a União Europeia e os seus estados-membros tomaram consciência dos perigos de "perguntar sem incomodar" e criaram um regulamento geral de protecção de dados em que todos os cidadãos tem o direito à sua privacidade e protecção dos seus dados. Sei que é uma leitura enfadonha mas todos nós devíamos gastar algum tempo a ler esse regulamento para saber como actuar no mundo digital. Será que que devíamos ter uma disciplina de Ética Estatística nos cursos universitários e mestrados de Estatística e de Ciência de Dados?
Só sabendo os nossos direitos e obrigações, podemos navegar conscientemente na investigação científica e nesta sociedade da informação em que os dados de cada um de nós são mais poderosos do que dinheiro, como tão bem ilustrado pelo Prof Pedro Domingos no seu livro.
Só sabendo os nossos direitos e obrigações, podemos detectar claros exageros de instituições, públicas ou privadas, por muito boas que sejam as intenções. Tal foi o caso da aplicação Stayaway-COVID em que tinha o objectivo (benigno) de rastrear a rede de contactos de pessoas infectadas durante a resposta à pandemia da COVID-19. A certa altura, o governo português quis tornar o seu uso obrigatório em vários contextos, mas essa ideia caiu por terra exatamente por suscitar "graves questões relativas à privacidade dos cidadãos” nas palavras sensatas de Clara Guerra, porta-voz da Comissão Nacional de Protecção de Dados. Esta aplicação foi entretanto discontinuada para bem do cidadão de carne e osso.
Não quero dar uma visão Dantesca da realidade, mas não podemos cair na ingenuidade do optimismo cego sobre o futuro da Democracia quando há sugestão aberta de que podemos ser monitorados por políticos sem apelo nem agravo para o pseudo-bem do cidadão de carne e osso. Não é essa monitorização permanente que já se está a fazer na China? Arrepio-me ao escrever isto!
Já a minha avó dizia: "de boas intenções, está o inferno cheio" e "mais vale prevenir do que remediar". É no prevenir que evitamos a manipulação e a invasão das nossas vidas privadas por políticos com carácteres morais menos sólidos.
Notas de Rodapé:
(1) Uma questão fundamental em modelação estatística está relacionada com a definição do que se entende por simplicidade (ou alternativamente, a complexidade) de um modelo. Em geral, usam-se indicadores ou medidas da complexidade do modelo cuja ideia subjacente baseia-se na penalização da informação proveniente de um determinado modelo pelo número de parâmetros especificados nesse mesmo modelo. A medida mais conhecida da complexidade do modelo é chamada de Critério de Informação de Akaike. Este é um assunto demasiado complicado e técnico que está fora do âmbito deste blogue de cariz mais geral.
(2) Em conversa com Bartek Sobieski, um estudante de Mestrado em Ciências de Dados do meu departamento, ele chamou-me à atenção do Teorema de Aproximação Universal que talvez justifique o excerto "os modelos de eleitores sejam exatos". A essência desse teorema é provar de que é sempre possível encontrar uma rede neuronal capaz de aproximar qualquer função (densa) com grau de aproximação arbitrária. Ou seja, definido um grau de aproximação infinitamente pequeno, podemos admitir que existe uma espécie de rede neuronal "exacta". Em todo o caso, o teorema lida com aproximações e não com a exactidão do modelo.
(3) Em 2019 foi publicado um artigo que os autores propõem 85% como o valor da acurácia ótima para problemas de classificação resolvidos por aprendizagem automática. A argumentação é que valores abaixo de 85% sugerem uma grande complexidade do problema de classificação subjacente enquanto que valores acima de 85% sugerem problemas de classificação de certa forma triviais. Como consequência, aprendizagem por modelos não deve ser guiada pela representação exacta da classificação sugerida pelos dados.
Comentários