domingo, 16 de julho de 2023

Perspectivas sobre o Humanismo Digital - A Economia da Atenção e o Impacto da Inteligência Artificial

Perspectivas sobre o Humanismo Digital


Manifesto de Viena sobre o Humanismo Digital


Parte V Dados, Algoritmo e Equidade


Ensaio anterior


[123]A Economia da Atenção e o Impacto da Inteligência Artificial


por Ricardo Baeza-Yates e Usama M. Fayyad


Resumo A ubiquidade crescente da Internet e a sobrecarga de informação criaram uma nova economia no século XX: a economia da atenção. Embora difícil de mensurar, nós sabemos que ela excede representantes tais como o mercado de publicidade online global, o qual é agora de mais de $300 bilhões com um alcance de 60% da população mundial. Uma discussão da economia da atenção naturalmente conduz à economia dos dados e acumulação de dados a partir de interações em larga escala com consumidores. Nós discutimos o impacto da IA nesse cenário, particularmente dos dados enviesados, algoritmos injustos e um ciclo de retroalimentação (feedback loop) de máquina-usuário maculado pela manipulação digital e pelos vieses cognitivos dos usuários. O impacto inclui perda de privacidade, mercados digitais injustos e muitas implicações éticas que afetam a sociedade como um todo. O objetivo é delinear que uma nova ciência para entender, valorar e navegar responsavelmente e beneficiar-se da atenção e dos dados é muito necessária.


1 Introdução


Frequentemente nós ouvimos sobre a sobrecarga de informação e o seu impacto estressante sobre a humanidade. O crescimento das redes, dos meios de comunicação digital (mais proeminentemente o e-mail e, agora, o chat) e da abundância de fontes de informação onde o acesso é instantâneo e abundante tem resultado na criação de uma situação onde nós frequentemente nos deparamos com qualidade de informação ruim ou, pelo menos, questionável. Mas esse fenômeno não está limitado àqueles buscando informação ou conexão; os canais de entretenimento passivo são tão abundantes que até o entendimento do que está disponível é um desafio para humanos normais, pais, crianças, educadores e profissionais no geral.

Como nós conseguimos acompanhar as bilhões de páginas web disponíveis (Google 2021a, b)? Eric Schmidt, então CEO do Google, foi famosamente citado como dizendo que a humanidade produziu mais informação apenas em 2011 do que ela o fez na inteira história da [124]civilização, a saber: “Houve 5 exabytes de informação criados desde a aurora da civilização até 2003, mas agora, esse tanto de informação é criado a cada 2 dias” (Huffington Post 2011).

Embora a precisão dessa informação seja questionável, está provada ser profética de um futuro muito mais dramático que se tornou manifesto nos últimos poucos anos. Um artigo na Forbes (Marr 2018) alegou: “Há 2,5 quintilhões de bytes de dados criados a cada dia em nosso ritmo corrente, mas esse ritmo está apenas acelerando com o crescimento da Internet das Coisas (IdC). 90% dos dados no mundo foi gerado apenas durante os dois últimos anos.”

Um quintilhão são 1018 bytes, consequentemente 2,5 exabytes por dia, o que aproximadamente corresponde à quantidade referenciada por Eric Schmidt. Por isso, hoje em dia, nós excedemos em muito as alegações feitas em 2011. Desconsiderando o fato de que a maior parte desses “dados” não deveria ser contado como dados (por exemplo, copiar um vídeo para um ponto de distribuição não constitui criação de dados na opinião dos autores), é inquestionável que informação registrada está sendo gerada mais rápido que em qualquer momento na história da civilização. A nossa habilidade para consumir essa informação como humanos é extremamente limitada e tornando-se mais desafiada diariamente.

O problema real não é consumir toda essa informação, visto que é provável que a maior parte dela seja de pouco valor. O problema [agora crônico] é o de focar a atenção sobre a informação correta. Nós podemos ver esse problema mesmo no mundo da ciência ou publicações acadêmicas. A habilidade para acompanhar a quantidade de publicações em qualquer campo se tornou uma tarefa impossível para qualquer persquisador particular. Todavia, o crescimento continua. Encontrar valor no contexto correto agora é muito mais difícil. Dependência de fontes selecionada – tais como jornais e conferências – não é mais suficiente. Os autores têm muito mais canais para publicar artigos, incluindo compartilhando abertamente na web. Enquanto isso parece ser um grande facilitador, eles cria um problema sério na determinação do que é “informação confiável.” O problema é composto pelo fato de que qualquer um pode escrever um artigo “semelhante a notícia (news-like)” e citar essas várias fontes. Se notícias reais ou “falsas,” esses artigos têm um ambiente acolhedor nas mídias sociais, o que possibilita propagação rápida através da web.

Dessa maneira, como nós lidamos com esse volume crescente de informação disponível? Embora os motores de busca tenham sido uma abordagem razoável para lidar com o uso casual, nós estamos longe de ter tecnologia de busca verdadeiramente poderosa. O entendimento do significado e do contexto de uma consulta (query) curta é difícil. Motores de busca que têm um bom entendimento do conteúdo e não são tão dependentes da pesquisa estatística de palavras-chave ainda não são práticos. Como nós explicamos na seção seguinte, há muitas áreas da nova “economia da atenção” que ainda necessitam de novas soluções que sejam práticas. Nós acreditamos que toda a demanda aponta para a necessidade de motores de busca que entendam a semântica, o contexto, a intenção e a estrutura do domínio sendo pesquisado: desde registros de saúde, até documentos legais, artigos científicos, descoberta de medicamentos, e mesmo o entendimento da confiabilidade das fontes. Finalmente, com as mídias sociais movendo o crowdsourcing do conteúdo gerado pelo usuário, uma importância crescente é desempenhada pelo monitoramento e avaliação confiável do tipo de conteúdo sendo compartilhado e se ele é apropriado por critérios sociais, legais, de privacidade e segurança, e política. Todas essas são amplas áreas abertas necessitando de novas pesquisas.


[125]2 A Economia da Atenção


Uma vez que o recurso escasso é a atenção, uma economia em torno de obter a atenção das pessoas rapidamente cresceu. Alguém apenas tem de examinar o crescimento da publicidade digital ao longo da última ou das duas últimas décadas para ver a evidência econômica do valor de mercado da atenção.

A publicidade digital na Internet cresceu de um mercado estimado em $37 bilhões em 2007 para ser bem mais de um mercado de $360 bilhões em 2020 (Statista 2021) como mostrado na fig.1, a tendência da taxa de crescimento e a análise da publicidade online em três categorias principais: publicidade na busca (search advertising), publicidade exibida (display advertising) (anúncios gráficos) e listagem de classificados (classified listings).


[125]Fig.1 Dispêndio global anual com publicidade global (Fonte: Statista 2021)



Isso é um bom representante, visto que ele efetivamente subestima o valor verdadeiro, uma vez que muito mercados de publicidade ainda não estão maduros. Contudo, é uma indicação do crescimento do tempo despendido por audiências online. A maioria do dispêndio com anúncios é com propaganda em dispositivos móveis, como uma mídia movida em sua maior parte pelo crescimento online dos últimos 7 anos (por exemplo, números de anúncios nos EUA (Forbes 2019)).

Nós usamos o consumo de conteúdo web como um representante. Os problemas são atualmente mais profundos em áreas que não foram bastante valorizadas economicamente, mas estão desempenhando um papel maior e mais fundamental em nossas vidas digitais, tanto como indivíduos quanto organizações/companhias.

Subjazendo ao crescimento da economia da atenção está a economia dos dados e o que esses dados valem para organizações e indivíduos. Esse problema é diferente do conteúdo na web é onde nós ainda temos de ver a maior parte do crescimento e das inovações interessantes. Propaganda e “dados hackeados” na dark web fornecem subestimações dessa economia. Desde o armazenamento dos dados, até os manter, até criar [126]serviços de nuvem para possibilitar acesso e gerenciamento seguros, isso é provável de se tornar a grande economia do futuro.

Muitas tentativas de mensuração da economia dos dados têm encarado muitas dificuldades. Li (2020) descobriu que o uso de dados possibilita às firmas derivarem conhecimento específico de firmas, o qual pode ser medido pelo capital organizacional, a informação acumulada ou o conhecimento prático (know-how) da firma (Prescott e Visscher 1990); quanto mais dados, maior o potencial derivado a partir do conhecimento específico de firma. Eles estimam o capital organizacional para cada uma das sete companhias de plataforma online globais do topo, Apple, Amazon, Google, Facebook, Alibaba e Tencent e comparam os seus capital organizacional combinado com o fluxo de dados global durante o mesmo período de tempo. Isso fornece evidência de que grandes companhias de plataforma online têm estado agressivamente investindo capital a fim de explorar as oportunidades propiciadas pelo explosivo crescimento global de dados, o que conduz a algumas estimativas do tamanho da economia dos dados.

Atualmente, não existe nenhuma metodologia aceita para medir o valor do mercado dos dados. Ao lado de significantes desafios conceituais, o grande obstáculo é a morte do mercado de preços a partir de trocas; mais dados são coletados pelo próprio uso da firma. Firmas não lançam informação relacionada a transações em dados, tais como as trocas privadas ou o compartilhamento de dados que ocorrem entre as grandes companhias chinesas de tecnologia. Li et al (2019) examina o modelo de negócio dirigido por dados da Amazon a partir das perspectivas do fluxo de dados, criação de valor para consumidores, criação de valor para terceiros e monetização. A Amazon usa os dados coletados de consumidores e, através de recomendações, intuições, e serviços de terceiros, cria novos produtos e serviços para os seus usuários, por exemplo, serviços de assinatura personalizados e recomendações para todos os produtos e serviços vendidos em seu mercado. “Em 2019, a Amazon tinha mais de 100 milhões de assinantes Prime nos EUA, um metade das residências dos EUA, com um renda a partir de taxas de associação anuais estimada em mais de 9 bilhões de dólares” (Tzuo e Wisert 2018). Tirando vantagem de intuições sobre interações e transações, a Amazon pode apreender muito do valor social dos dados que eles acumularam. É por isso que qualquer tentativa de dimensionar a economia dos dados pode ser desafiadora: a pletora de refinamento e reuso forma um espaço imenso e pobremente entendido, contudo rapidamente crescente.

Qual papel a IA desempenha para nos ajudar a lidar com esses problemas de sobrecarga de informação? Nós acreditamos que, uma vez que a tecnologia foi o grande facilitador da sobrecarga informacional, a tecnologia também conterá as chaves para tentar domá-la. Porque o que nós buscamos é uma abordagem para filtrar a informação e focar a atenção, nós naturalmente gravitamos para abordagens que são baseados no que é tipicamente referido como IA. A razão para isso é que gerar e coletar dados e informação não necessariamente requer “inteligência.” Mas o problema inverso: a determinação do significado e da relevância requerem-na.

A fim de filtrar, personalizar e significativamente extrair a informação ou a “reduzir (reduce),” tem de haver um entendimento do consumidor-alvo, da intenção do consumidor, e da semântica do conteúdo. Tais tecnologias tipicamente requerem ou o design e a construção de algoritmos inteligentes que codificam conhecimento de domínio ou o emprego de aprendizagem de máquina para inferir relevância a partir de dados positivos, negativos e de resposta relevante. Nós discutimos essa abordagem adicionalmente na seção 3.

[127]O tema principal é que a IA é necessária e, de maneira geral, inevitável para a solução desse problema inverso. Isso traz complicações em termos de uma habilidade para tratar corretamente do problema, para efetivamente reunir retroalimentação (feedback) eficientemente, e, assumindo que os algoritmos funcionem, para os problemas de viés e justiça algorítmica que nós devemos discutir na seção 4.


3 O Ciclo de Retroalimentação (Feedback Loop) Máquina-Usuário


Muito da economia da atenção é construído sobre a interação do ciclo de retroalimentação entre usuários e sistemas. Os componentes de um tal ciclo são discutidos aqui, e, na próxima seção, nós detalhamos os vieses que os envenenam.

A configuração geral desse problema como um problema de IA é totalmente análoga a uma operação de motor de busca. A busca web requer quatro atividades principais:

  1. Rastreamento web (Crawling): motores de busca da web empregam um entendimento de sites web e conteúdo para decidir qual informação rastrear (crawl), quão frequentemente e onde procurar por informação-chave.

  2. Modelagem de conteúdo: requer a modelagem de conceitos e equivalências, stemização (stemming), canonização (ou seja, o entendimento de quais frases são equivalentes em semântica) e a redução de documentos a uma representação normalizada (ou seja, saco (bag) de palavras, etc.).

  3. Indexação e recuperação: descobrir como procurar por correspondências (matches) e como ranquear os resultados.

  4. Retroalimentação de relevância: utilizando aprendizagem de máquina (AM) para otimizar a correspondência e o ranqueamento baseado na retroalimentação dos usuáros: quer diretamente ou tirando proveito de informação como taxas de cliques (click-through rates), etc.

Cada um desses passos acima requer alguma forma de IA. O problema de capturar a relevância e domar a sobrecarga de informação requer que nós resolvamos os componentes equivalentes, independentemente do domínio de aplicação: seja acessando um corpo de aplicações científicas, rastreando (tracking) conteúdo de mídias sociais, determinando que conteúdo de entretenimento é interessante, ou recuperando e organizando informação de atenção à saúde.

Nós notamos que essa estrutura tem o componente do humano-no-ciclo (human-in-the-loop) para capturar precisamente o recurso escasso: o conteúdo é interessante para a tarefa-alvo? Esse ciclo natural é um exemplo de tirar o proveito da IA; quer através de reposta direta, quer através da construção de dados para treinamento confiavelmente etiquetados. Os próximos três elementos necessitam de séria consideração de como nós consideramos abordagens para soluções “humano-no-ciclo.”


3.1 Usuários e Dados Pessoais


O primeiro elemento-chave é a identidade digital como um usuário. Uma identidade digital pode variar desde anônima até a identidade de uma pessoa real. Contudo, na prática, você nunca está [128]completamente anônimo, visto que você pode ser associado com um endereço IP, um identificador de dispositivo e/ou um cookie de navegador. Se estiver autenticado em um sistema, você terá mais dados de identificação associados com você, mas parte deles poderia ser falsa por escolha.

O segundo elemento é a proteção dos dados, quer dizer, quão seguros os seus dados pessoais estão armazenados pelo sistema que os está usando. O caso mais bem conhecido é a General Data Protection Regulation (União Europeia 2016) da União Europeia. Essa regulação inclui quando o consentimento do usuário é necessário, princípios de proporcionalidade para o montante de dados que podem ser requisitados, por quanto tempo ele pode ser armazenado e como ele pode ser processado e transferido.

O terceiro elemento é a privacidade, a habilidade de um indivíduo ou grupo de isolar informação sobre si mesmo. Para isso, pelo menos, você necessita de proteção de dados, mas se você também puder cancelar a sua identidade digital, melhor ainda. A privacidade é uma atributo compartilhado no sentido de que não depende apenas do indivíduo, mas da rede de relações que uma pessoa tem. Não importa quão privado você for se as pessoas que você conhece compartilham mais informação sobre você. Por essa razão, algumas pessoas até argumentam que a privacidade é coletiva (Véliz 2021) embora na Declaração das Nações Unidas seja um direito humano individual (Nações Unidas 1948).


3.2 Algoritmos


Qualquer sistema de software é construído sobre muito algoritmos. Alguns componentes-chave são os algoritmos usados para reunir e armazenar dados sobre o ambiente e os usuários, criar perfil dos usuários para personalizar e/ou cutucar (nudge) a experiência deles, e monetizar a sua interação. O rastreamento e a criação de perfis de usuários podem ser realizados em um nível individual ou pode ser mais grosseiro, tais como atribuindo uma persona particular a cada usuário. Uma “persona” é uma construção de um exemplar realista ou atual usuário específico que representa um segmento de usuários tendo certas preferências ou características. Por exemplo, a Apple usa privacidade diferencial para proteger a privacidade individual, e, na próxima versão do sistema operacional mobile, iOS 14, os usuários decidirão se eles podem ser rastreados ou não (O’Flaherty 2021). Ao mesmo tempo, o Google está planejando afastar-se dos cookies usando FloCs ou Federated Learning of Cohorts (Google 2021b). Cutucar (Nudging) implica manipular o comportamento do usuário, desde sugerir onde começar a leitura até onde nós posicionamos elementos que nós queremos que o usuário clique.


3.3 Mercados de Informação Digital


A economia da atenção criou uma economia específica de dados que se refere ao rastreamento e à criação de perfis de usuários (como discutido acima). Por essa razão, embora falando sobre televisão, Serra e Schoolman, em 1973, disseram que “É o consumidor quem é consumido, você é o produto da TV.” Assim, nós somos o produto e a economia dos dados [129]está no centro dos mercados de informação digital. Mercados de informação digital são plataformas/ambientes que têm tipos diferentes de incentivos que formam um mercado. Eles incluem redes sociais, comércio eletrônico, motores de busca, streaming de mídias, etc. Uma característica desses mercados é que eles têm itens (ou seja, produtos ou filmes) populares assim como da cauda longa (long tail). Usuários também diferem sobre engajamento, criando outra teia longa de interação e, consequentemente, de dados rastreados. A maior parte dos mercados digitais otimizam a receita de curto prazo e, consequentemente, não são necessariamente ótimos. Todas essas características dão forma ao ciclo de retroalimentação do sistema.


4 Vieses


Nesta seção nós cobrimos muitos dos vieses relevantes que existem em sistemas de software, particularmente em sistemas baseados em AM. O viés é um desvio sistemático com respeito a um valor de referência, dessa maneira, em princípio, a palavra é neutra. Contudo, usualmente, nós pensamos sobre vieses de uma maneira negativa porque nas notícias apenas vieses negativos são cobertos (gênero, raça, etc.). Nós podemos distinguir entre viés estatístico, produto de uma mensuração; viés cultural ou social; e viés cognitivo, que é particular para cada pessoa. Nós os organizamos por fonte, dados e algoritmos, incluindo a interação dos usuários com o sistema.


4.1 Dados


Esta é a principal fonte de viés, visto que dados podem codificar muitos vieses. Na tabela 1, nós mostramos exemplos de tipos diferentes de conjuntos de dados genéricos cruzados com exemplos-chave de viés social que poderiam estar presentes, onde Econ representa discriminação baseada em riqueza. Contudo, os vieses poderiam ser sutis e não conhecidos a priori. Eles podem ser explícitos ou implícitos, diretos ou indiretos. Adicionalmente, algumas vezes não é claro qual deveria ser o correto valor de referência ou distribuição (por exemplo, gênero ou idade em uma dada profissão).


[129]Tabela 1 Exemplo de vieses encontrados em diferentes tipos de conjuntos de dados


Um importante tipo de dados que codifica muitos vieses é o texto. Em adição ao viés de gênero ou racial, o texto pode codificar muitos vieses culturais. Isso até pode ser visto quando ele é usado para treinar word embeddings, grandes espaços dimensionais onde cada palavra é codificada por um vetor. Há exemplos de viés de gênero (Caliskan et al. 2017), [130]viés racial (Larson et al. 2016), viés religioso (Abid et al. 2021), etc, e o impacto deles tem muitas ramificações (Bender et al. 2021).

Também pode haver vieses em como nós selecionamos os dados. O primeiro exemplo é o tamanho da amostra. Se a amostra é pequena demais, nós enviesamos a informação (digamos eventos) na amostra para os casos mais frequentes. Isso é um muito importante em dados de internet, visto que a probabilidade de um evento, de um clique, digamos, é muito pequena, e a fórmula de tamanho de amostra padrão subestimará o valor real. Consequentemente, nós temos de usar fórmulas adaptadas para evitar descartar os eventos que nós verdadeiramente queremos mensurar (Baeza-Yates 2015). Adicionalmente, na internet, distribuições de evento usualmente seguem uma lei de potência (power law) com uma cauda constante muito longa e, consequentemente, são muito enviesadas (skewed). Para esse tipo de distribuição, o algoritmo de amostragem padrão não gera a mesma distribuição na amostra, particularmente na cauda longa. Consequentemente, é importante usar um método de amostragem estratificado no evento de intesse para capturar a distribuição correta.


4.2 Algoritmos


O viés em algoritmos é mais complicado. Um exemplo clássico são as etiquetas (labels) de recomendação em uma plataforma que coleta etiquetas de usuários. A disponibilidade de recomendação incentivará os usuários a colocarem menos etiquetas. Se o sistema recomenta etiquetas sem qualquer etiqueta-semente, não haverá mais novas etiquetas, e, consequentemente, o algoritmo não pode aprender nada novo. Em outras palavras, o algoritmo mesmo mata a folksonomia de etiquetas (ironicamente ajudando as pessoas a reduzirem os dados vindo delas!)

Em outros casos, a função que o algoritmo otimiza, talvez projetado com as melhores intenções, produz novos ou amplifica vieses existentes. Exemplos incluem amplificação de viés racial em predições de predição de fiança (bail) (Kleinberg et al. 2018) ou viés de tempo de entrega em entrega de comida (Forbes 2021). Parte do problema aqui é que muitas vezes o foco dos designers está na ampliação da receita sem pensar sobre o impacto indireto do que está sendo otimizado. Além disso, recentemente, a primeira indicação de que os programadores podem transferir vieses cognitivos para o código foi publicada (Johansen et al. 2020), um exemplo de viés indireto mais sútil.

A maior fonte de viés algorítmico está na interação com o usuário. Primeiro, nós temos viés de exposição ou apresentação. Os usuários apenas podem interagir com o que é apresentado a eles e isso é decidido pelo sistema. Consequentemente, se o sistema usa dados de interação para, digamos, personalização, o sistema está parcialmente dando forma a esses dados. Por causa da economia da atenção, o montante de interação dos usuários também segue uma lei de potência, criando um viés de engajamento ou participação (Nielsen 2016; Baeza-Yates e Saez-Trumper 2015).

Um dos principais efeitos da interação no ciclo de retroalimentação é o viés de popularidade. Quer dizer, itens populares recebem mais atenção do que eles merecem com respeito a itens na cauda longa. Outros efeitos dependem dos vieses cognitivos dos usuários, tais como eles olham para a tela, quanto eles são influenciados pela informação lida, ou quão frequentemente eels clicam ou movem o mouse. Isso cria viés de posição e, no caso dos motores de busca, viés de ranqueamento (Baeza-Yates 2018). Quer dizer, posições no topo no ranqueamento recebem mais [131]cliques apenas porque elas estão no topo. Para neutralizar esse viés, motores de busca desenviesam (debias) cliques para evitar fazerem a si mesmos de tolos. Adicionalmente, avaliações (ratings) de outros usuários criam viés de pressão social.


5 Impacto Social


Há várias áreas de impacto sobre a sociedade que podem ser resumidas em:

  1. Como a economia dos dados cria uma perda de privacidade. Uma perda de privacidade da qual muitas pessoas não estão cientes, visto que elas normalmente não leem os termos de uso. Shoshana Zuboff chama isso de capitalismo de vigilância (Zuboff 2019), ou economia da vigilância, para o distinguir do governo de vigilância, visto que ele é principalmente levado a cabo por grandes multinacionais de internet. Carissa Véliz (2021) argumenta que “quem quer que tenha a maior dos dados pessoais dominará a sociedade.” Consequentemente, a privacidade é uma forma de poder: se companhias a controlarem, os ricos dominarão; enquanto que se governos a controlarem, ditaduras dominarão. A conclusão é que a sociedade apenas pode ser livre se as pessoas mantiverem o seu poder, quer dizer, os seus dados. Ela prossegue acrescentando que dados são uma substância tóxica que está envenenando as nossas vidas e que sistemas econômicos baseados na violação de direitos humanos são inaceitáveis, não apenas por causa de preocupações éticas, mas porque a “economia da vigilância ameaça a liberdade, igualdade, democracia, autonomia, criatividade e intimidade.”

  2. Manipulação digital de pessoas. Isto vai além da cutucada (nudging) digital explicada anteriormente, quer dizer, atrair você para clicar em um anúncio (ad) sem você o notar. O exemplo principal são as mídias sociais e notícias falsas. Essa nova era social é comandada pelo que Sinan Aral chama de The Hype Machine (Aral 2020), uma máquina que disruptou eleições, mercados de ações e, com a pandemia da COVID-19, também a nossa saúde. Há muitos exemplos de manipulações de países a partir de governos, tais como no Brasil, Myanmar e nas Filipinas, ou a partir de companhias, tais como a Cambridge Analytica usando os dados do Facebook que afetaram a eleição presidencial de 2016 nos EUA. Harari é muito mais pessimista, visto que algumas notícias falsas perduram para sempre e “como uma espécie, os humanos preferem o poder à verdade” (Harari 2018). O perigo futuro para ele é a combinação da IA com neurociência, a manipulação direta do cérebro. Em tudo mencionado acima, a IA é o componente-chave para predizer qual pessoa está mais inclinada a uma dada cutucada (nudging) e como a realizar.

  3. Mercados digitais injustos (comportamento monopolista e o ciclo de retroalimentação enviesado, anteriormente mencionados). Durante 2020, o governo do EUA deu início a casos antitruste contra o Facebook (US FTC 2020) e Google (US DoJ 2020). Contudo, o viés de popularidade também discrimina contra os usuários e itens na causa, criando injustiça e também instabilidade. Melhor conhecimento do mercado digital deveria implicar ótima receita a longo prazo e mercados digitais mais saudáveis, mas os sistemas de recomendação corrente são otimizados em favor de receita a curto prazo. Em alguma acepção, o sistema está dentro de uma grande câmara de eco que é a união das câmaras de eco dos seus usuários (Baeza-Yates 2020).

  4. [132]Implicações éticas de todos acima. Isto inclui discriminação (por exemplo, pessoas, produtos, empresas), frenologia (por exemplo, predição de traços de personalidade baseado em biométrica facial (Wang e Kosinki 2018)), dados usados sem consentimento (por exemplo, rostos descartados na web usados para treinar sistemas de reconhecimento facial (Raji e Fried 2020)), etc.

Também há impactos em domínios específicos, tais como governo, educação, saúde, justiça, etc. Apenas para exemplificar um deles, nós analisamos o impacto sobre a assistência médica (healthcare). Embora soluções para saúde dirigidas por máquinas e digitais tenham criado uma imensa oportunidade para o avanço da atenção à saúde, a sobrecarga emocional também afetou a nossa habilidade para tirar proveito da riqueza de todas as novas opções: sequenciamento de genoma, descoberta de medicamentos e design de medicamentos versus o problema do entendimento e rastreamento do que esses dados significam para as nossas vidas. Como a indústria de assistência à saúde está tendo problema com todos esses dados é manifestado nesses exemplos:

  • Falta de padrões criou pântanos de dados (data swamps) em registros de saúde eletrônicos (RSEs)

  • Falta da habilidade para tirar proveito de dados para estudos de assistência à saúde da população e identificar grupos em demanda.

  • Falta da habilidade para tirar proveito dos dados coletados para estudar sistematicamente os impactos de drogas e tratamentos.

  • Inabilidade dos fornecedores de assistência à saúde para permanecerem no controle dos dados para um indivíduo.

  • Falta de habilidade nos indivíduos para permanecerem no controle dos dados sobre si mesmos.


6 Conclusões


Conforme a maré da sobrecarga de informação sobe, nós acreditamos que isso torna o problema tradicional da cauda longa ainda mais difícil. A razão para isso é que a informação vinda da cabeça da cauda, as fontes mais comuns de novos dados ou informação, não está crescendo tão rapidamente quanto a informação vindo das fontes menos populares que agora estão capacitadas a produzirem mais crescimento. Isso exacerba a distribuição em cauda longa e torna a recuperação e pesquisa de informação e o foco da atenção muito mais difíceis.

Como um pensamento conclusivo final, alguém poderia se perguntar se a única saída disso é através do uso de algoritmos de IA. A resposta é um sim qualificado. Podem haver soluções melhores através de design, através de etiquetagem (tagging) e classificação apropriados de conteúdo e modelagem enquanto o conteúdo é gerado. Mas a realidade é que, pela maior parte do tempo, nós estamos vivendo em um mundo onde nós temos de reagir a novo conteúdo, novas ameças, novos algoritmos e novos vieses descobertos. Como tal, nós sempre somos deixados com a necessidade de uma abordagem escalável que tem de resolver o problema de “design invertido” – inferindo a partir de observações o que é provável de acontecer. Isso parece mover o “entendimento,” especialmente a modelagem semântica, para o primeiro plano. E isso parece nos mover para procurar por algoritmos para resolvermos tais problemas de inferência, e, portanto para a IA.

Há outras questões relacionadas que nós não cobrimos. Essas incluem cibersegurança e a crescente economia da dark web, assim como outras tecnologias emergentes que [133]criam sinergia com a IA. O mesmo quanto ao impacto futuro da regulação para a IA proposta na União Europeia que há pouco foi publicada (UE 2021).


Referências


Abid, Abubakar; Farooqi, Maheen; Zou, James. (2021) Persistent Anti-Muslim Bias in Large Language Models. https://arxiv.org/pdf/2101.05783v1.pdf

Aral, Sinan. (2020) The Hype Machine, Currency Press.

Baeza-Yates, Ricardo e Saez-Trumper, Diego. (2015) Wisdom of the crowd or wisdom of a few? An analysis of users’ content generation. In Proceedings of the 26th ACM Conference on Hypertext and Social Media (Guzelyurt, TRNC, Cyprus, 1 – 4 de Setembro.). ACM Press, New York, 69 – 74.

Baeza-Yates, Ricardo. (2015) Incremental sampling of query logs. In Proceedings of the 38th ACM SIGIR Conference (Santiago, Chile, Aug. 9 – 13 de Agosto). ACM Press, New York, 1093 – 1096.

Baeza-Yates, Ricardo. (2018) Bias on the Web. Communications of ACM 61(6), 54-61.

Baeza-Yates, Ricardo. (2020) Bias in Search and Recommender Systems. ACM RecSys 2020, Rio de Janeiro. https://www.youtube.com/watch?v=8zetbdx4_08

Bender, Emily M.; Gebru, Timnit; McMillan-Major, Angelina; Mitchell, Margaret. (2021) On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. ACM FAccT 2021. https://faculty.washington.edu/ebender/papers/Stochastic_Parrots.pdf

Caliskan, Aylin; Bryson, Joanna J. e Narayanan, Arvind. (2017) Semantics derived automatically from language corpora contain human-like biases. Science 356, 6334, 183 – 186.

European Union. (2016) General Data Protection Regulation 2016/679.

European Union. (2021) Proposed Regulation for an European Approach to AI. https://digital-strategy.ec.europa.eu/en/library/proposal-regulation-european-approach-artificial-intelligence

Forbes. (2019) https://www.forbes.com/sites/greatspeculations/2019/06/11/how-has-the-u-s-online-advertising-market-grown-and-whats-the-forecast-over-the-next-5-years/

Forbes. (2021) https://www.forbes.com/sites/jonathankeane/2021/01/05/italian-court-finds-deliveroo-rating-algorithm-was-unfair-to-riders/

Google. (2021a) How Search Works. https://www.google.com/search/howsearchworks/crawling-indexing/

Google. (2021b) Federated Learning of Cohorts. https://github.com/WICG/floc

Harari, Yuval Noah. (2018) 21 Lessons for the 21st Century. Spiegel & Grau.

Huffington Post, (2011) Google CEO Eric Schmidt: ‘People Aren’t Ready for The Technology Revolution’. https://www.huffpost.com/entry/google-ceo-eric-schmidt-p_n_671513

Johansen, Johanna; Pedersen, Tore; Johansen, Christian. (2020) Studying the Transfer of Biases from Programmer to Programs. arXiv, https://export.arxiv.org/pdf/2005.08231

Kleinberg, Jon; Lakkaraju, Himabindu; Leskovec, Jure; Ludwig, Jens e Mullainathan, Sendhil. (2018) Human Decisions and Machine Predictions, The Quarterly Journal of Economics, Oxford University Press, vol. 133(1), 237-293.

Larson, Jeff; Mattu, Surya; Kirchner, Lauren; Angwin, Julia. (2016) How We Analyzed the COMPAS Recidivism Algorithm. https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm

Li, Wendy C.Y.; Nirei, Makoto; Yamana, Kazufumi. (2019) Value of Data: There ’ s No Such Thing as a Free Lunch in the Digital Economy, U.S. Bureau of Economic Analysis, working paper, https://www.bea.gov/system/files/papers/20190220ValueofDataLiNireiYamanaforBEAworkingpaper.pdf

Li, Wendy C.Y. (2020) Online Platforms’ Creative “Disruption” in Organizational Capital – the Accumulated Information of the Firm, U.S. Bureau of Economic Analysis working paper.

[134]Marr, B. (2018) How Much Data Do We Create Every Day? Forbes. https://www.forbes.com/sites/bernardmarr/2018/05/21/how-much-data-do-we-create-every-day-he-mind-blowing-stats-everyone-should-read/

Nielsen, Jakob. (2016) The 90-9-1 Rule for Participation Inequality in Social Media and Online Communities. https://www.nngroup.com/articles/participation-inequality/

O’Flaherty, Kate. (2021) Apple ’ s Stunning iOS 14 Privacy Move. Forbes. https://www.forbes.com/sites/kateoflahertyuk/2021/01/31/apples-stunning-ios-14-privacy-move-a-game-changer-for-all-iphone-users/

Prescott, E. and Visscher, M. (1980) Journal of Political Economy, vol. 88, issue 3, 446-61.

Raji, Inioluwa Deborah e Fried, Genevieve. (2020) About Face: A Survey of Facial Recognition Evaluation, AAAI 2020 Workshop on AI Evaluation.

Statista (2021) https://www.statista.com/statistics/276671/global-internet-advertising-expenditure-by-type/

Tzuo, Tien e Weisert, Gabe. (2018) Subscribed: Why the Subscription Model Will be Your Company’s Future – And What to Do about It, Publisher: Portfolio/Penguin.

United Nations. (1948) Declaration of Human Rights, Article 12.

United States Department of Justice (2020). https://www.justice.gov/opa/pr/justice-department-sues-monopolist-google-violating-antitrust-laws

United States Federal Trade Commission (2020). https://www.ftc.gov/news-events/press-releases/2020/12/ftc-sues-facebook-illegal-monopolization

Véliz, Carissa. (2021) Privacy is Power. Bantam Press, Segunda edição.

Wang, Yilun; Kosinski, Michal. (2018) Deep neural networks are more accurate than humans at detecting sexual orientation from facial images. J. of Personality and Social Psychology; 114 (2):246-257.

Zuboff, Shoshana. (2019) The Age of Surveillance Capitalism. Public Affairs.


Próximo ensaio


ORIGINAL:

BAEZA-YATES, R.; FAYYAD, U. M. The Attention Economy and the Impact of Artificial Intelligence. In: GHEZZI, C. et al. (eds.). Perspective on Digital Humanism. Springer Cham: 2022. p.123-134. Disponível em: <https://link.springer.com/book/10.1007/978-3-030-86144-5>


TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0

Nenhum comentário:

Postar um comentário