quinta-feira, 13 de abril de 2023

Perspectivas sobre o Humanismo Digital - Inteligência Artificial e o Problema do Controle

Perspectivas sobre o Humanismo Digital


Manifesto de Viena sobre o Humanismo Digital


Parte I Inteligência Artificial, Humanos e Controle


Ensaio anterior


[19]Inteligência Artificial e o Problema do Controle


por Stuart Russell


Resumo Uma longa tradição em filosofia e economia iguala inteligência com a habilidade para agir racionalmente – quer dizer, escolher ações que podem ser esperadas para alcançar os objetivos de alguém. Essa estrutura é tão universal no interior da IA que seria razoável chamá-la de modelo padrão. Uma grande quantidade de progresso sobre raciocínio, planejamento e tomada de decisão, assim como percepção e aprendizagem, ocorreu no inteior do modelo padrão. Infelizmente, o modelo padrão não funciona como um fundamento para progresso ulterior porque raramente é possível especificar os objetivos completa e corretamente no mundo real. O capítulo propõe um novo modelo para o desenvolvimento de IA, no qual a incerteza da máquina sobre o objetivo verdadeiro conduz a modos qualititativemente novos de comportamento que são robustos para, controláveis por e respeitosos com humanos.


1 O Modelo Padrão


O conceito técnico central na IA é aquele de um agente – uma entidade que percebe e age (Russell e Norvig 2020).1 Faculdades cognitivas tais como raciocínio, planejamento e aprendizagem estão a serviço da ação. O conceito pode ser aplicado a humanos, robôs, entidades de software, corporações, nações ou termóstatos. A IA está principalmente interessada no projeto das partes internas do agente: mapeamento de um fluxo de dados perceptivos brutos para um fluxo de ações. Os projetos de sistemas de IA variam enormemente, dependendo da natureza do ambiente no qual o sistema operará, da natureza das conexões perceptuais e motoras entre agente e ambiente e dos requerimentos da tarefa.

A IA busca designs de agentes que exibam “inteligência,” mas o que isso significa? Aristóteles (Ethics) deu uma resposta: “Nós deliberamos não sobre os fins, mas sobre os meios. … [Nós] assumimos o fim e consideramos como e através de que meios ele é alcançado, [20]e se ele parece facilmente e melhor produzido desse modo.” Quer dizer, uma ação inteligente ou racional é uma que pode ser esperada para alcançar os objetivos de alguém. Essa linha de pensamento persistiu até os dias de hoje. Arnauld (1662) ampliou a teoria de Aristóteles para incluir a incerteza de uma maneira quantitativa, propondo que nós deveríamos agir para maximizar o valor esperado do resultado. Daniel Bernoulli (1738) refinou a noção de valor, mudando-a de uma quantidade externa (tipicamente dinheiro) para uma quantidade interna que ele chamou de utilidade (utility). De Montmort (1713) observou que em jogos (situações de decisão envolvendo dois ou mais agentes) um agente racional poderia ter de agir aleatoriamente para evitar ter suas ações preditas (second-guessed). Von Neumann e Morgenstern (1944) combinaram todas essas ideias em uma estrutura axiomática que subjaz à grande parre da moderna teoria econômica.

Conforme a IA emergia nos anos de 1940 e 1950, ela necessitou de alguma noção de inteligência sobre a qual construir os fundamentos do campo de estudo. Embora algo da pesquisa inicial tivesse mais como objetivo a emulação da cognição humana, a noção que venceu foi a de racionalidade: uma máquina é inteligente na extensão que as suas ações podem ser esperadas atingirem os seus objetivos. No modelo padrão, nós temos como objetivo construir máquinas desse tipo; nós definimos os objetivos e a máquina faz o resto. Há várias maneiras diferentes nas quais o modelo padrão pode ser instanciado. Por exempo, a um sistema de resolução de problemas para um ambiente determinista são dados uma função custo (cost function) e um critério objetivo (goal criterion) e [ele] descobre a sequência de ação de menor custo (least-cost) que conduz a um estado objetivo; a um sistema de aprendizagem por reforço para um ambiente estocástico são dados uma função de recompensa (reward function) e um fator de desconto (discount factor) e [ele] aprende uma política que maximiza a soma descontada (discounted sum) de recompensas.

Essa abordagem geral não é exclusiva da IA. Teóricos de controle minimizam funções de custo; pesquisadores em operação maximizam recompensas; estatísticos minimizam uma esperada função de perda; e economistas, é claro, maximizam a utilidade de indivíduos, o bem-estar de grupos ou o lucro de corporações.

Para resumir, o modelo padrão da IA (e disciplinas relacionadas) é um pilar da tecnologia do século XXI.


2 Dificuldades do Modelo Padrão


Infelizmente, o modelo padrão não funciona como um fundamento para progresso ulterior. Uma vez que sistemas IA deixem o laboratório (ou ambientes artificialmente definidos, tais como o tabuleiro de xadrez simulado) e entrem no mundo real, há pouca chance de que nós possamos especificar completa e corretamente os nossos objetivos de uma maneira que perseguir esses objetivos por máquinas mais capazes seja garantido de resultar em resultados benefícios para humanos. De fato, nós podemos perder completamente o controle, como observado por Turing (1951): “Parece provável que, uma vez que o método do pensamento de máquina tenha iniciado, não demoraria muito para ultrapassar os nossos fracos poderes. … Portanto, em algum estágio, nós deveríamos ter de esperar as máquinas tomarem o controle.” Nós podemos esperar que uma máquina suficientemente capaz, perseguindo um objetivo fixo, tome medidas preventivas para se certificar de que o objetivo estabelecido seja alcançado, incluindo adquirindo recurso físico e [21]computacional e defendendo-se contra qualquer tentativa possível de interferir com o alcanco do objetivo.

O Manifesto de Viena sobre o Humanismo Digital inclui o seguinte princípio: “Nós temos de dar forma às tecnologias de acordo com valores e necessidades humanas, em vez de permitir que as tecnologias deem forma aos humanos.” Talvez o exemplo mais claro demonstrando a necessidade desse princípio seja dado pelos algoritmos de aprendizagem de máquina realizando seleção de conteúdo em plataformas de mídia sociais. Tipicamente, esses algoritmos perseguem o objetivo maximizando a taxa de cliques (clickthrough) ou uma métrica relacionada. Em vez de simplesmente ajustarem as suas recomendações para se adequarem às preferências humanas, esses algoritmos aprenderão, na perseguição do seu objetivo de longo prazo, a manipular humanos para os tornar mais predizíveis em seu comportamento de cliques (Groth et al. 2019).2 Esse efeito pode estar contribuindo para a polarização e o extremismo crescentes em muitos países.

O equívoco do modelo padrão origina-se a partir da transferência de uma definição perfeitamente razoável de inteligência dos humanos para as máquinas. A definição é razoável para humanos porque nós estamos autorizados a perseguir os nossos próprios objetivos. (De fato, quais nós perseguiríamos se não os nossos próprios?) Por outro lado, máquinas não estão autorizadas a perseguir os seus próprios objetivos. Uma definição mais sensível de IA teria as máquinas perseguindo os nossos objetivos. No evento improvável de que nós possamos especificar completa e corretamente os objetivos e inseri-los dentro da máquina, nós podemos recuperar o modelo padrão como um caso especial. Se não, então a máquina necessariamente ficará incerta quanto aos nossos objetivos, embora sendo obrigada a persegui-los em nosso nome. Essa incerteza – com o acomplamento entre máquinas e humanos que isso implica – revela-se ser crucial para a construção de sistemas de IA de inteligência arbitrária que sejam provavelmente benefícos para humanos. Em outras palavras, eu proponho fazer mais do que “dar forma às tecnologias de acordo com valores e necessidades humanas.” Porque nós não podemos articular necessariamente esses valores e necessidades, nós precisamos projetar tecnologias que, pela sua própria constituição, responderão aos valores e às necessidades humanas, quaisquer que eles sejam.


3 Um Novo Modelo


Em Human Compatible (Russell 2019), eu sugiro três princípios subjacentes a um novo modelo para a criação de sistema de IA:

  1. O único objetivo da máquina é maximizar a realização das preferências humanas.

  2. A máquina está inicialmente incerta sobre quais são essas preferências.

  3. A fonte última de informação sobre as preferências humanas é o comportamento humano.

[22]Como observado na seção anterior, a incerteza sobre os objetivos, que o segundo princípio adota, é um conceito relativamente não estudado em IA – contudo, ele é central para assegurar que nós não perdamos o controle sobre sistemas de IA cada vez mais capazes.

Nos anos de 1980, a comunidade de IA abandonou a ideia de que sistemas de IA poderiam ter conhecimento definitivo do estado do mundo ou dos efeitos das ações, e eles abraçaram a incerteza nesses aspectos da formulação do problema. Não está claro de maneira nenhuma porque, pela maior parte, eles falharam em notar que também deve haver incerteza no objetivo. Embora alguns problemas de IA, tais como resolução de quebra-cabeças, sejam projetados para terem objetivos bem definidos, muitos outros problemas que eram considerados à época, tais como recomendação de tratamentos médicos, não têm objetivos precisos e devem refletir o fato de que as preferências relevantes (de pacientes, parentes, médicos, seguradores, sistemas de hospital, contribuintes, etc) não são conhecidos inicialmente em cada caso. Embora seja verdadeiro que a incerteza insolúvel sobre objetivos pode se integrada a partir de qualquer problema de decisão, deixando um problema de decisão equivalente com um objetivo (médio) definido, essa transformação é inválida quando há a possibilidade de evidência adicional com respeito aos objetivos verdadeiros. Dessa forma, alguém pode caracterizar a diferença primária entre os modelos padrão e novo modelo de IA através do fluxo de informação de preferências dos humanos para as máquinas em “tempo de execução (runtime).” Esse fluxo se origina a partir da evidência fornecida pelo comportamento humano, como afirma o terceiro princípio.

A ideia básica é tornada mais precisa na estrutura dos jogos de assistência (assistence games) – originalmente conhecidos como jogos de aprendizagem por reforço inverso cooperativo (ARIC), na terminologia de Hadfield-Menell et all. (2017a). O caso mais simples de um jogo de assistência envolve dois agentes, um humano e o outro um robô. É um jogo de informação parcial, porque, embora o humano (na versão básica) conheça a função de recompensa (payoff function), o robô não conhece – mesmo se o trabalho do robô seja maximizá-la. Em uma formulação bayesiana, o robô começa com uma distribuição de probabilidade anterior sobre a função de recompensa humana e atualiza-a conforme robô e humano interagem durante o jogo. O modelo básico de jogo de assistência pode ser elaborado para admitir humanos imperfeitamente racionais (Hadfiled-Menell et al. 2017b), humanos que não conhecem as suas próprias preferências (Chan et al. 2019), múltiplos participantes humanos (Fickinger et al. 2020), múltiplos robôs e assim por diante.

Jogos de assistência estão conectados com aprendizagem por reforço inverso (inverse reinforcement learning) ou ARI (IRL) (Russell 1998; Ng e Russell 2000), porque o robô pode aprender mais sobre as preferências humanas a partir da observação do comportamento humano – um processo que é o dual da aprendizagem por reforço, no qual o comportamento é aprendido através de recompensas e punições. A diferença primária é que, no jogo de assistência, diferentemente da estrutrua ARI, as ações humanas são afetadas pela presença do robô – por exemplo, o humano pode tentar ensinar ao robô sobre as suas preferências. Esse processo bidirecional empresta à estrutura um caráter inevitavelmente de teórico de jogos que produz, entre outros fenômenos, convenções emergentes para a comunicação de informação de preferências.

A abordagem geral também se assemelha aos problemas do principal-agente em economia, no que o principal (por exemplo, um empregador) tem de incentivar outro agente (por exemplo, um empregado) a comportar-se de maneiras benéficas para o principal. A diferença-chave aqui é que, diferentemente de um empregado humano, o robô não tem interesses por si próprio. Além disso, nós [23]estamos construindo um dos agentes a fim de beneficiar o outro, para que os conceitos de solução apropriada possam diferir.

No interior dos jogos de assistência, um número de resultados básicos, que são relevantes para o problema de controle de Turing, pode ser estabelecido.

  • Sob certas suposições sobre o suporte e viés da distribuição de probabilidade anterior do robô sobre as recompensas humanas, alguém pode mostrar que um robô resolvendo um jogo de assistência tem valor não negativo para humanos (Hadfield-Menell et al. 2017a).

  • Um robô, que esteja incerto sobre as preferências humanos, tem um incentivo não negativo para permitir a si mesmo ser desligado (Hadfield-Menell et al. 2017b). No geral, ele se submetará às ações de controle humanas.

  • Para evitar mudar os atributos do mundo cujo valor seja desconhecido, o robô geralmente se engajará em um comportamento “minimamente invasivo” para beneficiar o humano (Shah et al. 2019). Mesmo quando ele não conheça absolutamente nada sobre as preferências humanas, ele ainda adotará ações “empoderadoras” que expandem o conjunto de ações disponíveis para o humano.

Há projetos de pesquisa demais em aberto no novo modelo de IA para os listar todos aqui. O mais diretamente relevante para a filosofia moral e as ciências sociais é a questão da agregação social: como uma máquina deveria decidir quando suas ações afetam os interesses de mais de um ser humano? Problemas incluem as preferências de indivíduos malignos (Harsanyi 1977); preferências relativas e bens posicionais (Veblen 1899; Hirsch 1977); comparação interpessoal de preferências (Nozick 1974; Sen 1999). Também de grande importância é a plasticidade das preferências humanas, a qual apresenta tanto o problema filosófico de como decidir em nome de um humano cujas preferências mudam através do rempo (Pettigrew 2020) quanto o problema prático de como assegurar que os sistemas de IA não sejam incentivados a mudar as preferências humanas para as tornar mais fáceis de satisfazer.

Assumindo-se que os fundamentos teóricos e algorítmicos do novo modelo para IA possam ser completados e, em seguida, instanciados na forma de sistemas úteis tais como assistentes digitais pessoais ou robôs domésticos, será necessário criar consenso técnico em torno de um conjunto de modelos de projeto para IA provavelmente benéfica, de modo que os legisladores tenham alguma orientação concreta sobre que tipos de regulamentos poderiam fazer sentido. Os incentivos econômicos tenderiam a suportar a instalação de padrões rigorosos nos estágios iniciais do desenvolvimento de IA, porque falhas seriam prejudiciais a indústrias inteiras, não apenas aos perpretadores ou às vítimas.

A questão da aplicação de políticas para a IA benefíca é mais problemática, dada a nossa falta de sucesso na contenção de malware. Em Erewhon, de Samuel Butler, e em Dune, de Frank Herbert, a solução é banir todas as máquinas inteligentes, como uma questão tanto de lei quanto de imperativo cultural. Talvez se nós encontrássemos soluções institucionais para o problema de malware, nós seremos capazes de inventar alguma abordagem menos drástica para a IA. Como o manifesto sublinha, a tecnologia de IA não tem valor em si mesma além de sua habilidade para beneficiar a humanidade.


[24]Referências


Aristóteles (n.d.). Nicomachean Ethics, Book III, 3, 1112b.

Arnauld, A. (1662). La logique, ou l ’ art de penser. Paris: Chez Charles Savreux.

Bernoulli, D. (1738). Specimen theoriae novae de mensura sortis. Proceedings of the St. Petersburg Imperial Academy of Sciences, 5, 175 – 92.

Chan, L., Hadfield-Menell, D., Srinivasa, S., & Dragan, A. (2019). The assistive multi-armed bandit. In Proc. Fourteenth ACM/IEEE International Conference on Human – Robot Interaction.

De Montmort, P. R. (1713). Essay d’analyse sur les jeux de hazard, 2ª ed. Paris: Chez Jacques Quillau.

Fickinger, A., Hadfield-Menell, D., Critch, A., & Russell, S. (2020). Multi-Principal Assistance Games: De finition and Collegial Mechanisms. In Proc. NeurIPS Workshop on Cooperative AI.

Groth, O., Nitzberg, M., & Russell, S. (15 de agosto de 2019). AI algorithms need FDA-style drug trials. Wired.

Hadfield-Menell, D., Dragan, A. D., Abbeel, P., & Russell, S. (2017a). Cooperative inverse reinforcement learning. In Advances in Neural Information Processing Systems 29.

Hadfield-Menell, D., Dragan, A. D., Abbeel, P., & Russell, S. (2017b). The off-switch game. In Proc. Twenty-Sixth International Joint Conference on Arti fi cial Intelligence.

Harsanyi, J. (1977). Morality and the theory of rational behavior. Social Research, 44, 623 – 656.

Hillis, D. (2019). The first machine intelligences. In John Brockman (ed.), Possible Minds: Twenty-Five Ways of Looking at AI. Penguin Press.

Hirsch, F. (1977). The Social Limits to Growth. Routledge & Kegan Paul.

Ng, A. Y. & Russell, S. (2000). Algorithms for inverse reinforcement learning. In Proc. Seventeenth International Conference on Machine Learning.

Nozick, R. (1974). Anarchy, State, and Utopia. Basic Books.

Pettigrew, R. (2020). Choosing for Changing Selves. Oxford University Press.

Russell, S. (1998). Learning agents for uncertain environments. In Proc. Eleventh ACM Conference on Computational Learning Theory.

Russell, S. (2019). Human Compatible: AI and the Problem of Control. London: Penguin.

Russell, S. & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4ª edição). Pearson.

Sen, A. (1999). The Possibility of Social Choice. American Economic Review, 89, 349 – 378.

Shah, R., Krasheninnikov, D., Alexander, J., Abbeel, P., & Dragan, A. (2019). The implicit preference information in an initial state. In Proc. Seventh International Conference on Learning Representations.

Turing, A. (1951). “Can digital machines think?” Radio broadcast, BBC Third Programme. Texto datilografado disponível em http://turingarchive.org.

Veblen, T. (1899). The Theory of the Leisure Class: An Economic Study of Institutions. Macmillan. von Neumann, J. e Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.


Próximo ensaio


ORIGINAL:

RUSSELL, S. Artificial Intelligence and the Problem of Control. In: GHEZZI, C. et al. (eds.). Perspective on Digital Humanism. Springer Cham: 2022. p.19-24. Disponível em: <https://link.springer.com/book/10.1007/978-3-030-86144-5>


TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0


1 [19]A palavra “agente” em IA não carrega nenhuma conotação para agir em nome de outro.

2 [21]Fornecendo evidência adicional para a significância de objetivos mal especificados, Hilles (2019) traçou a analogia entre incontroláveis sistemas de IA e incontroláveis atores econômicos – tais como corporações de combustível fóssil maximizando o lucro à custa do futuro da humanidade.

Nenhum comentário:

Postar um comentário