Mathesis: No Caminho para a IA 9 De Holmes para AlphaGo

segunda-feira, 27 de março de 2023

No Caminho para a IA 9 De Holmes para AlphaGo

No Caminho para a IA: Profecias do Direito e os Fundamentos Conceituais da Era da Aprendizagem de Máquina

Por Thomas D. Grant & Damon J. Wischik

[103]Capítulo 9 De Holmes a AlphaGo

Em The Path of the Law, Holmes perguntou “O que constitui o direito?” e respondeu que o direito não é nada mais do que as profecias do que as cortes farão. Como nós discutimos no capítulo 5, isso não é apenas a observação trivial de que um dos trabalhos de um advogado é predizer o resultado do caso de um cliente: é o discernimento de que crescimento e desenvolvimento do direito mesmo – o caminho (path) do direito – é constituído através de atos preditivos.

Do começo ao fim de sua carreira legal, Holmes esteve interessado no entedimento do direito como um sistema em evolução. Kellogg, em um estudo recente das raízes do pensamento de Holmes,¹ traça esse interesse ao período entre 1866-1870, os primeiros anos de Holmes como advogado praticante e à leitura por ele de John Stewart Mill sobre a filosofia da indução e de William Whewell e John Herschel sobre o papel da indução na construção de teorias científicas. A compreensão original de Holmes era de que o desenvolvimento do direito é um processo de indução social: ele não é simplesmente dedução lógica a partir de axiomas estabelecidos em estatutos e a doutrina, como os formalistas compreendê-lo-iam; não é simplesmente a totalidade do que os juízes têm feito, como os realistas compreendê-la-iam. Antes, o direito desenvolve-se através de agentes integrados em sociedade que tomam ações que dependem do e contribuem para o corpo cumulativo de experiência, e ele envolve agentes sociais que, através de debate, são capazes de convergirem na direção de doutrina legal arraigada.

No paradigma padrão para aprendizagem de máquina, não há contraparte à primeira parte da compreensão de Holmes da indução social – ou seja, ao papel dos agentes ativos integrados em sociedade. O paradigma padrão é que há alguma coisa para a máquina aprender, e essa “alguma coisa (something)” são os dados, ou seja, [104]dado (given), e dados não são acumulados através das ações contínuas. É por isso que o campo é chamado de “aprendizagem (learning) de máquina” em vez de “ação (doing) de máquina”! Mesmo os sistemas nos quais as ações de agentes de aprendizagem afetam as suas redondezas, por exemplo, um carro autônomo (self-driving car) cujos movimentos farão outros usuários da via reagir, a premissa é que há padrões aprendíveis sobre como os outros se comportaram, e a aprendizagem daqueles padrões é o objetivo do treinamento, e o treinamento deveria ocorrer na fábrica em vez de na rua.

Contudo, há uma subárea da aprendizagem de máquina, chamada de aprendizagem por reforço (reinforcement learning), na qual a acumulução ativa de dados desempenha um papel principal. “AlphaGo,”² a IA criada pela DeepMind, que, em 2016, obteve uma vitória histórica contra o jogador (humano) de mais elevado escalão de Go, Lee Seedol, é um produto de aprendizagem por reforço. Neste capítulo nós descreveremos os vínculos entre a aprendizagem por reforço e o discernimento de Holmes de que o direito se desenvolve através de agentes integrados em sociedade.

A segunda parte da compreensão de Holmes diz respeito ao processo no qual os dados se tornam em doutrina, o “contínuo de inquérito.”³ Conforme a jurisprudência (case law) acumula-se, ali se formam grupos (clusters) de casos similares, e estudiosos legais, examinado esses grupos, hipotetizam princípios gerais. Holmes famosamente disse que “proposições gerais não decidem casos concretos,” mas ele também via o direito como o repositório dos “ideais da sociedade [que] foram suficientemente fortes para alcançarem a forma final de expressão.” Em outras palavras, a doutrina legal é como uma teoria científica aceita⁴: ela fornece uma narrativa coerente, e sua autoridade não se origina a partir de axiomas prescritivos, mas antes a partir de sua habilidade para explicar dados empíricos. A doutrina legal bem estabelecida se origina através de um processo social: ela “corporifica o trabalho de muitas mentes, e foi testada em forma assim como em substância por críticos treinados cujo interesse prático é resisti-la a cada passo.”⁵

Não há nada na aprendizagem de máquina que corresponda a esse segundo aspecto da indução social de Holmes, à dialética social na qual as explicações são geradas e contestadas e, eventualmente, tornam-se arraigadas. Na última parte deste capítulo, nós discutiremos o papel da explicação legal, ressaltaremos alguns problemas com a explicabilidade em aprendizagem de máquina e sugeriremos como a aprendizagem de máquina poderia aprender a partir de Holmes.

9.1 Acumulando Experiência

De acordo com Holmes, “O crescimento do direito está muito inclinado a ocorrer desta maneira: dois casos muito diferentes sugerem uma distinção geral, o que é algo claro quando expresso abertamente. Mas conforme novos casos se agrupam em torno de [105]polos opostos, e começam a aproximar-se uns aos outros […] pelo menos uma linha matemática é alcançada pelo contato de decisões contrárias.”⁶

A metáfora de Holmes, de uma linha matemática desenhada entre casos com decisões contrárias, será muito familiar aos estudantes de aprendizagem de máquina, uma vez que quase qualquer livro-texto introdutório descreve a classificação da aprendizagem de máquina usando ilustrações tais como a figura acima. Na figura, a cada ponto de dados (datapoint) é atribuído uma marca de acordo com sua etiqueta de verdade fundamental (ground-truth label),⁷ e o objetivo do treinamento de um classificador (classifier) é descobrir uma linha divisória. O AlphaGo da DeepMind pode ser visto como um classificador: ele é um sistema para classificação de estados de tabuleiros (game-board states) de acordo com os quais o movimento concederá ao jogador a chance mais alta de vitória. Durante o treinamento, ao sistema são mostrados muitos estados de tabuleiros, cada um anotado de acordo com qual jogador eventualmente vence o jogo, e o objetivo do treinamento é aprender linhas divisórias.

Holmes não estava interessado apenas nas linhas divisórias mas na acumulação de novos casos. Alguns casos novos são apenas repetições (replays) com variações nos fatos, Caim matando Abel de novo e de novo através da história. Mas Holmes tinha em mente novos casos surgindo a partir de novas situações, onde a doutrina legal ainda não desenhou uma linha clara. O direito cresce através de uma sucessão de disputas legais particulares, e, em nenhuma situação, haveria ali uma disputa legal significativa se a linha divisória fosse clara. Atores no sistema legal adaptam as ações deles baseados no corpo de decisões legais que foram acumuladas, [106]e essa adaptação dessa maneira afeta quais novas disputas surgem. Novas disputas continuarão a surgir para preencher o espaço dos casos possíveis, até que, eventualmente, torne-se possível desenhar uma linha “no contato de decisões contrárias.” Kellogg resume o pensamento de Holmes desta maneira: “ele reconhecia a indução lógica como um processo social, uma forma de inferência que se engaja em ação adaptativa e implica transformação social.”⁸

A aprendizagem de máquina tem uma ação adaptativa equivalente. O conjunto de dados de treinamento para AlphaGo não foi dado a priori: ele foi gerado durante treinamento, pela máquina jogando contra si mesma. Para ser preciso, AlphaGo foi treinado em três fases. A primeira fase foi a tradicional aprendizagem de máquina, a partir de um conjunto de dados a priori de 29,4 milhões de posições de 160.00 jogos (games) jogados por profissionais humanos. Na segunda fase, a máquina foi refinada jogando contra uma biblioteca acumulada de iterações anteriores de si mesma, cada jogo (play) adicionando uma nova iteração à biblioteca. A iteração final da máquina na segunda fase foi jogada contra ela mesma, para criar um novo conjunto de dados de 30 milhões de partidas (matches) e, na terceira fase, esse conjunto de dados foi usado como dados de treinamento para um classificador (isso quer dizer, a máquina na terceira fase treina um dado conjunto de dados, o qual, como o dado (given) conjunto de dados na primeira fase, não é aumentado durante treinamento). O classificador treinado foi a base para o sistema final AlphaGo. Posteriormente, a DeepMind criou uma versão aperfeiçoada, AlphaGo Zero,⁹ a qual essencialmente apenas necessitou da segunda fase do treinamento e que superou AlphaGo. A característica-chave da aprendizagem por reforço, vista em ambas versões, é que a máquina é feita tomar ações durante o treinamento, baseada no que ela aprendeu até então, e os resultados dessas ações são usados para a treinar adicionalmente – a “ação adaptativa” de Kellogg.

Holmes diz que a linha matemática é obtida “pelo contato de decisões contrárias.” Similarmente, ao AlphaGo necessitou ser mostrada uma diversidade suficiente de estados de tabuleiros para preencher o mapa, de maneira que ele pode aprender a classificar qualquer estado com o qual ele possivelmente poderia se deparar durante o jogo. No direito, casos novos surgem através de irascibilidade (fractiousness) e conflito – “o destino do homem é lutar”¹⁰ - ao passo que, para o AlphaGo, o mapa foi preenchido ao artificialmente se adicionar ruído (noise) ao conjunto de dados de jogos jogados (game-play).

Holmes tem sido criticado por propor um modelo livre de valores do direito – ele famosamente definiu a verdade “como o voto da maioria da nação que pode sobrepujar todos os outros.”¹¹ Kellogg absolve Holmes dessa acusação: ele argumenta que Holmes via o direito como um processo de investigação social, usando o mecanismo de disputas legais para descobrir como a sociedade funciona, similar a como a ciência usa experimentos para descobrir como a natureza funciona. Portanto, as linhas [107]divisórias que o direito desenha não são arbitrárias: “Quaisquer conclusões bem-sucedidas de investigação social devem, em um aspecto importante, conformar-se com o mundo no geral. Indutivismo social não implica que os procedimentos e fins da justificação sejam produtos relativistas de convenções diferentes.”¹² Da mesma maneira, embora o treinamento de AlphaGo seja superficialmente relativista (ele foi treinado para classificar estados de tabuleiros segundo o melhor movimento seguir, assumindo que o oponente seja AlphaGo), mesmo assim, ele é validado pelas mecânicas de jogo objetivas: feito competir contra Lee Seedol, um dos principais jogadores humanos de Go no mundo, AlphaGo venceu.

9.2 Explicações Legais, Decisões e Predições

“É o mérito da common law,” Holmes escreveu, “que ela primeiro decide o caso e depois determina o princípio.”¹³ A aprendizagem de máquina notabilizou-se (e superou a ingenuidade de engenheiros humanos) na tomada de decisões, uma vez que a tomada de decisão seja reformulada como um problema de predição como descrito no capítulo 5. Contudo, esse sucesso veio às expensas da explicabilidade. Nós podemos aprender como explicar decisões de aprendizagem de máquina estudando como a common law é capaz de determinar o princípio por trás de uma decisão legal?

No direito, há um excesso (surfeit) de explicação. Holmes desembaralha três tipos: (i) a explicação realista de porque um juiz chegou a uma decisão particular, por exemplo, por causa de uma premissa maior inarticulada, (ii) a explicação formalista que o juiz articula na decisão, e (iii) explicação em termos de princípios. Uma vez que os princípios estejam arraigados, então, os três tipos de explicação tenderão a coincidir, mas, nos estágios iniciais do direito, elas frequentemente não o fazem. Os princípios refletem doutrinas legais estabelecidas que “corporificam o trabalho de muitas mentes e têm sido testadas tanto em forma quanto em substância pelos críticos treinados cujo interesse prático é resisti-lo a cada passo.” Eles surgem através de um processo de indução social, conduzidos adiante não apenas por novos casos (dados) mas também por explicações contestadas.

Portanto, para entendermos de onde os princípios se originam, nós nos voltamos para as decisões judiciais. (Na terminologia legal, decisão (decision) é usada vagamente¹⁴ para se referir igualmente ao julgamento e à explicação do julgamento pelo juiz).

Aqui está um simples experimento de pensamento. Considere dois juízes A e B. O juiz A escreve decisões que são modelos de raciocínio legal claro. Ele toma casos emaranhados, casos tão espinhosos que dificilmente algum advogado pode predizer o resultado, e ele é tão sábio e articulado que os julgamentos dele tornam-se amplamente [108]dependidos por outros juízes. Por outro lado, o juiz B escreve decisões truncadas. Eventualmente, um advogado sagaz entende que esse juiz se encontra favorável ao réu após o almoço, e em favor do demandante (plaintiff), em outros momentos do dia (o estômago cheio dele é a premissa maior inarticulada). O juiz B é muito predizível, mas seus julgamentos raramente são citados e frequentemente são invalidados (overturned) em recursos.

Se nós pensarmos no direito puramente como uma tarefa de predição do resultado do próximo caso, então os julgamentos por A e por B são equivalente: eles são o grão (grist) para o moinho (mill) da aprendizagem, dados para serem minerados. Para essa tarefa, a qualidade do raciocínio deles é irrelevante. É apenas quando nós examinamos o desenvolvimento do sistema legal que o raciocínio se torna significante. O juiz A tem mais impacto sobre casos futuros, por causa de suas explicações claras. “As ideias criadoras de épocas,” Holmes escreveu, “não se orginaram dos poetas, mas dos filósofos, dos juristas, dos matemáticos, dos físicos, dos doutores – dos homens que explicam, não dos homens que sentem.”¹⁵

O nosso simples experimento de pensamento poderia parecer sugerir que é o raciocínio, não a predição, que importa para o crescimento do direito. E quanto ao famoso aforismo de Holmes, de que a profecia constitui o direito? Alex Kozinski, juiz de Corte de Recursos dos EUA, quem pensava que a ideia toda da premissa maior inarticulada era exagerada, descreveu como os juízes escrevem as decisões deles em antecipação da revisão:

“Se você é um juiz distrital, as suas decisões estão sujeitas à revisão por três juízes da corte de recursos. Se você é um juiz de circuito, você tem de persuadir, pelo menos outro colega, preferencialmente dois, a juntar-se à sua opinião. Mesmo então, os litigantes peticionam por nova audiência (rehearing) e revisão pelo pleno do tribunal (en banc review) com regularidade irritante. Os seus atalhos (shortcuts), erros e descuidos (oversights) são impiedosamente exibidos diante da corte inteira e, de modo suficiente frequente, alguém requisitará um voto do pleno do tribunal (en banc vote). Se você sobreviver a isso, juízes que discordam fortemente da sua abordagem irão peticionar uma opinião dissidente a partir da negação de nova audiência diante do pleno do tribunal (en banc rehearing). Se suficientemente poderosa, ou se juntada por juízes suficientes, ela tornará a sua opinião sujeita a exame minucioso pela Suprema Corte, aumentando vastamente as chances de que certiorari será concedido. Mesmo juízes-membros da Suprema Corte estão sujeitos às restrições de colegas e aos julgamentos de uma corte posterior.”¹⁶

Dessa forma, os juízes, quando eles chegam a escrever uma decisão, estão predizendo como juízes futuros (e acadêmicos, e agentes do poder público, e a opinião pública) responderão às decisões deles. Dessa forma, Kozinsky traz-nos de volta para a profecia e demonstra a ligação com as explicações “testadas em forma assim como em substância por críticos treinados.”

[109]9.3 Gödel, Turing e Holmes

Nós argumentamos que a decisão dada por um juiz é escrita em antecipação de como ela será lida e agida por juízes futuros. Quanto melhor a habilidade do juiz para predizer, mais provável é que essa explicação tornar-se-á parte da doutrina legal estabelecida. Dessa forma, o juiz desempenha um papel duplo no crescimento do direito: eles são os atores que fazem as predições; e eles são os objetos de predição por outros juízes.

Não há nada em aprendizagem de máquina que seja análogo, nenhum sistema no qual a máquina é um preditor que antecipa preditores futuros. Contudo, essa propriedade autorreferencial tem uma ligação interessante com a clássica ciência algorítmica da computação. Alan Turing é bem conhecido na cultura popular por seu teste para inteligência artificial.¹⁷ Entre os cientistas da computação, ele é melhor conhecido pela invenção da Máquina de Turing, um abstrato modelo matemático de um computador que pode ser usado para raciocinar sobre a natureza e os limites da computação. Ele usou esse modelo para provar (em 1936¹⁸) que há uma tarefa que é impossível para qualquer computador resolver: a tarefa de decidir se um dado algoritmo eventualmente terminará ou se ele ficará preso em um loop infinito. Essa tarefa é chamado do “Problema de Parada (Halting Problem).” Um passo-chave na prova de Turing era pegar um algoritmo, ou seja, um conjunto de instruções para dizer a um computador o que fazer, e representá-lo como uma cadeira de símbolos que podem ser tratados como dados e alimentados como entrada em outro algoritmo. Aqui Turing está se baseando no trabalho de Kurt Friedrich Gödel, quem, em 1930, desenvolveu a ferramenta equivalente para raciocinar sobre afirmações em lógica matemática. Dessa maneira, Gödel e posteriormente Turing foram capazes de provar resultados fundamentais sobre os limites da lógica e dos algoritmos. Eles analisaram matemática e computação como sistemas autorreferenciais.

No trabalho de Turing, um algoritmo é visto como um conjunto de instruções para o processamento de dados, e, simultaneamente, como os dados que podem, eles mesmos, ser processados. De maneira similar, no direito, o juiz é um agente que faz predições e, simultanetamente, um objeto para predição. Através dessas predições, princípios legais estabelecidos emergem; nesse sentido, o direito pode ser dito ser constituído por predição. A aprendizagem de máquina também é construída sobre a predição – mas a aprendizagem de máquina não é constituída por predição da forma que o direito é. Nós poderíamos dizer que o direito é pós-turing enquanto que a aprendizagem de máquina é ainda pré-turing.¹⁹

[110]9.4 O que a Aprendizagem de Máquina pode aprender de Holmes e Turing

A nossa ideia ao discutir sistemas de aplicação legal e autorreferencias é esta:

A indução social, no direito, é capaz de produzir princípios legais estabelecidos, ou seja, explicações geralmente aceitas da tomada de decisão judicial;
O motor para a indução social no direito é a predição em um sistema autorreferencial;
A aprendizagem de máquina tem se sobressaído (e superado a engenhosidade humana em engenharia) em tarefas preditivas para as quais há uma medida empírica de sucesso;
Se nós pudermos combinar autorreferência com uma tarefa preditiva quantitativa, nós poderíamos obter decisões explicáveis de aprendizagem de máquina.

No sistema legal, a qualidade de uma decisão pode ser avaliada pela mensuração de quanto se depende dela em casos futuros, e essa qualidade está intrinsicamente ligada às explicações. As explicações são avaliadas não por “você está feliz com o que foi contado a você?”, mas pelas consequências empíricas. Talvez essa ideia possa ser transposta para a aprendizagem de máquina, em particular para os problemas de aprendizagem por reforço, para fornecer uma métrica para a qualidade de uma predição. Isso forneceria uma médica empírica de sucesso, de modo que as ferramentas que empoderam a aprendizagem de máquina possam ser desencadeadas (unleashed), e a “explicabilidade” tornar-se-á um desafio técnico em vez de um vaga e disputada lista de lavanderia. Talvez, como no direito, os sistemas de aprendizagem de máquina de mais alta qualidade serão aqueles que possam internalizar o comportamento de outras máquinas. Máquinas que façam isso ainda mais traçariam um caminho como aquele do direito de Holmes.

Essas são direções especulativas para pesquisa futura em aprendizagem de máquina, as quais podem ou não render frutos. Mesmo assim, é fascinante que o entendimento de Holmes do direito sugira tais direções para a pesquisa em aprendizagem de máquina.

Conclusão

ORIGINAL:

GRANT, T. D.; WISCHIK, D. J. On the path to AI: Law’s prophecies and the conceptual foundations of the machine learning age. Palgrave Macmillian Cham: 2020. pp.103-112. Disponível em: <https://link.springer.com/book/10.1007/978-3-030-43582-0>

TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0

1 [110]Kellogg (2018) 29.

2 Silver et al. (2016).

3 Kellogg (2018) 8.

4 Kellogg baseia-se na exposição formativa de Holmes a filósofos da ciência e em seu programa para descobrir uma analogia legal para formulação de hipóteses científicas. Id. 25, 51.

5 [111]Holmes, Codes, and the Arrangement of the Law, American Law Review 5 (outubro de 1870): 1, reimpresso em Kellogg (1984) 77; CW 1:212. See Kellogg (2018) 37.

6 Holmes, The Theory of Torts, American Law Review 7 (julho de 1873): 652, 654. Ver Kellogg (2018) 41.

7 Ver capítulo 3, p. 37.

8 Kellogg (2018) 17.

9 Silver et al. (2017).

10 Holmes para Learned Hand, 24 de junho de 1918, citado em Kellogg (2018) 186-87.

11 Id.

12 Kellogg (2018) 180.

13 Codes, and the Arrangement of the Law, American Law Review 5 (October 1870): 1, reimpresso em Kellogg (1984) 77; CW 1:212. Ver Kellogg (2018) 37.

14 No capítulo 6, nós chamamos atenção para uma confusão similar, na falha de Hempel para distinguir entre explicação e predição. Ver p. 74.

15 Remarks at a Tavern Club Dinner (on Dr. S. Weir Mitchell) (4 de março de 1900) reimpresso de De Wolfe Howe (ed.) (1962) 120. A poesia foi uma dos vários passatempos do pai polímata de Holmes.

16 Kozinski, What I Ate for Breakfast and Other Mysteries of Judicial Decision Making, 26 Loy. L.A. L. Rev. 993 (1993). Kozinski (1950-) serviu na Corte de Recursos dos EUA para o Nono Distrito de 1985 para 2017.

17 Ver The Imitation Game (Data de lançamento nos EUA: 25 de dezembro de 2014), no qual o ator Benedict Cumberbatch interpreta Turing. Para o teste, ver Alan M. Turing, Computing Machinery and Intelligence, 59 Mind 433–60 (1950) (e, para a formulação do jogo, especialemente 433-34). Cf. Halpern, The Trouble with the Turing Test, The New Atlantis (inverno de 2006): https://www.thenewatlantis.com/publications/the-trouble-with-the-turing-test.

18 Alan Turing, On Computable Numbers, with an Application to the Entscheidungsproblem, 2(42) LMS Proc. (1936). Para uma esboço legível da contribuição de Turing e o seu contexto histórico, ver Neil Immerman, Computability and Complexity, in Zalta (ed.), The Stanford Encyclopedia of Philosophy (edição do inverno de 2018): https://plato.stanford.edu/archives/win2018/entries/computability/.

19 Para uma ligação adicional entre Turing e Holmes, ver capítulo 10, p. 123.

Mathesis

Páginas

segunda-feira, 27 de março de 2023

No Caminho para a IA 9 De Holmes para AlphaGo

Nenhum comentário:

Postar um comentário

Elementos de Lógica - Livro II - Capítulo I Das Operações da Mente e dos Termos

Arquivo do blog

Marcadores