quinta-feira, 2 de março de 2023

No Caminho para a IA 5 Saída como Profecia

No Caminho para a IA: Profecias do Direito e os Fundamentos Conceituais da Era da Aprendizagem de Máquina


Por Thomas D. Grant & Damon J. Wischik


Capítulo anterior


[49]Capítulo 5 Saída como Profecia


No capítulo anterior nós consideramos alguns dos propósitos aos quais a aprendizagem de máquina poderia ser aplicada – por exemplo, predizer o tópico de um caso de tribunal (court case) dadas as palavras que o juiz usou no julgamento escrito do tribunal – e nós descrevemos a descoberta de padrões (pattern finding) como o método por trás da predição. Contudo, mais importante do que o método é o objetivo, nesse exemplo “predizer o tópico,” e, em particular, a palavra predizer (predict). Nós introduzimos a palavra no capítulo anterior para começar a chamar atenção para como os cientistas da computação a usam quando eles engendram sistemas de aprendizagem de máquina. Em sistemas de aprendizagem de máquina, a precisão preditiva é o mais importante – a maneira de formular questões, a base dos algoritmos de aprendizagem, e a métrica pela qual os sistemas são julgados. Neste capítulo, nós considereramos a predição, tanto na visão de Holmes do direito quando na abordagem da aprendizagem de máquina para a computação.

Na visão de Holmes do direito, a predição é central. A resposta dele à questão O que constitui o direito? (What consitutes the law?) tornou-se um dos mais famosos epigramas de todos no direito:


As profecias do que os tribunais farão de fato, e nada mais pretensioso, são o que eu quero dizer por direito.”1


O interesse de Holmes na lógica e filosofia da probabilidade e estástica veio mais à luz graças a estudo acadêmico recente2; ele imergiu [50]a si mesmo nesses temas cedo na carreira. O uso da palavra “profecia (prophecy)” por Holmes era deliberado. Ele concordava com a sua visão geral do direito ao escapar das conotações científicas e racionais de “predição (prediction),” mesmo como ele também usava a palavra. Possivelmente, dado como têm havido explicações elusivas de como os sistemas de aprendizagem de máquina chegam às predições que eles fazem, “profecia” seja um bom termo também nesse contexto.

Neste capítulo, nós expandimos sobre a ideia de Holmes de que profecias constituem o direito e, em seguida, retornamos à predição na aprendizagem de máquina.


5.1 Profecias são o que o Direito é


O famoso epigrama de Holmes tem sido amplamente repetido, mas não amplamente entendido. Tomado em isolamento de The Path of the Law, onde Holmes o estabelece, e em isolamento do desenvolvimento de Holmes como um pensador, ele pode soar como não mais do que uma peça de conselho pragmático a um advogado praticante: não se deixe levar pela esperteza dos seus silogismos: em vez disso, pergunte-se o que o juiz fará no caso do seu cliente. Se isso fosse tudo o que ele quisesse dizer, então esse seria um bom conselho, mas não seria um conceito de direito. Holmes tinha em mente um conceito de direito. O epigrama tem de ser lido em contexto:


A confusão com a qual eu estou lidando assedia confessadamente as concepções legais. Tome-se a questão fundamental, O que constitui o direito? (What constitutes the law?) Você encontrará alguns escritores de textos dizendo a você que ele é alguma coisa diferente do que é decidido pelos tribunais de Massachusetts ou da Inglaterra, que é um sistema da razão, que é uma dedução a partir de princípios da ética ou axiomas admitidos, ou seja o que for, o qual pode ou não pode coincidir com as decisões. Mas se nós tomarmos a visão do nosso amigo, o homem mau, nós deveremos descobrir que ele não se importa no mínimo com os axiomas ou pelas deduções, mas ele quer saber o que as cortes de Massachusetts ou inglesas são prováveis de fazer de fato. Eu sou muito da mesma mente. As profecias do que as cortes de fato farão, e nada mais pretensioso, são o que eu quero dizer pelo direito.”3


Holmes estava contrastando “direito como profecia” com “direito como axiomas e deduções.” Ele percebia uma abordagem indutiva para o direito – a abordagem de descoberta de padrões que começa com os dados e a experiência – não apenas para aperfeiçoar ou aumentar o formalismo legal. Ele via-a como um corretivo. A declaração de sua discordância (dissent) no caso Lochner, uns poucos anos depois de The Path of the Law, de que “proposições gerais não decidem casos concretos”4 não foi apenas para [51]dizer que a abordagem formal, dedutiva é insuficiente; ela quis dizer que o formalismo atrapalha.

A centralidade de interesse para Holmes era a realidade da decisão, a saída que a corte poderia produzir. O realismo ou positivismo nesse entendimento do direito constrastou-se com a escola formalista que há muito tinha prevalecido. Mudar o interesse dos advogados dessa maneira foi diminuir o papel da doutrina, das regras formais e abrir uma perspectiva das considerações sociais e históricas até agora não parte do currículo da faculdade de direito e ignoradas, ou, de qualquer maneira, não reconhecidas publicamente, por advogados ou juízes. Desde então, os juristas têm estado divididos quanto a se a mudança de concepção foi para melhor ou pior. Qualquer que seja a avaliação disso por alguém, a concepção de direito como Holmes a expressou continua a influenciar o direito.

Ainda há mais para o epigrama de Holmes sobre profecias. Verdadeiro, o contraste que ele implica entre o método indutivo e o método dedutivo sozinho tem implicações revolucionárias. Mas Holmes não estava meramente preocupado com qual método “nosso amigo, o homem mau” (ou, de fato, o advogado do homem mau) deveria empregar para predizer o resultado de um caso. Ele não estava escrevendo um manual prático de direito. Indubitavelmente, ele estava interessado em encontros individuais com o direito,5 mas isso era porque ele buscava alcançar um entendimento geral do direito como um sistema. A invocação de profecias por Holmes, como o uso dele de termos a partir da lógica e matemática, foi uso memorável da linguagem, mas foi mais do que retórica: era o centro da definição de Holmes do direito. Ele referiu-se ao direito como “predição sistematizada.”6 Isso devia se aplicar ao termo “predição” amplamente – de fato, através do sistema legal como um todo. Holmes não estava economizando em seu uso da palavra “profecia” quando definindo o direito. A palavra “profetizar (prophesy),” ou seus derivados, aparece nove vezes em The Path of the Law.7 Ele usou-a no mesmo sentido quando escrevendo para a Suprema Corte.8 A preocupação de Holmes com predição também é traçável em seus outros escritos.9 O coração do discernimento (insight) de Holmes, e o que tanto tem afetado a jurisprudência desde então, é que o direito é predição.10 Profecia não se refere unicamente ao método para predizer o que as cortes farão. Profecia é o que constitui o direito.

Profecia do que, por quem, e sobre a base de quais dados de entrada?

Holmes forneceu várias ilustrações. Por exemplo, ele famosamente descreveu o direito de contrato como girando em torno de predição: “O dever de manter um contrato na common law significa uma predição de que você tem de pagar por danos se você não o mantiver, e nada mais.”11 Ele afirmou a sua tese principal em termos similares: “um dever legal assim chamado não é nada mais senão uma predição de que, se um homem faz ou omite certas coisas, ele será feito sofrer desta ou daquela [52]forma pelo julgamento da corte.”12 Essa é uma afirmação sobre “dever legal (legal duty)” independentemente do conteúdo do dever. Dessa forma, ela descreve exatamente tão bem qualquer dever que exista no sistema legal.

Nós consideramos que o conceito de Holmes do direito como predição é, de fato, compreensivo. Muitos juristas não veem dessa maneira. Considerando como Holmes entendia o direito relacionar-se às decisões tomadas pelas cortes, alguém percebe porque o seu conceito de direito-como-profecia frequentemente tem recebido interpretação limitada.

Holmes escreveu que “o objeto do [estudo do direito], então, é a predição, a predição da incidência da força pública através da instrumentalidade das cortes.”13 Fazendo a equação diretamente, ele escreveu, “O direito é a afirmação das circunstâncias, na qual a força da vontade pública será trazida para influenciar os homens através das cortes….”; uma “palavra comumente confinada a tais profecias… endereçada a pessoas vivendo no interior do poder das cortes.”14 Frequentemente se assume que a descrição de Holmes aqui não explica as decisos tribunais superiores em uma jurisdição, cortes cujas decisões são finais. Afinal, em um sistema de hieraquia, o órgão no ápice espera que os seus comandos sejam obedecidos. Chamar decisões que emanam a partir de tais quartéis de “predições” parece ignorar a realidade de como um sistema de cortes funciona. Em um sistema legal funcionando bem, um julgamento por uma corte de apelo final, digamos, por exemplo, que a polícia deve liberar um tal e tal prisioneiro, deveria conduzir quase certamente àquele resultado. A corte comanda; o prisioneiro é liberado.

Contudo, nos dois aspectos, um talvez trivial mas o outro, indubitavelmente, significante, as afirmações das cortes superiores, também, pertencem ao conceito do direito como profecia.

Primeiro, mesmo em um sistema legal funcionando bem, a decisão da corte ainda é apenas uma predição. Tão estranha quanto a situação seria na qual a polícia ignorasse a corte mais elevada, é a possibilidade física. Um estatístico poderia dizer que a probabilidade é muito alta (digamos, 99,9999%) de que o julgamento da corte superior, de que o direito requer que o prisioneiro seja liberado, de fato, resultará em um exercício público de poder de acordo com esse julgamento. Abaixo nós falaremos mais sobre a relação entre probabilidade e predição.15 Deixando essa relação de lado por um momento, mesmo um julgamento da corte superior é uma predição na acepção de Holmes. É uma predição desta maneira: a implementação de um julgamento por agentes de poder público é uma ato de tradução, e nesse ato existe a possibilidade para maior ou menor divergência a partir do melhor entendimento do que o juiz comandou. Assim a definição do direito como profecia é instanciada na [53]chance de que a “força pública” não implementará apropriadamente a decisão judicial. Em um sistema legal funcionando bem, a chance é remota. Em sistemas legais que não funcionam bem, o caráter preditivo dos julgamentos finais é mais imediato, porque, nesses sistemas, o risco é maior de que a força pública não implementará apropriadamente os comandos da corte. A “finalidade,” em alguns sistemas judiciais, é mais formal do que real.16

O aspecto adicional no qual o conceito do direito como profecia é compreensivo vem à vista quando nós consideramos como os juízes decidem os casos e como os advogados os argumentam. Decidindo um caso, um juiz terá em mente como essa decisão é provável de ser interpretada, dependida, ou rejeitada, pelas cortes e pelos acadêmicos e pela opinião pública futuros, assim como pelos instrumentos de força pública. O advogado (barrister), por sua parte, ao decidir que linha de argumento seguir, terá em mente como o juiz poderia ser influenciado, e, por sua vez, isso requer a consideração das predições do juiz sobre a posteridade. Dessa forma, Holmes descreveu um caso, após a corte superior tê-lo decidido, como ainda nos “estágios iniciais do direito.”17 Como Kellog o coloca, Holmes situava um caso “não de acordo com o seu lugar na súmula (docket) mas antes no contínuo de investigação em um problema mais amplo.”18

O direito é um sistema autorreferencial, cujas regras e normas são consequências de predições do que essas regras e normas poderiam ser.19 Algumas pessoas participam do sistema de uma maneira episódica, por exemplo, o “homem mau,” quem simplesmente quer um conselho de um assessor jurídico(solicitor) sobre os resultados prováveis com respeito à situação dele. Algumas pessoas participam de maneira formativa. O exemplo no ápice é o juiz da corte de apelo final, as predições do qual sobre o futuro do sistema legal estão encarnadas em um julgumento, o qual ele espera, como uma consequência da autoriade dele no sistema legal, ser uma predição perfeita do exercício do poder público com respeito ao caso. Mas a perspectiva dele, de fato, a diginidade dele como um juiz, implica mais do que isso; um juiz faz mais do que participar de episódios desconectados de julgamento; ele espera que qualquer julgamento que ele conceda em um caso, porque ele se esforça por julgamentos que resistam ao teste do tempo, serão mais ou menos a predição precisa de como um caso futuro, comportando maior ou menor semelhança com o caso, será decidido. O juiz descreve o seu julgamento como comando, não como profecia; mas o processo conduzindo a ela, e o processo como o juiz espera que ele se desdobrará no futuro, é preditivo. O direito-como-profecia (law-as-prophecy), entendido dessa maneira, não tem lacuna.

A alegação de Holmes, como nós a entendemos, sustenta que o direito é inteiramente preditivo. Profecia é o que o direito é feito. O caráter preditivo do direito, nesse sentido constitutivo, é visível no proceso de decisão judicial, [54]independentemente de em qual nível o judiciário está decidindo; e também é visível em todas as outras formas de asserção. A profecia abraça todas as partes do processo legal.

Assim, qualquer um que tenha contato com o direito está fazendo predições, desde o “homem mau” com interesse próprio ao juiz na corte suprema do país, e eles fazem predições sobre a gama completa de saídas possíveis. A experiência que influencia as previsões deles, como nós vimos no capítulo 3,20 Holmes entendia ser ampla, e as novas situações sobre as quais eles fazem predições, ilimitadas. Dessa forma, as pessoas, no caminho de Holmes do direito, engajam-se em tarefas muito mais amplas do que as tarefas da aprendizagem de máquina padrão. Como nós também discutimos no capítulo 3,21 as entradas de máquina, enquanto elas consistem em conjuntos de dados muito grandes (“Dados Massivos (Big Data)”), estão limitadas a entradas às quais têm sido concedida um grau considerável de estrutura – um grau de estrutura quase certamente faltante no ambiente mais amplo (e mais selvagem) a partir do qual a experiência pode ser extraída. Agora, exploraremos adicionalmente o lado da aprendizagem de máquina na analogia – e os seus limites.


5.2 Predição é o que a Saída da Aprendizagem de Máquina é


Obviamente, Holmes, escrevendo em 1897, não tinha a aprendizagem de máquina em mente. Mesmo assim, a ideia dele de que a profecia constitui o direito tem ressonância notável com a aprendizagem de máquina, um mecanismo de computação que, como o direito como Holmes o entendeu, é melhor entendido como constituído por predição.

A palavra predição (prediction) é um termo técnico (term of art) em aprendizagem de máquina. Ele é usado assim:


Em um cenário típico, nós temos uma mensuração como resultado, usualmente quantitativo (tais como um preço de ações (stock price)) ou categórico (tais como ataque cardíaco / não ataque cardíaco), que nós desejamos predizer baseado em um conjunto de características (tais como dieta e mensurações clínicas). Nós temos um conjunto de dados de treinamento, no qual nós observamos o resultado e as mensurações características para um conjunto de objetos (tais como pessoas). Usando esses dados, nós construímso um modelo preditivo (prediction model), ou aprendente (learner), o qual nos capacitará a predizer o resultado para novos objetos não vistos. Um bom aprendente é um que prediz precisamente um tal resultado.”22


[55]Embora na linguagem comum o termo “predição” signifique previsões (forecasts) – quer dizer, afirmações sobre eventos futuros – em aprendizagem de máquina o termo tem um significado mais amplo. Nós tocamos no significado mais amplo no capítulo 4 e na abertura do presente capítulo. Demoremo-nos um pouco mais nesse significado mais amplo agora.

É verdadeiro que algumas saídas de aprendizagem de máquina são “predição” no sentido de que os leigos tipicamente falam: “A tempestade Oliver alcançará a terra na Carolina do Norte”23 ou “o preço da ação subirá 10% dentro dos próximos seis meses.” Outras saídas não são predições na acepção do leigo. De fato, os propósitos principais para os quais a aprendizagem de máquina é usada não envolvem predições desse tipo – propósitos como a classificação dos casos da corte por tópico ou o controle de um veículo autônomo. Quaisquer que sejam os propósitos para os quais ela seja usada, a aprendiazagem de máquina envolve “predição” do tipo mais geral que os cientistas da computação denotam com esse termo.

A característica essencial da predição em aprendizagem de máquina é que ela deveria dizer respeito a “a saída para novos objetos não vistos (unseen),” ou seja, para objetos não no conjunto de treinamento. Dessa forma, por exemplo, se o conjunto de treinamento consiste em fotografias etiquetadas (labelled), e se nós tratamos os pixels da fotografia como características (features) e a etiqueta (label) como o resultado, então é predição quando ao sistema de aprendizagem de máquina é dada uma nova fotografia como dado de entrada e ele produz como saída (outputs) a etiqueta (label) “gatinho.” Na predição de aprendizagem de máquina, o “pre-” simplesmente se refere a antes da mensuração verdadeira ter sido revelada ao sistema de aprendizagem de máquina. A acepção de “pre-” em “predição” vale mesmo embora outras partes bem poderiam já conhecer o resultado. Por exemplo, o cientista da computação já poderia saber que a nova fotograria é de um tigre, não de um gatiinho. Essa atribuição de etiqueta-a-fototragia (label-to-picture) já aconteceu, mas não se contou ao sistema de aprendizagem de máquina sobre ela no ponto do tempo quando o se pediu ao sistema para predizer. Os filósofos da ciência usam os termos “pós-dição (postdiction)” ou “retrodição (retrodiction)” para se referirem à predição de coisas que já aconteceram.24 Essas palavras não são usadas na comunidade de aprendizagem de máquina, mas o conceito por trás delas é quase o que essa comunidade tem em mente quando fala sobre predição.

Uma parte significante da arte (craft) da aprendizagem de máquina é formular uma tarefa como um problema de predição. Nós já descrevemos como a etiquetagem (labelling) de uma fotografia pode ser descrita como predição. Muitos outros exemplos podem ser dados. A tradução pode ser projetada como predição: “prediga a versão francesa de uma sentença, dado o texto em inglês,” onde o conjunto de dados de treinamento é corpus de sentenças traduzidos por humanos. A síntese de escrita manual (handwriting) também pode. Dado um conjunto de dados de texto escrito manualmente (handwritten), registrado como os movimentos de uma ponta [56]de caneta (pen nib), e dado o mesmo texto transcrito em texto em um processador de texto, a tarefa da síntese de escrita manual pode ser projetada como predição: “prediga os movimentos de uma ponta de caneta, dado o texto a partir do processador de texto.” Como Judea Pearl observou na entrevista com a qual nós abriamos o capítulo 4,25 é verdadeiramente notável quantas tarefas podem ser formuladas dessa maneira. Nas ciências sociais, é “uma abordagem epistemológica bastante nova […] e as agendas de pesquisa baseadas em inferência preditiva estão apenas começando a surgir.”26 Contudo, uma teoria do direito baseada em inferência preditiva surgiu há mais de um século: Holmes teorizou o direito ser constituído por profecia. Também dessa forma, nós poderíamos dizer que a aprendizagem de máquina é constituída por predição.

Além disso, a predição não é apenas a maneira pela qual as tarefas de aprendizagem de máquina são formuladas. Ela também é a referência (benchmark) pelo qual nós treinamos e avaliamos os sistemas de aprendizagem de máquina na execução nas tarefas deles. O objetivo do treinamento é produzir um “bom aprendente (learner),” ou seja, um sistema que faz previsões precisas. O treinamento é obtido através da mensuração da diferença entre as predições da máquina (ou pós-dições, como os filósofos dizem) e os resultados reais no conjunto de dados do treinamento; e ajustar iterativamente os valores de pârametro da máquina de forma a minimizar a diferença. A máquina que mais confiavelmente etiqueta tigres como “tigres” aprendeu bem e, pelo menos nessa tarefa modesta, não necessita de mais ajuste. Aquela que etiqueta um tigre como “as florestas da noite,” embora louvável se a sua tarefa fosse predizer cenários nos quais tigres são encontrados na poesia de William Blake, ainda necessita de ajuste adicional para realizar a tarefa de etiquetagem de animais. Esse proceso de ajuste iterativo, como nós notamos no capítulo 2, é o que é conhecido como método do gradiente (gradient descent),27 a espinha dorsal da moderna aprendizagem de máquina. Dessa forma, um mecanismo de indução, não lógica algorítmica, está no coração da aprendizagem de máquina, muito como a “virada indutiva (inductive turn)” de Holmes está no coração da sua ideia evolucionária do direito.

Não é característica fundamental da aprendizagem de máquina que ela possa ser usada para prever eventos futuros – quando o próximo furacão ocorrer, onde ele chegará à terra? Alguém não necessita de aprendizagem de máquina para fazer previsões (forecasts). Alguém pode fazer previsões sobre furacões e semelhantes com dados ou sacrificando uma ovelha (ou consultando um bando de papagaios dispépticos). Alguém também pode fazer previsões com algoritmos clássicos, simulando sistemas dinâmicos derivados a partir de ciência atmosférica. Esse tipo de predição não é característica fundamental da aprendizagem de máquina.

[57]A característica fundamental da aprendizagem de máquina é que o sistema é treinado usando um conjunto de dados consistindo em exemplos de características de entrada (input features) e mensurações de saída (outcome measurements); até que, através do processo do método do gradiente, os valores de parâmetro são tão refinados que as predições da máquina, quando nós a concedemos entradas adicionais, diferem apenas minimamente das saídas reais no conjunto de dados de treinamento. Juízes, litigantes e seus advogados certamente tentam alinhar suas afirmações preditivas do direito com o que eles discernem ser o padrão relevante nos dados de entrada do direito, isso quer dizer, na experiência coletiva que dá forma ao direito. É igualmente o caso que, no entendimento do direito por Holmes, nós não testamos os julgamentos de cortes comparando contra etiquetas “corretas” estipuladas da maneira que nosso detector de e-mail de spam ou de tigre foi testado. Contudo, os julgamentos são testados contra julgamentos futuros. Esse é o argumento que nós fizemos antes sobre o objetivo do juiz de que seus julgamentos resistam ao teste do tempo. O teste é se julgamentos futuros revelam o julgamento dele ter sido uma predição precisa, ou, pelo menos, não tão distante para ser colocado de lado e esquecido.

Um sistema de aprendizagem de máquina tem de ser treinado em um conjunto de dados de características de entrada e mensurações de saída. Isso está em contraste com a clássica abordagem algorítmica, a qual, em vez disso, começa a partir de regras. Por exemplo, a abordagem para previsão (forecasting) do clima funciona através da resolução de equações que descrevem como a atmosfera e os oceanos comportam-se; ela é baseada em leis científicas (as quais, presumivelmente, são o resultado da codificação de dados a partir de experimentos e observação anterior). Exatamente como a aprendizagem de máquina rejeita regras e, em vez disso, começa com dados de treinamento, Holmes rejeitou a ideia de que o direito está derivando saídas baseadas em princípios gerais, e, em vez disso, ele projeta-o como um problema de predição – profetizando o que as cortes farão – a ser realizada sobre a base da experiência.


5.3 Limites da Analogia


Como nós observamos no capítulo 3,28 as predições feitas por um sistema de aprendizagem de máquina tem de ter a mesma forma que as saídas no conjunto de dados de treinamento, e os dados de entrada para o objetos a serem preditos tem de ter a mesma forma que os objetos já vistos. Em aplicações anteriores da aprendizagem de máquina, a “mesma forma” era muito estritamente construída: por exemplo, o conjunto de treinamento para o desafio ImageNet29 consiste de imagens emparelhadas com etiquetas; a tarefa de aprendizagem de máquina é predizer qual dessas etiquetas anteriormente vistas é a mais adequada para a nova imagem, e a nova imagem é requerida de ser das mesmas dimensões que todas as imagens no conjunto de treinamento. A habilidade humana para [58]fazer predições sobre situações novas está muito adiante daquela das máquinas. Um advogado humano pode extrapolar a partir da experiência e fazer previsões sobre novos casos que não se conformam a uma definição estreita de “casos similares àqueles já vistos.” Contudo, a distância está diminuindo, conforme os pesquisadores desenvolvem técnicas para alargar o significado de “mesma forma.” Por exemplo, um sistema de captura de imagem30 agora é capaz de gerar descrições de imagens, em vez de apenas repetir etiquetas já vistas. Dessa forma, está bem dentro do alcance deles para máquinas etiquetar uma imagem como “tigre no fogo em uma floresta,” mas eles ainda estão a uma longa distância, provavelmente, de descreverem, como o poeta fez, a “simétria terrível” do tigre.

Há uma diferença mais significante entre as predições na aprendizagem de máquina e no direito. Na aprendizagem de máquina, o paradigma é que há alguma coisa para o agente aprendente (learning agent) – ou seja, a máquina – aprender. Uma máquina para a tradução do inglês para o francês pode ser treinada usando um corpus de textos traduzidos por humanos, e suas traduções podem ser avaliadas por quão bem elas correspondem à tradução humana. Quaisquer que sejam as traduções que a máquina invente elas não alteram as línguas inglesa e francesa. No direito, em contraste, o julgamento em um caso torna-se parte do corpo de experiência a ser usado em casos subsequentes. Nisso, nós pensamos, o conceito de Holmes do direito como um sistema constituído a partir de predição pode guardar lições para a aprendizagem de máquina. Nos capítulo 6-8, nós consideraremos alguns desafios com os quais a aprendizagem de máquina depara-se, e as possíveis lições de Holmes, conforme nós discutimos a “explicabilidade (explainability)” das saídas da aprendizagem de máquina31 e das saídas que podem ter efeitos desagradáveis porque eles refletem padrões que emergem a partir dos dados (tais como padrões de discriminação racial ou de gênero).32 No capítulo 9,33 nós sugeriremos que Holmes, porque ele entendeu o direito ser um processo autorreferencial no qual cada nova predição dá forma às predições futuras, poderia apontar o caminho para avanços futuros em aprendizagem de máquina.

Antes que nós cheguemos aos desafios da aprendizagem de máquina e às lições possíveis (a partir de Holmes) para o futuro, nós consideraremos uma questão que a predição levanta: a predição, se como elemento constitutivo do direito ou como a saída da aprendizagem de máquina, necessariamente envolve a avaliação de probabilidades?


[59]5.4 Raciocínio Probabilístico e Predição


Para o estudo racional do direito, o homem de letras negras pode ser o homem do presente, mas o homem do futuro é o homem da estatística,” disse Holmes.34 Não é certo que Holmes considerasse que o caráter preditivo do direito implicasse um caráter probabilístico para o direito. Ele certamente estava interessado em probabilidade. Na época após o seu serviço na Guerra Civil, um período que Frederic Kellogg examina estritamente em Oliver Wendell Holmes Jr. and Legal Logic, Holmes estudou teorias da probabailidade e esteve muito engajado em discussões sobre o fenômeno, incluindo como ele se relacionado com a lógica e o silogismo.35 Mais tarde, como um juiz, eles reconheceu a parte desempenhada pela probabilidade na vida comercial, por exemplo, no funcionamento dos mercados futuros (future markets).36 Em correspondência pessoal, Holmes disse que cedo em sua vida ele aprendera “que eu não devo dizer necessário sobre o universo, que eu não sei se alguma coisa é necessária ou não. De modo que eu descrevo a mim mesmo como um apostalitarista (bettabilitarian). Eu acredito que nós podemos apostar (bet) sobre o comportamento do universo…”37 Holmes teria ficado confortável com a ideia de que o direito, em sua característica de predição, também diz respeito a probabilidade. De fato, alguns juristas discernem na ideia de Holmes do direito-como-profecia exatamente um tal ligação.38

Predições feitas pela aprendizagem de máquina não são inerentemente probabilísticas. Por exemplo, o algoritmo de aprendizagem de máquina k-ésimo vizinho mais próximo (k nearest neibhbors)”39 é simplesmente “para predizer o resultado de um novo caso, descobrir o k mais similar aos casos no conjunto de dados, encontrar o resultado médio (average), e relatar esse como a predição.” O sistema prediz um valor, o qual pode ou não pode se revelar ser o correto. Contudo, os modernos sistemas de aprendizagem de máquina, tais como as redes neurais, tipicamente são projetados para gerarem predições usando a linguagem da probabilidade, por exemplo “a probabilidade de que essa imagem de entrada dada represente um gatinho é de 93%.”40

Separadamente, nós podemos classificar sistemas de aprendizagem de máquina em se ou não eles empregam raciocínio probabilístico para gerar suas predições:


[Um tipo de] Aprendizagem de Máquina busca aprender modelos [probabilísticos] de dados: definer um espaço de modelos possíveis, aprender os parâmetros e a estrutura dos modelos a partir dos dados; fazer predições e tomar decisões. [O outro tipo de] Aprendizagem de Máquina é uma caixa de ferramentas (toolbox) para o processamento de dados: alimentar os dados dentro de um entre muitos modelos possíveis; escolher os métodos que têm boa performance teórica ou prática; fazer previsões e tomar decisões.”41


[60]São as predições legais expressas na linguagem da probabilidade? Advogados servindo a clientes nem sempre fornecem mensurações de probabilidade quando eles fornecem predições, mas algumas vezes eles fazem.42 Alguns clientes necessitam de uma avaliação semelhante para propósitos de controles internos, relatórios financeiros e semelhantes. Outros perguntam por isso para ajudar na criação de estratégias em torno do risco legal. Modernas viradas empíricas no estudo acadêmico do direito, pode ser acrescentado, estão muito mais preocupadas com a estatística.43 Anexar uma probabilidade a uma predição de um resultado legal é um exercício inexato, mas é familiar a advogados.

Holmes, quando ele se referia às profecias do que as cortes farão, é frequentemente lido como querendo dizer que o direito deveria ser feito prontamente previsível.44 Embora nós não duvidemos de que ele preferisse juízes estáveis a erráticos, nós não vemos que esse era a ideia de Holmes. Cortes cujas decisões são difíceis de predizer não são menos fontes de decisão legal. Mesmo quando o advogado tem o privilégio de argumentar diante de um “bom” juiz, quem, para os propósitos presentes nós definimos como um juiz cujas decisões são facéis de predizer, quão mais próximo da questão legal, mais difícil é predizer a resposta. É inerente que advogados estarão mais confiantes em algumas de suas previsões do que em outras.

Os juízes, praticamente por definição do papel deles como autoridades legais, não apresentar uma visão quanto às chances de que seus julgamentos estejam corretos. É difícil ver como o processo de julgamento manteria a confiança da sociedade, se todo julgamento fosse emitido com um valor de p (p-value)!45 Contudo, lendo julgamentos através de um óculos realista, alguém pode discernir indícios de quão provável é que o julgamento será entendido no futuro ter afirmado o direito. Juízes não se intimidam de descreverem alguns casos como claros; outros como aproximados (close ones). Eles não chamam isso de afirmações ambíguas (hedging), mas isso é muito parecido. Quando um juiz se refere a como finamente balanceada uma tal e tal questão foi, isso tem o efeito de qualificar o julgamento. Dessa maneira, pode ser que alguém possa inferir a partir do texto de um julgamento quanta confiança alguém deveria ter no julgamento como uma predição de resultados futuros. O texto, mesmo onde ele não expressa nada em termos sobre a proximidade (closeness) de um caso, ainda dá pistas. A estrutura do racioínio pode ser uma pista: quão mais complexo e particularista o raciocínio de um juiz, mas o julgamento poderia ser questionado, ou, pelo menos, limitado em sua aplicação futura. Pistas textuais permitem uma inferência sobre quão confiante alguém deveria estar que o julgamento reflete precisamente um padrão na experiência que foi a entrada por trâs dele.46

O direito usa o raciocínio probabilístico para chegar a uma predição? Em outras palavras, uma vez que um julgamento tenha sido produzido e ele torne-se parte do [61]corpo de experiência legal, advogados e juízes raciocinam sobre o nível de confiança deles de que um julgamento anterior é relevante para as predições dele sobre um caso corrente? De fato, considerando-se resultados reais (ex post), todo julgamento é, em uma extensão maior ou menor, questionado ou rejeitado ou ignorado – ou afirmado ou dependido. Anulação (Nullification), revogação (reversal), invalidação (striking down) – por qualquer termo que seja que o sistema legal refira-se ao processo, uma rejeição de um julgamento por uma autoridade controladora é uma expressão formal de que o juiz entendeu (got it) errado.47 Também o endosso (endorsement) é, algumas vezes, formal e explícito, o arquétipo sendo uma decisão sobre o apelo que afirma o julgamento. Sinais formais e explícitos, se de rejeição ou de confiança (reliance), implicam um ajuste significante em quanta confiança nós deveríamos ter em um julgamento como uma previsão de um caso futuro.

Não é apenas em recurso (appeals) que nós procuramos sinais de quanto a quão confiantes nós deveríamos estar em um dado julgamento como uma predição de casos futuros. Rejeição ou endosso poderiam ocorrer em um caso diferente sobre fatos diferentes (ou seja, não no recurso no mesmo caso) e portanto, nessa situação, é apenas uma aproximação: ignorando, rejeitando, ou “distinguindo” um julgamento passado; ou invocando-o com aprovação, um juiz em um caso diferente diz ou implica que o juiz no julgamento passado compreendeu erradamente o direito errado ou ele compreendeu-o de maneira correta, mas tratamento indireto no novo julgamento, se expresso ou implícito, apenas diz tanto sobre o passado. Um jurista, considerando tal tratamento, esforçar-se-ia para chegar a um valor numérico para ajustar quanta confiança colocar no julgamento passado.48 Em evidência sobre julgamentos – evidência inferível a partir das palavras dos julgamentos mesmos e evidência contida em sua recepção – alguém mesmo assim discerne, pelo menos, marcas grosseiras da probabilidade de que eles serão seguidos no futuro.

Não há compreensão recebida quanto ao que Holmes considerava ser a função da probabilidade na predição. Como no caso com a aprendizagem de máquina, juristas fazem predições probabilísticas assim como não probabilísticas. Você pode afirmar o direito – ou seja, fornecer uma predição sobre o exercício futuro de poder público – sem fornecer uma avaliação de sua confiança que a sua predição esteja correta. Juristas também usam tanto raciocínio probabilístico quanto não probabilístico. Contudo, Holmes, quando se referindo a profecias não estava dizendo às cortes como raciocinar (ou, por falar nisso, às legislaturas ou aos júris; nós retornaremos a juries no capítulo 7). A preocupação dele era afirmar o que constitui o direito. Verdadeiro, nós não chamamos juízes vacilantes (wobbly) ou inarticualdos de bons juízes. Mas Holmes não estava explicitamente interessado no comportamento do “bom” litigante; e, em seu pensamento sobre o sistema legal como um todo, a sua preocupação não estava limitada ao comportamento do “bom” juiz.


Próximo capítulo


ORIGINAL:

GRANT, T. D.; WISCHIK, D. J. On the path to AI: Law’s prophecies and the conceptual foundations of the machine learning age. Palgrave Macmillian Cham: 2020. pp.49-66. Disponível em: <https://link.springer.com/book/10.1007/978-3-030-43582-0>


TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0


1 [62]Holmes, The Path of the Law, 10 Harv. L. Rev. 457, 461 (1896–1897).

2 Ver Kellogg (2018) op. cit.

3 10 Harv. L. Rev. em 460–61 (1896–1897).

4 Lochner, 198 U.S. 45, 76 (1905) (Holmes, J., opinião dissidente (dissenting)).

5 Embora aconselhamento legal (legal advice) não fosse o que Holmes estava fornecendo, os escritos dele fornecem amplo material para esse propósito, e, dessa maneira, algumas vezes, juízes têm lido-o: ver, por exemplo, Parker v. Citimortgage, Inc. et al., 987 F.Supp.2d 1224, 1232 n 19 (2013, Jenkins, SDJ).

6 10 Harv. L. Rev. em 458 (ênfase adicionada).

7 O texto, o qual se extende por 21 páginas (menos de 10.000 palavras), contém as palavras “profecia,” “profecias,” ou o verbo “profetizar” em cinco páginas: 10 Harv. L. Rev. em 457, 458, 461, 463, e 475.

8 American Banana Company v. United Fruit Company, 213 U.S. 347, 357, 29 S.Ct. 511, 513 (Holmes, J., 1909).

9 Moskowitz enfatizou essa linha do pensamento de Holmes em The Prediction Theory of Law, 39 Temp. L.Q. 413, 413–16 (1965–1966).

10 10 Harv. L. Rev. em 462.

11 Id. em 462.

12Id.

13 Id. em 457.

14 American Banana Company, 213 U.S. em 357, 29 S.Ct. em 513.

15 Este capítulo, pp. 59-61.

16 Ver, por exemplo, White, Putting Aside the Rule of Law Myth: Corruption and the Case for Juries in Emerging Democracies, 43 Corn. Int’l L.J. 307, 321 n. 118 (2010) (relatando dúvida de se os outros ramos do governo da Mongólia submetem-se às decisões judiciais, a despeito do poder formal da Corte Constitucional para rever (review)). O caráter preditivo dos julgamentos de tribunais interestatais, nesse caso, é pronunciado. Julgamentos da Corte Internacional de Justiça, para tomar o exemplo principal, sob o artigo 60 do Estatuto da Corte são “finais e sem apelo,” mas, geralmente, nenhum aparato executivo está disponível para o cumprimento (enforcement) delas, e a Corte não tem jurisdição de cumprimento auxiliar. Mesmo no sistema legal que está em melhor funcionamento, as cortes superiores podem ter uma relação difícil com o aparato executivo cuja conduta eles sentam-se para julgar. Lembre-se da concordância do Ministro da Suprema Corte (Justice) Frankfurter em Korematsu v. United States onde, concordando em não derrubar (overturn) medidas dos tempos de guerra contra pessoas de descendênica japonesa, alemã e italiana, ele declarou “isso é assunto (business) deles [o Governo], não nosso”: U.S. 214, 225, 65 S.Ct. 193, 198 (1944) (Frankfurter, J., concordante (concurring)).

17 Vegelahn v. Guntner & others, 167 Mass. 92, 106 (1896) (Field, C.J. & Holmes, J., opinião dissidente).

18 [63]Kellogg (2018) em 82.

19 Ver também Kellog em 92: “A predição tinha uma referência mais ampla e de mais longo termo para [Holmes] do que a conduta judicial imediata, e estava conectada com a sua concepção de ‘desenvolvimento (growth)’ legal.” Ver mais no capítulo 9.

20 Capítulo  3, pp. 34–35.

21 Capítulo  3, p. 38.

22 Hastie et al. (2009) 1–2.

23 É o uso da aprendizagem de máquina fazer “predições” nesse sentido (“análise preditiva”), sobre o qual escritores legais tratando do tópico têm se focado até a presente data. Ver, por exemplo, Berman, 98 B.U. L. Rev. 1277 (2018).

24 Os termos “pós-dição (postdiction)” e “retrodição (retrodiction),” às vezes, também são usados em estudo acadêmico legal, embora os escritores que os usam são mais prováveis de o fazer em conexão com outras disciplinas. Ver, por exemplo, Guttel & Harel, Uncertainty Revisited: Legal Prediction and Legal Postdiction, 107 Mich. L. Rev. 467–99 (2008), quem consideravam descobertas (findings) da psicologia de que as pessoas estão menos confiantes sobre suas pós-dições (ou seja, qual foi o resultado de uma rolagem de dado (dice roll) que eu há pouco realizei?) do que em suas predições (por exemplo, qual será o resultado da rolagem de dados que eu estou prestes a realiza?) id. 471-79.

25 Ver Chapter 4, p. 41.

26 Dumas & Frankenreiter, Text as Observational Data, in Livermore & Rockmore (eds.) (2019) em 63–64.

27 Quanto ao método do gradiente (gradient descent), ver capítulo 2, p. 23.

O método do gradiente é frequentemente acompanhado por outra técnica chamada de validação cruzada (cross validation), também baseada em predição. O termo deriva-se da ideia de um “conjunto de dados de validação (validation dataset).” Quando treinando um sistema de aprendizagem de máquina, não é possível medir a precisão de predição testando predições sobre o mesmo conjunto de dados que nós usamos para treinar a máquina. (Isso pode ser mostrado matematicamente.) Portanto, o conjunto de dados de treinamento está dividido em dois: um para o treinamento dos valores de parâmetro, a outra parte para a mensuração da precisão preditiva. Essa última parte é chamada de “conjunto de dados de validação.” A validação cruzada (cross validation) é totêmica em aprendizagem de máquina: stats.stackexchange.com, um popular site de perguntas e respostas (Q&A) da Internet para aprendizagem de máquina, chama a si mesmo de CrossValidated. Ela também é uma técnica sútil. Ver Hastie, Tibshirani & Friedman (2009) em §10, para uma descrição formal.

28 Chapter 3, p. 38.

29 Russakovsky, Deng et al., op. cit. (2015).

30 Hossain, Sohel, Shiratuddin & Laga, ACM CSUR 51 (2019).

31 Chapter 6, p. 70.

32 Chapter 7, pp. 81–88; e Chapter 8, pp. 89–100.

33 [64]Chapter 9, pp. 103–111.

34 10 Harv. L. Rev. em 469.

35 Kellogg (2018) 36–53.

36 Board of Trade of the City of Chicago v. Christie Grain & Stock Company et al., 198 U.S. 236, 247, 25 S.Ct. 637, 638 (Holmes, J., 1905). Ver também Board of Trade of the City of Chicago v. Christie Grain & Stock Company et al., 198 U.S. 236, 247, 25 S.Ct. 637, 638 (Holmes, J., 1905). (Tábuas de mortalidade empregadas para calcular, para propósitos de responsabilidade fiscal (tax liability), o valor de uma herança vitalícia (life bequest) a partir da data que ele foi produzida).

37 Carta de Holmes para Pollock (30 de agosto de 1929), reimpresso De Wolfe Howe (ed.)(1942) vol. 2, p. 252 (ênfase adicionada). Kellog cita esta passagem: Kello (2018) em 52.

38 Ver, por exemplo, Coastal Orthopaedic Institute, P.C. v. Bongiorno & anthr, 807 N.E.2d 187, 191 (2004, Appeals Court of Massachusetts, Bristol, Berry J.). Cf., observando uma relação entre a incerteza e o caráter preditivo do direito, Swanson et al. v. Powers et al., 937 F.2d 965, 968 (1991, 4th Cir. Wilkinson, CJ):

As súmulas (dockets) das cortes são testamentos … para muitas questões que permanecem razoavelmentre debatíveis. Holmes tocou nesse processo incerto quando ele definiu ‘o direito’ como ‘as profecias do que as cortes farão’.

39 Hastie et al., op. cit. (n. 27) §2.3.2. A simples descrição do algoritmo k-ésimo vizinho mais próximo (K nearest neighbor) não reflete a real esperteza (cleverness), a qual consiste na invenção de uma métrica de similaridade útil tal que o algoritmo simples produza boas predições. Ainda mais esperto (cleverer) é usar uma rede neural para aprender uma métrica de similaridade útil a partir de padrões nos dados.

40 Id., § 4.1.

41 Preleção proferida por Zoubin Ghahramani em MIT, 2012. http://mlg.eng.cam.ac.uk/zoubin/talks/mit12csail.pdf.

42 De fato, advogados dão avaliações de probabilidade para os seus clientes de forma suficientemente frequente, visto que os teóricos da decisão comportamental têm estudado os fatores que influenciam as visões dos advogados quanto às chances de vitória ou derrota na corte. Ver, por exemplo, Craig R. Fox & Richard Birke, Forecasting Trial Outcomes: Lawyers Assign Higher Probability to Possibilities That Are Described in Greater Detail, 26(2) Law Hum. Behav. 159–73 (2002).

43 Quanto ao empirismo no estudo acadêmico legal de forma geral, Epstein, Friedman & Stone, Foreword: Testing the Constitution, 90 N.Y.U. L. Rev. 1001 e obras citadas id. Em 1003 nn. 4, 5 e 1004 n. 6 (2015); em uma das subdisciplinas do direito, Shaffer & Ginsburg, The Empirical Turn in International Legal Scholarship, 106 AJIL 1 (2012).

44 Ver, por exemplo, Kern v. Levolor Lorentzen, Inc., 899 F.2d 772, 781–82 (1989, 9th Cir., Kozinski, C.J., opinião dissidente).

45 [65]Ou seja, um valor numérico representando a probabilidade de que uma corte futura não tratará o julgamento como uma afirmação correta do direito. Um “valor-p (p-value)” é um termo familiar às cortes, mas nenhuma delas o usam para descrever os seus próprios julgamentos. Ver Matrixx Initiatives, Inc. v. Siracusano, 563 U.S. 27, 39, 131 S.Ct. 1309, 1319 n. 6 (Sotomayor, J., 2011):

Um estudo que é estatisticamente significante tem resultados que são improvávies de serem o resultado de erro aleatório….’ Para testar a significância, um pesquisador desenvolve uma “hipótese nula (null hypothesis)” – ou seja, a afirmação de que não há relação ente o uso de Zicam e anosmia… Então o pesquisador calcula a probabilidade de obtenção dos dados observados (ou dados mais extremos) se a hipótese nula for verdadeira (chamada de valor-p)… valores-p pequenos são evidência de que a hipótese nula é incorreta. (citações omitidas)

Ver também In re Abilify (Aripiprazole) Products Liability Litigation, 299 F.Supp.3d 1291, 1314–15; Abdul-Baaqiy v. Federal National Mortgage Association (Sept. 27, 2018) p. 7.

46 Sobre a corte consistindo de mais de um juiz e sobre o que está aberto a membros da corte adotarem opiniões separadas e dissidentes, a existência e o conteúdo de tais opiniões são outra fonte de evidência quanto a quanta confiança alguém deveria colocar no resultado. A possibilidade de se atribuir intervalos de confiança a julgamentos sobre tal evidência é sugerida aqui: Posner & Vermeule, The Votes of Other Judges, 105 Geo. L.J. 159, 177–82 (2016). A respeito da influência de opiniões concorrentes sobre julgamentos futuro, ver Bennett, Friedman, Martin & Navarro Smelcer, Divide & Concur: Separate Opinions & Legal Change, 103 Corn. L. Rev. 817 (2018), e em particular os dados apresentado em id. em 854 e passim. Cf. Eber, Comment, When the Dissent Creates the Law: Cross-Cutting Majorities and the Prediction Model of Precedent, 58 Emory L.J. 207 (2008); Williams, Questioning Marks: Plurality Decisions and Precedential Constraint, 69 Stan. L. Rev. 795 (2017); Plurality Decisions—The Marks Rule—Fourth Circuit Declines to Apply Justice White’s Concurrence in Powell v. Texas as Binding Precedent—Manning v. Caldwell, 132 Harv. L. Rev. 1089 (2019).

47 Ou entendeu alguma coisa errada no julgamento enquanto tendo entendido outras coisas certas. Nós falamos acima, por causa de economia de expressão, sobre um julgamento invalidado (struck down) in toto.

48 Um estudo recente, embora para propósitos diferentes, faz uma observação adequada ao nosso ponto: “Uma coisa é dizer que os padrões da prova jurídica são explicados em termos probabilísticos, outra é fornecer uma tal explicação.” Urbaniak (2018) 345 (ênfase adicionada).

Nenhum comentário:

Postar um comentário