Mathesis: No Caminho para a IA 6 Explicações de Aprendizagem de Máquina

sábado, 25 de março de 2023

No Caminho para a IA 6 Explicações de Aprendizagem de Máquina

No Caminho para a IA: Profecias do Direito e os Fundamentos Conceituais da Era da Aprendizagem de Máquina

Por Thomas D. Grant & Damon J. Wischik

[67]Capítulo 6 Explicações de Aprendizagem de Máquina

O perigo do qual eu falo é […] a noção de que um dado sistema, o nosso, por exemplo, pode ser calculado como a matemática, a partir de alguns axiomas gerais de conduta. […] Esse modo de pensamento é inteiramente natural. O treinamento de advogados é um treinamento em lógica. O processo de analogia, discriminação e dedução são aqueles nos quais eles estão mais em casa. A linguagem da decisão judicial é principalmente a linguagem da lógica. E o método e a forma lógicos agradam aquele anseio de certeza e repouso que está na mente de cada humano. Mas a certeza geralmente é ilusão, e o repouso não é o destino do homem.

Oliver Wendell Holmes, Jr., The Path of the Law (1897)

Demandas de “explicablidade (explainability)” da aprendizagem de máquina são muito ouvidos hoje em dia, tanto em escrita acadêmica e técnica, como em legislação tal como a GDPR, a General Data Protection Regulation da União Europeia.¹ Nós não estamos convencidos de que muitos legisladores ou reguladores entendem o que tem de ser feito, se a explicabilidade que eles demandam deve ser tornada significativa.² Pode parecer para um legislador, acostumado ao uso da linguagem lógica do direito e das decisões legais, que uma decisão algorítmica “pode ser calculada como a matemática, a partir de axiomas gerais.” No direito, Holmes rejeitou a ideia de que um argumento lógico concede uma explicação satisfatória de uma decisão judicial. Em vez disso, em uma brincadeira sobre o sistema de lógica de Artistóteles, ele invocou a “premissa maior inarticulada.”³ Como um método para a tomada de decisão legal, essa ideia, como Holmes a empregava, deixava para um lado a lógica formal que os juristas classicamente tinham empregado para explica o resultado legal. Nese capítulo, nós sugeriremos que a ideia de Holmes [68]da premissa maior inarticulada oferece uma maneira melhor de pensar sobre explicações na aprendizagem de máquina – e também lança luz nova sobre uma posição filosófica fundamental, a “cultura de predição.”

6.1 “A Premissa Maior Inarticulada” de Holmes

A premissa por trás de uma decisão, essa era a visão de Holmes, nem sempre está expressa. Tomadores de decisões legais oferecem uma apologia, uma justificação para a decisão que eles alcançaram, mas a explicação real para a decisão deve ser encontrada nos amplos contornos da experiência que o tomador de decisão aplica. Como Holmes o coloca em The Theory of Interpretation, em 1881, os tomadores de decisão “deixam as suas premissas inarticuladas.”⁴

Holmes tratou desse fenômeno novamente, e mais famosamente, em sua opinião dissidente em Lochner v. New York. Para lembrar, pediu-se à Suprema Corte para considerar se uma lei estadual de Nova York que regulamentava as horas de trabalho em padarias e estabelecimentos similares era constitucionalmente insegura. A maioria decidiu que ela era. De acordo com a maioria, a lei interferia com a “liberdade” como protegida pela 14ª Emenda da Constituição. Holmes escreveu como se segue, em sua opinião dissidente:

“Algumas dessas leis encarnam convicções ou prejuízos que é provável que os juízes compartilhem. Algumas não podem. Mas uma constituição não é intencionada para encarnar uma teoria econômica particular, quer de paternalismo e da relação orgânica do cidadão com o estado quer de laissez-faire. Ela é criada por pessoas de visões fundamentalmente diferentes, e o acidente de nossa consideração de certas opiniões como naturais ou familiares, ou novas, ou mesmo chocantes, não deveria concluir o nosso julgamento sobre a questão de se os estatutos encarnando-os conflitam com a Constituição dos Estados Unidos.

Proposições gerais não decidem casos concretos. A decisão dependerá de um julgamento ou uma intuição mais sútis do que qualquer premissa maior articulada. Mas eu penso que a proposição há pouco exposta, se ela for aceita, conduzir-nos-á muito longe na direção do fim. Toda opinião tende a tornar-se uma lei. Eu penso que a palavra ‘liberdade’ na 14ª emenda é pervertida quando ela é sustentada para evitar o resultado natural de uma opinião dominante, a menos que possa ser dito que um homem racional e justo necessariamente admitiria que o estatuto infringe princípios fundamentais como eles têm sido entendidos pelas tradições do nosso povo e direito. Não se necessita de pesquisa para mostrar que nenhuma condeção tão vasta pode ser declarada sobre o estatuto diante de nós.”⁵

[69]Holmes rejeitou a dedução lógica direta que teria sido lida como esta: A 14ª Emenda protege a liberdade; o estatuto limita a liberdade de contrato; portanto, o estatuto proposto é inconstitucional. Ele não aceitou que essa “proposição geral […]” contida na 14ª Emenda pudesse “decidir casos concretos,” tais como o caso que a lei de Nova Yorque sobre as horas de trabalho apresentou em Lochner. Era a suspeita de Holmes de que a crença econômica do laissez-faire da parte dos outros juízes era a premissa maior inarticulada ocultando-se por trás da opinião da maioria, a premissa que os tinha conduzido a oferecerem sua dedução particular. Em vez disso, Holmes postulou que o sentido da palavra “liberdade” na 14ª Emenda deveria ser interpretado à luz das “tradições do nosso povo e direito” e que a aplicação do “julgamento ou intuição” ao estado de coisas prevalecente na América do início do século XX revela que o padrão da “opinião dominante” não favorecia um livre mercado absoluto. Holmes concluiu que a opinião dominante era por uma interpretação que sustentava que o estatuto do estado de Nova Yorque. Era apenas para um juiz que tinhas crenças econômicas de laissez-faire que o estatuto pareceria “novo, e mesmo chocante.” Não foi um silogismo, mas as crenças econômicas da maioria dos juízes – e um acompanhante senso de choque – que os conduziu a invalidarem o estatuto.⁶

Assim, um juiz que expresse razões para um julgamento, verdadeiramente, poderia não estar explicando o seu julgamento. Evidentemente, tal comportamento está em desacordo com os requerimentos formais de adjudicação: supõe-se que o juiz diga como ele alcança suas decisões. Holmes pressumia que os juízes nem sempre fazem isso. As decisões deles são saídas derivadas a partir de padrões descobertos na experiência,⁷ não respostas alcançadas através de prova lógica. Na visão de Holmes, mesmo textos legais, como constituições, estatutos e julgamentos passados, não falam por si mesmos. Quanto aos artefatos de “experiência” não textual – as fontes cuja “significância é vital, não formal”⁸ - aqueles exibem os seus padrões menos obviamente. Holmes pensava que todos os elementos da experiência, tomados em agregado, eram o material a partir do qual se deriva o “julgamento ou intuição mais sútil do que qualquer premissa maior articulada.” Poderia nem mesmo “necessitar de pesquisa para mostrar” qual é a premissa. Dessa forma, como um tomador de decisão chega à decisão a partir da experiência – como o tomador de decisão encontra um padrãos nos dados, de fato, até que dados nos quais o tomador de decisão descobre o padrão – permanece, não declarado e, portanto, obscuro.

[70]6.2 A Premissa Maior Inarticulada da Aprendizagem de Máquina

É dito – e essa é a premissa por trás de tais medidas regulatórias como a GDPR – que as saídas de aprendizagem de máquina requerem explicação. A ideia de Homes da premissa maior inarticulada fala diretamente ao problema de como satisfazer esse requerimento. Holmes disse que a lógica apresentada em uma decisão judicial para justificar essa decisão não era uma explicação adequada, e que, para uma explicação completa, alguém também deve olhar para o corpo de evidência que os juízes portam com eles. Para Holmes, o princípio formal fomulado em um estatuto, e mesmo em uma provisão constitucional, não é um guia adequado para o direito, porque para discernir o seu significado adequadao alguém deve olhar para as tradições e opiniões por trás dele.

De maneira similar, quando considerando a saída de um sistema de aprendizagem de máquina, a lógica dos seus algoritmos não pode fornecer uma explicação adequada. Nós precisamos olhar para a “experiência” da máquina, ou seja, para o seus conjuntos de dados de treinamento.

Alguém lê nos artigos 13, 14 e 15 da GDPR, os loci centrais da explicabilidade, que a informação significante sobre uma decisão automatizada originar-se-á a partir da divulgação de “a lógica envolvida.”⁹ Isso é um erro de categoria. Uma saída de aprendizagem de máquina não pode ser significativamente avaliada como se ela fosse meramente uma fórmula ou uma soma. Um legislador ou regulador que pensa que a aprendizagem é dessa maneira é como o juiz não nomeado de quem Holmes zombou por pensar que uma falta em um julgamento da corte poderia ser identificado da forma que um erro poderia sê-lo na aritmética, ou os juízes nomeados, quem ele disse que erraram quando eles deduziram que limites às horas de trabalho de paderios são inconstitucionais. A lógica da dedução, na ideia de Holmes do direito, não é de onde o direito se origina; ela certamente não é, na aprendizagem de máquina, de onde as saídas se originam. A fonte real – a premissa maior inarticulada do direito e da aprendizagem de máquina igualmente – são os dados ou a experiência.

Se você segue Holmes e deseja explicar como uma lei (law) ou julgamento vieram a ser, você tem de conhecer a experiência por trás deles. Se você deseja explicar como um processo de aprendizagem de máquina gera uma dada saída, você tem de conhecer os dados que foram usados para treinar a máquina. Se você deseja tornar os sistemas de aprendizagem de máquina responsabilizáveis, olhe para os seus dados de treinamento não para os seus códigos. Se há alguma coisa que alguém não gosta na experiência ou nos dados, então há chances que haverá alguma coisa que alguém não gostará na decisão legal ou na saída.

[71]6.3 As Duas Culturas: Explicação Científica versus Predição de Aprendizagem de Máquina

Portanto, para explicar uma decisão, alguém tem de o fazer nos termos dos dados ou da experiência por trás da decisão. Mas o que constitui uma explicação satisfatória? Em Law in Science and Science in Law, Holmes, em 1899, abriu a investigação desta maneira:

“O que nós queremos dizer quando falamos sobre explicar uma coisa? Há cem anos os homens explicavam qualquer parte do universo mostrando sua adequação a certos fins, e demonstrando o que eles concebiam ser a sua causa final de acordo com o um esquema providencial. Em nossa época menos teológica e mais científica, nós explicamos um objeto traçando a ordem e o processo do seu crescimento e desenvolvimento a partir de um ponto de partida assumido como dado (given).”¹⁰

Mesmo onde o “objeto” a ser explicado é uma constituição escrita, Holmes disse que se obtém uma explicação “traçando-se a ordem e o processo do seu crescimento e desenvolvimento,” como se o advogado fosse um cientista examinando o desenvolvimento do embrião sob um microscópio.¹¹ E contudo, por toda toda a tendência científica de Holmes, o seu epigrama mais conhecido é expresso com uma palavra enfaticamente não científica: “As profecias do que as cortes farão de fato, e nada mais pretensioso, são o que eu quero dizer pelo direito.”¹²

Holmes parece antecipar uma tensão que a filosofia da ciência tem tocado desde os anos de 1960 e que a nascente disciplina de aprendizagem de máquina, desde os anos de 2000, trouxe ao foro: a tensão entre explicação e predição.

Na filosofia da ciência, em particular como proposta por Hempel,¹³ uma explicação consiste em (i) um explanans, consistindo de uma ou mais “leis da natureza (laws of nature)” combinadas com informação sobre as condições iniciais, (ii) um explanandum, o qual é o resultado, e (iii) um argumento dedutivo que vai do explanans para o explanandum. De fato, como descrito por Shmueli em seu exame profundo da prática de modelagem estatística, explicar ou predizer (to explain or to predict)?¹⁴ É efetivamente o inverso: o objeto da modelagem estatística em ciência é fazer indeferências sobre as “leis da natureza” dadas as observações dos resultados. Termos como “lei (law)” e “regra (rule)” são usados aqui. Tais termos poderiam sugerir estipulação, como os estatutos legais, mas, nesse contexto, eles simplesmente significam leis científicas ou engendradas: eles poderiam ser modelos causais¹⁵ que têm por objetivo se aproximar da natureza, ou eles poderiam simplesmente ser equações que descrevem correlações.

[72]Na cultura da aprendizagem de máquina/predição defendida por Leo Breiman e, sua convocação de 2001 Statistical modelling: the two cultures, a partir do qual nós citamos na abertura do capítulo 1, a posição epistemológica em termos de leis é irrelevante; tudo o que importa é a habilidade para fazer boas predições. Os habitantes da cultura da predição, algumas vezes, têm um ar de condescendência insinunando que os cientistas que insistem em uma explicação para cada fenômeno são simplórios que, se eles não entendem como um sistema funciona, não podem imaginar que ele tem qualquer valor. No artigo descrevendo o sucesso deles no Desafio ImageNet em 2012 – seguindo-se ao qual o boom corrente em aprendizagem de máquina começou – Krizhevsky et al. notaram o desafio de ultrapassarem os porteiros da cultura cientifíco-explicativa: “[Um] artigo por Yann LeCun e seus colaboradores foi rejeitado pela principal conferência de visão computacional sobre as bases de que ele usava redes neurais e, portanto, não fornecia nenhum conhecimento de como projetar um sistema de visão.”¹⁶ LeCun prosseguiu para conquistar o Turing Award de 2018 (o “prêmio Nobel para ciência da computação”) por seu trabalho sobre redes neurais¹⁷ e para servir como cientista-chefe de IA para o Facebook.¹⁸

Aqui está uma ilustração da diferença entre as duas culturas, como aplicadao a resultados legais. Suponha que o nosso objetivo seja encontrar uma fórmula de que os réus fugirão se liberados sob fiança: aqui nós estamos inferindo uma regra, uma fórmula que relaciona as características dos objetos sob consideração aos resultados, e que pode ser aplicada a qualquer réu. Ou suponha que o nosso objetivo seja determinar se a probabilidade é mais alta para crime violento ou para crime com drogas, tudo o mais sendo igual: novamente, aqui nós estamos fazendo uma inferência sobre regras (embora essa seja um tipo mais sútil de inferência, uma afirmação comparativa sobre duas regras que não efetivamente requer que aquelas regras sejam formuladas explicitamente).

Como contraste, suponha que o nosso objetivo seja construir um aplicativo (app) que estime a probabilidade de que um dado réu (defendant) fugirá; aqui nós estamos nos engajando em predição.¹⁹ Nós poderíamos fazer uma predição usando inferência silogística, ou lendo entranhas, ou com a ajuda da aprendizagem de máquina. A característica distintiva é que nós estamos fazendo uma alegação sobre como algum caso particular está prestes a seguir.

Fazer uma predição sobre um caso particular e formular uma regra de aplicação geral estão firmemente entrelaçados. O entrelaçamento entre ambas é visível em casos judiciais. Um dos julgamentos de Holmes na Suprema Corte é um exemplo. A febre tifóide tinha irrompido em St. Louis, Missouri. O Estado de Missouri processou Illinois, sobre a teoria de que o surto foi causado por uma mudança recente em como o Estado de Illinois estava manejando o rio na [73]cidade de Chicago. Em State of Missouri v. State of Illinois, Holmes resume o argumento de Missouri como se segue:

“O caso do demandante depende de uma inferência do não visto (unseen). Ele extrai a inferência a partir de duas proposições. Primeiro, que a febre tifóide foi consideravelmente aumentada desde a mudança, e que as outras explicações foram refutadas (disproved); e segundo, que o bacilo da tifóde pode sobreviver, e sobrevive, a jornada e alcança a entrada de St. Louis no Mississippi.”²⁰

Em suporte a essa segunda proposição, Missouri propõe regras, formuladas com referência às observações dos seus especialistas, formulando por quanto tempo o bacilo da tifóide sobrevive em um rio e quão rapidamente o rio Mississippi poderia transportá-lo de Chicago para St. Louis. Se você aceitar as regras que Missouri formulou a partir das observações dos seus especialistas, então você poderia expressar a situação como esta:

Seja x = milhas do rio entre a localização do surto, rio abaixo (dowstream), e a localização de uma fonte do bacilo da tifóide, rio acima (upstream).

Seja y = razão em milhas por dia na qual o bacilo da tifóide viaja rio abaixo no rio.

Seja z = dias máximos que o bacilo da tifóide sobrevive no rio.

Se x ÷ y ≤ z, então bacilo sobrevive – e o demandante rio abaixo vence;

Se x ÷ y > z, então o bacilo não sobrevive – e o demandante rio abaixo perde.

Expressar a situação dessa maneira necessariamente tem implicações para outros casos. O juiz da Suprema Corte Holmes chamou atenção para as implicações: a fórmula vencedora para Missouri como demandante contra Illinois bem poderia, depois, ter sido uma perdedora para Missouri como réu contra um estado diferente. “O demandante,” escreveu Holmes, “obviamente, tem de ser cauteloso sobre esse argumento, pois, se este processo legal (suit) devesse suceder, muitos outros seguir-se-iam, e, não improvavelmente, ele descobriria a si mesmo um réu em um processo legal por um ou mais do estados no Mississippi abaixo.”²¹

[74]Missouri estava fazendo uma inferência do não visto (unseen) em uma instância particular, o que, na terminologia da aprendizagem de máquina, é referido como predição. Missouri usou proposições gerais para suportar essa predição, e Holmes (com sua desconfiança bem conhecida de proposições gerais) advertiu que tal raciocínio pode retornar para morder o demandante.

A diferença entre descobrir regras e fazer predições poderia parecer leve. Se nós temos uma regra, nós podemos usá-la para fazer predições sobre casos futuros; se nós temos um mecanismo para fazer predições, esse mecanismo pode ser visto como a encarnação de uma regra. Hempel não via nenhuma grande diferença entre explicação e predição. Para Hempel, uma explicação é posterior ao fato, uma predição é anterior ao fato, e o mesmo tipo de raciocínio dedutivo a partir de leis naturais aplica-se nos dois casos.

Mas e se estiver além da compreensão de um filósofo simplório – ou, por falar nisso, de qualquer ser humano – raciocinar sobre o mecanismo preditivo? Essa é a real linha real divindindo as duas culturas. Essa é a real linha divisória entre as duas culturas. A cultura científica está interessada em fazer predições sobre regras, consequentemente, a fortiori, os praticantes na cultura científica apenas considerarão regras de uma forma sobre a qual se pode raciocinar. Em contraste, a cultura da predição importa-se com a precisão preditiva, mesmo se o mecanismo de predição deve ser tão complexo que parece mágica.

Arthur C. Clarke memoravelmente disse, “Qualquer tecnolocia suficientemente avançada é indistinguível de mágica.”²² Clarke parece ter pensado sobre artefatos de uma civilização mais avançada do que aquela do observador tentando compreendê-los. Dessa forma, um observador da idade da pedra, apresentado a uma imagem de vídeo em um telefone móvel, poderia considerá-la mágica. Seria necessário mais do que imagens móveis para encantar observadores de hoje em dia, mas nós, como uma sociedade, construímos artefatos tecnológicos cujo funcionamento nós nos esforçamos para explicar.

A cultura da predição diz que nós deveríamos avaliar um artefato, mesmo um que parece mágica, por se ou não ele efetivamente funciona. Nós ainda podemos fazer uso de máquinas que encarnam mecanismos impenetráveis; nós deveríamos avaliá-las baseados em observações de caixa-preta de sua precisão preditiva. Uma bela ilustração pode ser tomada de um caso da Corte de Recursos dos EUA para o 7º Circuito em 2008. Uma companhia estava tentandp braceletes de metal. As declarações da companhia de que os braceletes eram efetivos como uma cura para várias doenças foram desafiados como fraudulentos. O juiz-presidente Easterbrook, escrevendo para o 7º Circuito, lembrando as palavras de Arthur C. Clark que nós há pouco citamos acima, foi dúbio sobre “uma pessoa [75]que promova um produto que a tecnologia contemporânea não entende”; ele disse que uma tal pessoa “deve estabelecer que essa ‘mágica’ efetivamente funciona. A prova é o que o separa um novo efeito de um embuste (swindle) para a ciência.”²³ Aqui está implícito que a “prova,” embora ela possa estabelecer que a “mágica” funciona, não necessariamente diz nada sobre como ela funciona. Predição e explicação são operações diferentes. De fato, Easterbrook prossegue para dizer que um estudo controlado por placebo, de dupla ocultação (double-blind) – quer dizer, o tipo de estudo prescrito pelo FDA para o teste de novos produtos para que alguém espera para o mercado como tendo eficácia médica – é “o melhor teste” com respeito às alegações de eficácia médica de um produto.²⁴ Um tal teste, em si mesmo, unicamente mensura as saídas do (alegado) dispositivo médico; não é “prova (proof)” na acepção de uma derivação matemática. Ele não requer nenhum entendimento de como o mecanismo funciona; ele é apenas uma demonstração de que ele funciona. Verdadeiro, um processo de aprovação do FDA em tamanho natural – um processo de prova que está centrado em torno do estudo controlado por placebo, de dupla ocultação que o juiz menciona – também requer teorização de como o mecanismo funciona, não apenas análise de caixa-branca. Mas aqui, Easterbrook, focando-se sobre a prova da eficácia, faz um argumento muito ao longo das linhas de Breiman: um mecanismo pode ser avaliado puramente sobre se alguém está satisfeito com os seus resultados, em vez de sobre considerações tais como parcimônia ou interpretabilidade ou consonância com teoria.²⁵ Um mecanismo pode ser avaliado ao procurar-se estabelecer se “essa ‘mágica’ efetivamente funciona.”

Holmes tornou clara a sua visão de que uma explicação judicial é realmente uma apologia em vez de uma explicação, e que a explicação real deve ser encontrada olhando-se para a “premissa maior inarticulada” que surge a partir do corpo de experiência do jurista. Holmas evitava de requisitar explicações lógicas ou científicas como uma maneira de entender a experiência do jurista. Antes, ele invocava a profecia. Holmes superou a lógica (porque simples argumentos matemáticos são inadequados), e superou a explicação científica (talvez porque tal explicação ou seria imprecisa ou incompreensível quando aplicada ao comportamento do juiz), e finalmente ele chegou à predição. Nisso, Holmes antecipou a aprendizagem de máquina.

6.4 Porque Nós ainda queremos Explicações

A premissa maior inarticulada, começando a partir da opinião dissidente de Holmes em Lochner, provocou preocupação, e continua a fazê-lo.²⁶ Decisões inexplicadas, ou decisões onde as razões verdadeiras são obscuras, são inescrutáveis, e, portanto, o observador não tem forma de dizer se as [76]razões são válidas. Para esse propósito, validade pode significar correção técnica; ela também pode significar consonância com os valores básicos da sociedade. Nos dois casos, a validade de testes é um objetivo por trás da explicabilidade. Em particular, nós nos voltamos aqui para valores.²⁷

Leitores eminentes de Holmes concluem que ele não tinha muito a dizer sobre valores.²⁸ Mas ele foi abundantemente claro de que, quaisquer que os valores em uma sociedade possam ser, se eles formam um padrão suficientemente forte, então, é provável que eles encontrem uma expressão no direito: “Toda opinião tende a tornar-se lei.”²⁹ Se ou não alguém tem uma opinião que se torna direito, Holmes descreveu um processo que tem considerável resonância nos dias de hoje. Dados a partir da sociedade no geral corporificaram opiniões sustentadas na sociedade no geral; e, dessa maneira, uma saída de aprendizagem de máquina derivada a partir de um padrão encontrado nos dados portará em si mesma a marca dessas opiniões.

A influência de opiniões sustentadas na sociedade seria bastante direta se não existissem opiniões conflitantes. Mas muitas opiniões conflitam. Evidentemente, Holmes estava interessado na discordância sobre valores; era para acomodar “visões fundamentalmente diferentes” que ele dizia que as sociedades adotam constituições.³⁰ Menos claro é se ele pensava que certos valores são imutáveis, imprescritíveis, ou, de alguma maneira, imunes à derrogação (derogation). Ele sugeriu que alguns poderiam ser: ele disse que um estatuto poderia “infringir princípios fundamentais.” Ele não disse quais princípios poderiam ser fundamentais.

Uma lei, se ela corporificasse certos viéses (biases) sustentados na sociedade, infringiria princípios considerados serem fundamentais hoje em dia. Exemplos incluem viéses raciais e de gênero. Nos termos de Holmes, essas eram “opiniões” que não deveriam “se tornar leis.” Evitar que elas se tornem lei é uma preocupação central hoje em dia. A preocupação surge, mutatis mutandis, com as saídas de aprendizagem de máquina. Onde as saídas de aprendizagem de máquina têm efeitos legais, eles também infringirão princípios fundamentais, se eles corporificam viéses tais como viés racial ou de gênero. Evita que tais “opiniões” tenham uma influência tão ampla é uma das principais razões para que os legisladores e escritores têm demandado por explicabilidade.

Em resumo, em ambos processos, direito e aprendizagem de máquina, existe o risco de que a experiência ou os dados deem forma a uma decisão à qual não deveriam ter sido permitidos.³¹ Contudo, em ambos, a experiência ou os dados poderiam não estar prontamente visíveis.³² Como nós veremos nos capítulos 7 e 8, muito da preocupação sobre o seu impacto potencial sobre os valores sociais relaciona-se a essa obscuridade na operação da aprendizagem de máquina.

Próximo capítulo

ORIGINAL:

GRANT, T. D.; WISCHIK, D. J. On the path to AI: Law’s prophecies and the conceptual foundations of the machine learning age. Palgrave Macmillian Cham: 2020. pp.67-80. Disponível em: <https://link.springer.com/book/10.1007/978-3-030-43582-0>

TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0

1 [77]Para literatura, ver, por exemplo, Casey, The Next Chapter in the GDPR’s “Right to Explanation” Debate and What It Means for Algorithms in Enterprise, European Union Law Working Papers, No. 29 (2018) e obras citadas id., na p. 14 n. 41.

2 Ver Grant & Wischik, Show Us the Data: Privacy, “Explainability,” and Why the Law Can’t Have Both, prestes a ser publicado, 88 Geo. Wash. L. Rev. (Nov. 2020). Ver também, postulando um conflito entre privacidade e regulamentos de proteção de dados, por um lado, e regulamentos antidiscriminação, por outro, Žliobait˙e & Custers (2016).

3 Na lógica de Aristóteles, a “premissa maior” é um elemento expresso no ponto de partida de um silogismo. Robin Smith, Aristotle’s Logic, in Zalta (ed.), The Stanford Encyclopedia of Philosophy (Ed. do verão de 2019): https://plato.stanford.edu/entries/aristotle-logic/.

4 Holmes, The Theory of Legal Interpretation, 12 Harv. L. Rev. 417, 420 (1898–1899).

5 Lochner v. New York, 198 U.S. 45, 75–76, 25 S.Ct. 539, 547 (Holmes, J., opinião discordante, 1905).

6 Diferenças de interpretação existem entre juristas lendo a passagem na opinião dissidente de Holmes em Lochner sobre “proposições gerais” e julgamentos ou intuições “mais sútis do que qualquer premissa maior articulada.” Ninguém menos do que uma autoridade em Holmes, o juiz Posner, uma vez se referiu à passagem, que ela quer dizer que certas “afirmações deveriam ser tratadas como generalidades abertas à exceção”: Arroyo v. U.S., 656 F.3d 663, 675 (Posner, J., concordante, 7th Cir., 2011). Nós a entendemos querer dizer alguma coisa a mais. Ela quer dizer que, em verdade, as razões que conduzem a um resultado judicial, às vezes, não estão expressas no julgamento. Quer dizer, as razões formuladas em um julgamento, as quais tipicamente tomam a forma de um prova lógica prossegundo para a conclusão do juiz a partir de alguma premissa maior que o juiz articulou, não são a explicação real de porque o juiz concluiu da forma que ele o fez. A nossa leitura concorda com uma linha de pensamento correndo através do trabalho de Holmes, pelos menos tão para atrás quanto The Common Law (1881). Um número de juízes leu a passagem como nós o fazemos: City of Council Bluffs v. Cain, 342 N.W.2d 810, 814 (Harris, J., Suprema Corte de Iowa, 1983); Loui v. Oakley, 438 P.2d 393, 396 (Levinson, J., Suprema Corte de Hawai’i, 1968); State v. Farrell, 26 S.E.2d 322, 328 (Seawell, J., opinião dissidente, Suprema Corte da North Carolina, 1943).

7 Tal experiência não infrequentemente inclui viés implícito. Para um exemplo, ver Daniel L. Chen, Yosh Halberstam, Manoj Kumar & Alan C. L. Yu, Attorney Voice and the US Supreme Court, in Livermore & Rockmore (eds.) (2019) p. 367 ff.

8 Gompers v. United States, 233 U.S. 604, 610 (1914).

9 [78]Ênfase nossa. Ver também nos Arts. 21-21 e Recital 71 da GDPR. Alguém também lê na pesquisa lógica acadêmica que é porque alguns algoritmos são “mais complexos” do que outros que eles são mais difíceis de explicar. Ver, por exemplo, Hertza, 93 N.Y.U. L. Rev. 1707, 1711 (2018). Contudo, a complexidade matemática dos algoritmos não é o que move a aprendizagem de máquina. São os dados. Ver capítulo 3, pp. 35-38.

10 Law in Science and Science in Law, 12 Harv. L. Rev. at 443 (1898–1899).

11 Cf. A descrição de Holmes de uma constituição como “a pele de um pensamento vivo”, capítulo 4, p. 47, n.7.

12 Path of the Law, 10 Harv. L. Rev. at 461 (1896–1897).

13 Ver, por exemplo, Scientific Explanation, da Stanford Encycl. Philos. (24 de setembro de 2014): https://plato.stanford.edu/entries/scientific-explanation/. De relevância aqui é o modelo indutivo-estatístico, devido a Hempel (1965).

14 Galit Shmueli, To Explain or to Predict? 25(3) Stat. Sci. 289–310 (2010).

15 Nas ciências sociais, a inferência, especialmente, a inferência sobre relações causais, é tipicamente preferida à predição. Mas, para uma defesa da predição, ver Allen Riddell, Prediction Before Inference, in Livermore & Rockmore (ed.) (2019) 73–89. Ver também, Breiman, The Two Cultures, citado acima, capítulo 1, p.1.

16 Krizhevksy, Sutskever & Hinton (2017).

17 https://amturing.acm.org/award_winners/lecun_6017366.cfm.

18 https://www.linkedin.com/in/yann-lecun-0b999/. Recuperado em 19 de abril de 2020.

19 Kleinberg et al. observa que, pela lei, supõe-se que juízes baseiem suas decisões de fiança (bail decision) unicamente nessa predição, e eles mostram que um algoritmo de aprendizagem de máquina faz um trabalho melhor. Kleinberg, Lakkaraju, Leskovec, Ludwig & Mullainathan, Human Decisions and Machine Predictions, 46 Q. J. Econ. 604–32 (2018).

20 State of Missouri v. State of Illinois, 26 S.Ct. 270, 200 U.S. 496, 522–23 (1906).

21 200 U.S. em 523.

22 Clarke (1962) 21.

23 FTC v. QT, Inc., 512 F.3d 858, 862 (7th Cir. 2008).

24 Id.

25 Ver capítulo 1, pp. 10-11.

26 Desde 1917, quando “Due Process,” the Inarticulate Major Premise and the Adamson Act, Albert M. Kales, 26 Yale L. J. 519 (1917), tratou da famosa opinião dissidente de Holmes em Lochner, mas de uma centena de artigos de análise trataram da mesma. Ela também interessou a advogados na Grã-Bretranha e na Commonwealth: ver, por exemplo as notas editoriais no primeiro número [79]da Modern Law Review: 1(1) MLR 1, 2 (1937). Escritos sobre a questão são recorrentes: ver Sunstein, Lochner’s Legacy, 87 Col. L. Rev. 873–919 (1987); Bernstein, Lochner’s Legacy’s Legacy, 82 Tex. L. Rev. 1–64 (2003).

27 Para algum trabalho recente sobre o desafio de fazer a IA refletir valores sociais em operações legais, ver Al-Abdulkarim, Atkinson & Bench-Capon, Factors, Issues and Values: Revisiting Reasoning with Cases, International Conference on AI and Law 2015, June 8–12, 2015, San Diego, CA: https://cgi.csc.liv.ac.uk/~tbc/publications/FinalVersionpaper44.pdf.

28 Mais compreensivamente, ver Alschuler (2000). Ver também, por exemplo, Jackson, 130 Harv. L. Rev. 2348, 2368–70 (2017).

29 Lochner (Holmes, J. opinião dissidente), op. cit.

30 Id.

31 Kroll et al. (op. cit.) descrevem a questão com respeito à aprendizagem de máquina da seguinte maneira:

A aprendizagem de máquina pode conduzir a resultados discriminatórios se os algoritmos [sic] são treinados em exemplos históricos que refletem prejuízos passados ou viéses implicítos, ou sobre dados que oferecem um retrato estatisticamente distorcido de grupos constituindo a população geral. Dados de treinamento contaminados seriam um problema, por exemplo, se um programa para selecionar entre candidatos a emprego (job applicants) é treinado em decisões anteriores de contratação tomadas por humanos e essas decisões de previsão são elas mesmas enviesadas (biased). 165 U. Pa. L. Rev. At 680 (2017).

Barocas & Selbst, 104 Cal. L. Rev. At 674 (2016), para um efeito similar, digamos, “A mineração de dados pode reproduzir padrões existentes de discriminação, herdar o preconceito de marcadores de decisão anteriores, ou simplesmente refletir viéses difundidos que persistem na sociedade.” Cf. Chouldechova & Roth, The Frontiers of Fairness in Machine Learning, Section 3.3, p. 6 (20 de outubro de 2018): https://arxiv.org/pdf/1810.08810.pdf.

32 Ver, de forma geral, Pasquale (2015). Embora a ênfase no título de 2015 sobre algoritmos esteja mal colocada, Pasquale, em outro ponto, tratou de problemas distintos que surgem a partir da aprendizagem de máquina: Pasquale (2016).

Mathesis

Páginas

sábado, 25 de março de 2023

No Caminho para a IA 6 Explicações de Aprendizagem de Máquina

Nenhum comentário:

Postar um comentário

Elementos de Lógica - Livro II - Capítulo I Das Operações da Mente e dos Termos

Arquivo do blog

Marcadores