quarta-feira, 1 de março de 2023

No Caminho para a IA 4 Descobrindo Padrões como o Caminho da Entrada para a Saída

No Caminho para a IA: Profecias do Direito e os Fundamentos Conceituais da Era da Aprendizagem de Máquina


Por Thomas D. Grant & Damon J. Wischik


Capítulo anterior


[41]Capítulo 4 Descobrindo Padrões como o Caminho da Entrada para a Saída


Como [Judea Pearl] vê, o estado da arte em inteligência artificial hoje em dia é meramente uma versão acelerada do que as máquinas já podiam fazer há uma geração: encontrar regularidades em um grande conjunto de dados. “Todas essas realizações impressionantes de aprendizagem profunda equivalem apenas a ajuste de curvas (curve fitting),” ele disse recentemente. […]

A forma como você fala sobre ajuste de curva, isso soa como se você não estivesse muito impressionado com a aprendizagem de máquina [observa o entrevistador]. “Não, eu estou muito impressionado, porque nós não esperávamos que tantos problemas poderiam ser resolvidos por puro ajuste de curva. Revela-se que eles podem.”

Judea Pearl, como entrevistado por Kevin Hartnett,

Quanta Magazine (15 de maio de 2018)1


Judea Pearl venceu o Turing Award de 2011, o “Prêmio Nobel de ciência da computação,” por seu trabalho em raciocínio probabilístico e causal. Ele descreve a aprendizagem de máquina como “apenas ajuste de curvas (curve fitting),” o processo mecânico de descobrir regularidades em dados. O termo origina-se a partir do uso, por projetistas (draftsmen), de curvas spline, tiras flexíveis feitas de pedaços finos de madeira ou metal ou plástico para desenhar linhas suaves através de um conjunto de pinos.

Neste capítulo, nós postulamos uma analogia adicional, específica. Nós postulamos uma analogia entre a descrição da aprendizagem de máquina por Pearl e a visão do direito por Holmes. De acordo com Holmes, a principal tarefa do direito é a descoberta de padrões na experiência humana; o direito não deveria ser visto como um exercício em lógica matemática. Da mesma maneira, a aprendizagem de máquina deveria ser considerada como ajuste de curvas, ou seja, a descoberta de regularidades em grandes conjuntos de dados, e não como algoritmos que executam uma série de passos lógicos.

[42]Nós descrevemos no capítulo 2 porque não é útil ver a aprendizagem de máquina como um algoritmo. Não é uma explicação adequada do que torna a aprendizagem de máquina a ferramenta tão poderosa que ela se tornou hoje dizer que ela é sobre a execução de uma série de instruções lógicas, composta em uma peça de código de programação. Para entender o que torna a aprendizagem de máquina distinta, alguém tem de começar com o papel dos conjuntos de dados como entrada, um papel que nós descrevemos no capítulo 3 acima, e o qual pode ser analogizado à visão de Holmes da experiência do jurista. Neste capítulo, nós agora analisamos a descoberta de padrões mais de perto, primeiro no direito, em seguida, na aprendizagem de máquina, para vermos como a analogia poderia avançar.


4.1 Descoberta de Padrões no Direito


Holmes disse em The Path of the Law que identificar o direito significa “seguir o corpo existente de dogma em sua mais elevada generalização.”2 Dois anos depois The Path, Holmes descreveu o direito como uma proposição que emerge quando certos “ideias da sociedade têm sido fortes o suficiente para alcançarem aquela forma final de expressão.”3 Descrever o direito como Holmes fez é requisitar “o estudo científico da morfologia e transformação das ideias humanas no direito.”4 Se o padrão é suficientemente forte, então a proposição emerge, a forma (shape) torna-se clara.

Holmes retornou um número de vezes a essa ideia de que o direito deve ser identificado em padrões na natureza e prática humanas. Em um julgamento da Suprema Corte em 1904, ele tratou do direito de “direito por prescrição (title by prescription).” Sob esse direito, uma ocupação sustentada e não contestada de terra pode sobrepor-se a um direito (title) àquela terra. Dessa maneira, a prescrição (prescription) é um exemplo onde o direito explicitamente reconhece que um padrão da realidade sobre a terra é o direito. Holmes descreveu a prescrição como isto:


A propriedade é protegida porque tal proteção responde a uma demanda da natureza humana e, portanto, toma o lugar de uma luta. Mas essa demanda não é fundada mais certamente por criação ou descoberta do que ela é pelo lapso do tempo, o qual gradualmente dá forma à mente e demanda a continuação do que, atualmente e há muito, tem sido desfrutado, mesmo se sem uma luta, e dissocia-a de uma demanda de mesmo um direito que há muito tem sido negado.5


A forma de descrição de direito (title) por prescrição evocava a busca por padrões na experiência. Como a sociedade efetivamente se comporta e como as pessoas pensam sobre esse comportamento são fatos nos quais um padrão pode ser discernido. Se o padrão [43]está suficientemente bem enraizado, se ele “dá forma à mente” a um grau suficiente, e alguém sabe como o discernir, então as conclusões legais seguem-se.

No que talvez seja a sua mais famosa opinião dissidente, aquela em Lochner v. New York, Holmes aplicou muito mais essa ideia sobre ideais de sociedade e a forma do direito. A Suprema Corte concluiu que um estatuto (statute) do estado de New York limitando as horas que os empregados trabalhavam em uma padaria violava a liberdade de contrato como corporificada na 14ª Emenda. Holmes, como contra a leitura formal da 14ª Emenda pelos seus colegas, argumentou que alguém deveria interpretar o direito constitucional à luz dos padrões de crença discerníveis na sociedade:


Toda opinião tende a tornar-se uma lei (law). Eu considero que a palavra ‘liberdade (liberty),’ na 14ª Emenda é pervertida quando ela é sustentada para evitar o resultado natural de uma opinião dominante, a menos que possa ser dito que um homem racional e justo necessariamente admitiria que o estatuto proposto infringiria princípios fundamentais como eles têm sido entendidos pelas tradições do nosso povo e direito.6


No caso do título de propriedade de terra (land title), a decisão (rule) do direito por prescrição reconheceu que o padrão na existência humana é o direito. Uma regra formal, excepcionalmente, ali correspondeu ao que Holmes pensava que o direito é. Por contraste, em Lochner não havia nenhuma regra formal que diz que você deve interpretar a 14ª Emenda com referência a “opinião dominante.” Dessa forma, a leitura à qual Holmes chegou em Lochner ilustra exatamente quão de longo alncace era a concepção de Holmes do direito como um processo de descoberta de padrões. Mesmo o simples texto da lei, o qual um lógico poderia pensar que fala por si mesmo, Holmes disse que exige análise histórica. O significado de um texto não deve ser encontrado apenas em suas palavras, mas no corpo da tradição e opinão em torno delas: “Uma palavra [na constituição] não é um cristal, transparente e inalterada, mas a pele (skin) de um pensamento livre.”7 Holmes acreditava que nós identificamos o direito ao examinarmos sistematicamente a forma do que já existe e o que poderia surgir posteriormente – “a morfologia e transmissão das ideias humanas.”

Um bom jurista toma decisões discernindo os padrões de tradição e prática. O mau jurista trata os casos como exercício de dedução lógica. De acordo com Holmes, “uma página de história vale um volume de lógica.”8


[44]4.2 Tantos Problemas podem ser Resolvidos por Puro Ajuste de Curvas (Curve Fitting)


Judea Peal expressou surpresa de que tantos problemas poderiam ser resolvidos através de ajuste de curva (curve fitting). E para alguém de fora da aprendizagem de máquina, pode parecer ridículo que a descoberta de padrões de Holmes poderia ser análoga a desenhar uma linha através de uma coleção de pontos, como ilustrado na figura acima. Para fornecer uma ideia do escopo do que os pesquisadores em aprendizagem de máquina expressam como ajuste de curvas, nós agora consideraremos algumas implicações. Nós escolhemos aplicações do direito e dos dados, para continuarmos com nossa analogia com a descoberta de padrões legais – mas aplicações de ajuste de curva a partir de qualquer número de áreas de aplicação, tais como aquelas a partir do site de carreiras em ciência de dados que nós listamos no capítulo 1, suportariam o mesmo ponto.

Nossa primeira aplicação relaciona-se ao famoso epigrama de Holmes “As profecias do que os tribunais farão de fato, e nada mais pretensioso, são o que eu quero dizer por direito.”9 Suponha que fosse possível desenhar um diagrama resumindo o corpo relevante de jurisprudência (case law). A cada seria atribuído uma coordenada x, codificando as características do caso (o tipo de alegação (plea), o conjunto de evidência, a história do juiz, e assim por diante), e uma coordenada y, codificando o resultado do caso (a decisão alcançada, a sentença, e assim por diante), e um ponto seria plotado (plotted) para cada caso nas suas coordenadas x e y atribuídas. Em seguida, nós poderíamos desenhar uma curva regular (smooth curve) que expressa como a coordenada y varia como uma função da coordenada x – ou seja, encontrar o padrão no conjunto de dados – e nós poderíamos usar essa curva para predizer o resultado provável de um novo caso dada a sua coordenada x.

Isso pode soar ridículo, uma versão de faculdade de direito de poetas plotando sobre um quadro de giz como o professor de inglês, em Dead Poets Society, fez para ridicularizar [45]um certo tipo de pedantismo.10 Contudo, ela é uma descrição precisa de como máquinas são capazes de realizar tarefas tais como traduzir texto ou capturar imagens. Um quadro de giz tem apenas duas dimensões; um sistema de aprendizagem de máquina funciona em muito mais dimensões, representadas através de funções matemáticas. As coordenadas são expressas em sofisticados espaços geométricos (em vez de x, usam-se x1, x2, …, xn para algum número maior de dimensões n) que vão além das habilidades de visualização humanas; mas o método não é nada mais do que ajuste de curva de muitas dimensões (high dimensional).

A aplicação acima é um experimento de pensamento (thought experiment). Aqui estão alguns exemplos reais emprestados de um livro recente sobre o direito como dados (Law as Data)11:

  1. Predizer se um projeto de lei (bill) recebe floor action na legislatura, dadas a filiação partidária do introduto do porjeto (sponsor) e outras características, assim como as palavras-chave no projeto de lei mesmo.

  2. Predizer o resultado de uma audiência de liberdade condicional (parole hearing), dadas as palavras-chave que o interno (inmate) usa.

  3. Predizer o evento de encerramento de caso (rejeição (dismissal), julgamento sumário (summary judgement), julgamento (trial), etc.), dadas das características do processo judicial (lawsuit), tais como tipo de alegação ou a raça do querelante (plaintiff) ou a taxa de rejição do advogado do querelante.

  4. Predizer o tópico de um caso (criminal, direitos civis, etc.) dado o texto de uma opinião. (para um humano com uma pequena quantidade de treinamento legal isso é risivelmente simples, mas, para a aprendizagem de máquina, é uma grande realização transformar uma peça de texto em um vetor numérico (x1, x2, …, xn) que pode ser usado como a coordenada x para ajuste de curva. A matemática é chamada de “doc2vec”.)

  5. Predizer a decisão de um juiz de tribunal de asilo, dadas as características do caso. (Se uma predição pode ser feita baseada nas características reveladas nos estágios iniciais de um caso, e se a predição não melhorar quando características posteriores são incluídas, então, talvez, o juiz estivesse dormindo através dos estágios posteriores.)

Nós usamos a palavra “predizer (predict)” para todos esses exemplos. A maioria dessas tarefas são preditivas no sentido de previsão (forecasting), mas, no caso (iv), a palavra “predizer” pode ocorrer a um leigo como estranha. Na aprendizagem de máquina, a palavra “predizer” é usada mesmo quando o resultado sendo predito já é conhecido; o que importa é que o resultado não seja conhecido para a máquina fazendo a previsão. Filósofos usam as palavras “pós-dição (postdiction)” ou “retrodição (retrodiction)” para tais casos. No capítulo 5, nós tratamos em detalhe de porque [46]os cientistas da computação usam a linguagem da predição para descrever as saídas de um sistema de aprendizagem de máquina – e porque Holmes a usava para descrever as saídas do direito.


4.3 Dados com Ruído (Noisy), Padrões Contestados


Holmes escreveu que “uma página de história vale um volume de lógica.” Quando os legisladores pedem “a lógica envolvida”12 na tomada de decisão automática, eles realmente deveriam pedir “uma história sobre o conjunto de dados de treinamento.” São os dados – aquilo que é dado e, dessa forma, veio antes – que importam na aprendizagem de máquina, exatamente como a história é o que importa na ideia de Holmes do direito – não algum processo formal de lógica.

Mas a história pode ser contestada. Mesmo quando as partes concordam sobre os fatos, podem haver múltiplas narrativas que podem ser adequadas.13 Da mesma forma, para um dado conjunto de dados, pode haver várias curvas que podem ser adequadas, como a figura acima ilustra. Nós poderíamos desejar remover a subjetividade, deixando-nos com um volume de lógica irrefutável provando que a decisão se segue necessariamente a partir das premissas, mas essa não é a natureza nem do direito nem da aprendizagem de máquina. A frase “história sobre o conjunto de dados de treinamento” pretendeu lembrar-nos disso.

Para alguns conjuntos de dados, poder haver uma clara curva que se ajuste a todos os pontos de dados muitos rigorosamente. Na linguagem de Holmes, isso corresponde à descoberta de padrões na experiência que obtiveram a “forma final de expressão.” O processo de descoberta do direito, como Holmes o via, é o processo de descobrir um padrão forte o suficiente para suportar essas “generalizações mais elevadas.” Contudo, nem todo “dogma existente” é adequado para pronta descrição como direito; alguém nem sempre localiza no corpo de experiência um “cristal, transparente.” Da mesma forma, nem todos os conjuntos de dados têm uma curva bem ajustada (well-fitting curve); as coordenadas y podem ser simplesmente ruidosas (noisy) demais.

Alguns escritores se referem aos sistemas de aprendizagem de máquina como “inferindo regras a partir de dados,” “derivando regras a partir de dados” e semelhantes.14 Nós recomendamos a [47]frase “descobrindo padrões em dados,” porque ela é melhor aqui para evitar qualquer sugestão de regras semelhantes a leis (law-like) claras e precisas. Os padrões encontrados pela aprendizagem de máquina não são leis da natureza como as leis de Newton do movimento, e elas não são precisas regras estipulativas no sentido das diretivas estabelecidas em estatutos. Elas são simplesmente curvas ajustadas; e, se os dados são ruidosos (noisy) então as curvas não se ajustarão bem.

Embora nós tenhamos observado aqui que a descoberta de padrões é um elemento compartilhado pela aprendizagem de máquina e pelo direito, nós também deveríamos notar uma diferença. O direito como Holmes o via, e como ele deve ser visto independentemente da filosofia legal de alguém, é uma atividade levada a cabo por seres humanos. O direito envolve inteligência e pensamento. A aprendizagem de máquina não é pensamento. Uma vez que o programador humano tenha decidido que classe de curvas ajustar, o processo de “aprendizagem” de máquina não é nada mais do que um método mecânico para a descoberta da curva melhor ajustada no interior dessa classe. O cuidado sobre a antropomorfização da aprendizagem de máquina é oportuno, porque há tanto dela, não apenas na cultura popular, mas também na escrita técnica – e isso obscurece o que a aprendizagem de máquina realmente é. Aprendizagem de máquina não é pensamento. Ela não é inteligência. Ela não é atividade cerebral. Pearl descreveu-a como ajuste de curva para enfatizar esse ponto, para tornar claro que ela não é nada mais do que a encarnação da curva spline do projetista. Essa descrição não implica nenhuma modéstia em absoluto sobre o que a aprendizagem de máquina pode fazer. Ela apenas serve para ilustrar como é que ela o faz.


Próximo capítulo


ORIGINAL:

GRANT, T. D.; WISCHIK, D. J. On the path to AI: Law’s prophecies and the conceptual foundations of the machine learning age. Palgrave Macmillian Cham: 2020. pp.41-48. Disponível em: <https://link.springer.com/book/10.1007/978-3-030-43582-0>


TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0


1 [47]Reimpresso em The Atlantic (19 de Maio de 2018).

2 10 Harv. L. Rev. em 476.

3 Holmes, Law in Science and Science in Law, 12 Harv. L. Rev. 443, 444 (1898–1899).

4 Id. em 445.

5 Davis v. Mills, 194 U.S. 451, 457, 24 S.Ct. 692, 695 (Holmes, J., 1904).

6 Lochner v. New York, 198 U.S. 45, 75–76, 25 S.Ct. 539, 547 (Holmes, J., opinião dissidente (dissenting), 1905).

7 Towne v. Eisner, 245 U.S. 418, 425 (1918).

8 New York Trust Co. v. Eisner, 256 U.S. 345, 349 (1921).

9 10 Harv. L. Rev. em 461.

10 A ideia, que no filme é lida por um estudante a partir de um texto fictício entitulado de Understadind Poetry enquanto o professor desenha um diagrama representando Byron e Shakespeare, é esta:

[48]Se a pontuação do poema para perfeição é plotada ao longo da horizontal de um gráfico, e a sua importância é plotada na vertical, então o cálculo da área total do poema produz a mediada de sua grandeza.

Dead Poets Society (data de lançamento: 9 de junho de 1989): http://www.dailyscript.com/scripts/dead_poets_final.html. Para uma crítica, ver Kevin J.H. Dettmar, Dead Poets Society Is a Terrible Defense of the Humanities, The Atlantic (19 de fevereiro de 2014).

11 Escolhidos de Livermore & Rockmore (eds.), Law As Data. Computation, Text & the Future of Legal Analysis (2019). Os exemplos são de Vlad Eidelman, Anastassia Kornilova & Daniel Argyle, Predicting Legislative Floor Action (id. 117–50); Hannah Laqueur & Anna Venancio, A Computational Analysis of California Parole Suitability Hearings (id. 191–230); Charlotte S. Alexander, Khalifeh al Jadda, Mohammad Javad Feizhollahi & Anne M. Tucker, Using Text Analytics to Predict Litigation Outcomes (id. 271–308); Elliott Ash & Daniel Chen, Case Vectors: Spatial Representations of the Law Using Document Embeddings (id. 309–34); Daniel Chen, Machine Learning and the Rule of Law (id. 429–38). A aplicação posterior é um experimento de pensamento, e os dois primeiros são estudos de caso implementados.

12 Como em GDPR Arts. 13(2)(f), 14(2)(g) e 15(1)(h).

13 Para exemplos de como juristas aplicaram o aforismo de Holmes de maneiras disputáveis, ver Bosmajian, 38 J. Church State 397–409 (1996).

14 Ver, por exemplo, Kroll et al. at 638.

Nenhum comentário:

Postar um comentário