Mathesis: No Caminho para a IA 3 Experiência e Dados como Entradas

sexta-feira, 17 de fevereiro de 2023

No Caminho para a IA 3 Experiência e Dados como Entradas

No Caminho para a IA: Profecias do Direito e os Fundamentos Conceituais da Era da Aprendizagem de Máquina

Por Thomas D. Grant & Damon J. Wischik

[33]Capítulo 3 Experiência e Dados como Entradas

Nós estamos entrando na era dos dados massivos (big data). Por exemplo, há por volta de 1 trilhão de páginas web; uma hora de vídeo é carregada para o YouTube a cada segundo, equivalendo a 10 anos de conteúdo a cada dia; os genomas de 1000 pessoas, cada um dos quais tem um comprimento de 3.8 x 10⁹ pares de base, foram sequenciados por vários laboratórios; o Walmart maneja mais de 1 milhão de transações por hora e tem bancos de dados contendo mais de 2.5 petabytes (2.5 x 10¹⁵) de informação; e assim por diante.

Kevin P. Murphy, Machine Learning: A Probabilistic

Perspective, p.1, (c) 2012 Massachusetts Institute of

Technology, publicado por The MIT Press

A vida do direito não tem sido lógica; ela tem sido experiência.

Oliver Wendell Holmes, Jr., The Common Law (1881), p.1

Holmes, quando ele articulou uma maneira de pensar sobre o direito que se afastava do formalismo dedutivo dominate à sua época, traçou um esboço reconhecível na ciência da computação no século XXI. O entendimento do século XIX do raciocínio legal, o qual Holmes considerava, na melhor das hipóteses, incompleto, era de que o direito, como um algoritmo, resolve os problemas dados a ele de uma maneira automática, passo a passo. Uma lei bem escrita, aplicada por um juiz tecnicamente competente, conduz ao julgamento correto; um julgamento ruim deve-se a um defeito no código legal ou no funcionamento do juiz. Holmes tinha uma visão contrastante. Na visão de Holmes, o juiz considera um corpo de informação, na forma de decisões existentes e também, embora o juiz poderia não o admitir, na forma da experiência humana no [34]geral e nesse corpo discerne um padrão. O padrão é a lei em si mesma. Como a ciência da computação desenvolveu-se do algoritmo para a aprendizagem de máquina, ele, também, afastou-se de modelos que encontram explicação satisfatória em prova formal. Na aprendizagem de máquina, os dados são a entrada, como no direito na visão de Holmes, a entrada é a experiência; e, em ambos, a tarefa a ser realizada sob um dado conjunto de entradas é descobrir os padrões ali. Dessa forma, em dois campos de estudo diferentes, em épcoas diferentes, uma transição ocorreu a partir da lógica aplicasa sob regras fixas para uma busca por padrões.

No capítulo presente, nós consideramos mais de perto as entradas (inputs) – a experiência e os dados; no capítulo 4 nós consideraremos como, tanto no direito quando na aprendizagem de máquina, os padrões são descobertos para fazer sentido das entradas; e, no capítulo 5, nós nos voltamos para as saídas (outputs), as quais, como nós veremos, são predições que emergem através da busca por padrões.

3.1 A Experiência é a Entrada para o Direito

Para que materiais alguém se volta quando tem de determinar as regras de um dado sistema legal? Holmes tinha um entendimento distintivo de como essa questão de fato é respondida. Em The Common Law, o qual foi publicado dezesseis anos antes de The Path of the Law, Holmes começava com uma proposição que se juntaria a vários de seus aforismos no catálogo dos favoritos dos juristas: “A vida do direito não tem sido lógica; ela tem sido experiência.”¹ Essa proposição era a afirmação adicional da visão de Holmes de que a lógica, por si mesma, apenas leva o jurista até certo ponto. Mas é necessário, se um entendimento compreensivo do sistema legal deve ser alcançado. Holmes prosseguia:

“As necessidades sentidas da época, a moral e as teorias políticas prevalecentes, as intuições de política pública, confessas ou inconscientes, e mesmo os prejuízos que os juízes compartilham com seus concidadãos, têm tido muito mais a ver com a determinação das regras pelas quais os homens deveriam ser governados do que o silogismo. O direito corporifica a história do desenvolvimento de uma nação através de muitos séculos, e ele não pode ser tratado como se ele apenas contivesse os axiomas e corolários de um livro de matemática.”²

Novamente, nós percebemos aqui a ideia, recorrente na escrita de Holmes, de que o direito não é sobre lógica formal, que ele não é semelhante à matemática. Nós também vemos uma expansão sobre essa ideia, pois aqui Holmes articulou uma teoria de a partir de onde o direito se origina. Onde Holmes rejeitou o silogismo – lidando com o direito [35]através de “axiomas e corolários” – ele adota, em seu lugar, o entendimento sistemático da experiência. A experiência mais relevante para o direito consiste nas decisões registradas de órgãos tendo autoridade sobre o indivíduo ou a entidade sujeitos a uma particular reivindicação legal – julgamentos de tribunais, leis adotadas por parlamentos, regulamentos promulgados por orgãos administrativos, e assim por diante.

Contudo, Holmes entendia a experiância como ainda mais ampla, pois ele não invocava apenas textos legais formais, mas também “a moral e as teorias políticas prevalecentes, as instituições de política pública … mesmo os prejuízos que os juízes compartilham com seus concidadãos.”³ Os textos do direito, para Holmes, eram parte dos dados relevantes, mas, tomados por si mesmos, não eram suficientes para prosseguir.

Em resposta à invocação por Holmes de fontes tais como teoria política e política pública, alguém poderia interpor que, certamente, alguns textos têm autoridade incontestável, até primazia, sobre um dado sistema legal – por exemplo, uma constituição escrita, para fornecer o caso mais certo. Contudo, naa visão de Holmes, alguém não atinge mesmo o significado de uma constituição através da lógica apenas. Também ai é para a história que Holmes obrigaria o advogado a voltar-se:

“As provisões da Constituição não são fórmulas matemáticas que têm sua essência na forma, elas são instituições orgânicas, vivas, transplantadas a partir do solo inglês. A significância delas é vital, não formal; ela deve ser reunida não simplismente tomando as palavras e um dicionário, mas consideração a sua origem e a linha do seu crescimento.”⁴

Que Holmes foi um arguto historiador legal não é surpreendente.⁵ Quando ele chamou atenção para “o desenvolvimento de uma nação através de muitos séculos,” isso foi diretamente o propósito dele e para o entendimento dele do direito. Para Holmes, a experiência, em seu sentido mais amplo, entra na determinação do direito.

3.2 Dados são a Entrada para a Aprendizagem de Máquina

Como nós sugerimos no capítulo 2, uma percepção equívocada comum é que a aprendizagem de máquina descreve um tipo de algoritmo de tomada de decisão: que você fornece à máquina uma nova instância para decidir, que ela exectua algum misterioso processamento de algoritmo e, em seguida, emite uma resposta. De fato, a parte inteligente (clever) da aprendizagem de máquina está na fase de treinamento, na qual à máquina é dado um conjunto de dados e o algoritmo de aprendizagem converte esse conjunto de dados em um resumo (digest). Holmes falava sobre um jurista processando um corpo (body) rico de experiência, a partir do [36]qual um entendimento geral do direito tomava forma. No caso da moderna aprendizagem de máquina, a “experiência” são os dados; o entendimento geral está no resumo, o qual é armazendo como milhões de valores de parâmetro afimados (finely-tuned). Nós chamamos esses valores de “parâmetros aprendidos (learnt parameters).” Os parâmetros aprendidos são um análogo (embora apenas um bastante grosseiro) ao mapa de conexão no qual os neurônios ativam uns aos outros em um cérebro.

O conjunto de dados de treinamento – a “experiência” a partir da qual o sistema aprende – é de vital importância na determinação da forma que o sistema eventualmente assume. Dessa forma, algumas palavras adicionais de detalhe sobre o conjunto de dados de treinamento são apropriadas.

Cientistas da computação descreve o conjunto de dados de treinamento em termos de variáveis de recurso (feature) e variáveis de resultado (outcome). Para vermos como esses termos são usados, tomemos um exemplo de como nós poderíamos treinar uma máquina para classficar e-mails como spam ou não spam. A variável de resultado em nosso exemplo é a etiqueta (label) “spam” ou “não spam.” As variáveis de recurso são as palavras no e-mail. O conjunto de dados de treinamento é uma grande coleção de e-mail – junto com etiquetas anotadas por humanos (anotadas por humanos, porque um humano do século XXI, diferentemente de uma máquina não treinada, conhece spam quando ele o vê). No caso da experiência legal, os fatos de um caso seriam descritos como variáveis de recuros, o julgamento seria descrito como uma variável de resultado.

Há um subcampo da aprendizagem de máquina, a assim chamada de aprendizagem de máquina “não supervisionada (unsupervised),” na qual o conjuto de dados consiste puramente de variáveis de recuros sem nenhuma variável de resultado. Em outras palavras, o conjunto de dados de treinamento não inclui etiquetas anotadas por humanos. O processo de aprendizagem nesse tipo de aprendizagem de máquina consiste na descoberta de padrões no conjunto de ddos de treinamento. Esse tipo de aprendizagem de máquina – apredizagem de máquina não supervisionada – corresponde à concepção mais ampla de Holmes da experiência como incluindo “teorias morais e políticas prevalentes” e a inteira variedade que poderia dar forma ao conhecimento do jurista. As classificações não são atribuídas a priori aos dados, através da decisão de alguma autoridade formal. Em vez disso, elas são discernidas nos dados conforme eles são examinados.

Após a máquina ter sido treinada, ou seja, após a máquina ter realizado suas computações e, dessa maneira, ter atingido os valores de parâmetros aprendidos a partir do conjunto de dados de treinamento, ela pode ser usado para fornecer respostas sobre novos casos. Nesse momento, nós apresentamos à máquina novas variáveis de recurso (as palavras em um novo e-mail, o que quer dizer, um e-mail não encontrado no conjunto de dados de treinamento), e a máquina executa um algoritmo que processa essas novas variáveis de recurso junto com os parâmetros aprendidos. Fazendo isso, a máquina [37]produz um resultado (outcome) predito – em nosso exemplo, uma resposta para a questão de se o novo e-mail deve ser classificado como “spam” ou “não spam.” Abaixo (no capítulo 5)⁶ nós consideraremos adicionalmente o caráter preditivo da aprendizagem de máquina, o qual é compartilhado pelao ideia de Holmes do direito.

Dados, especialmente “dados massivos (big data),” são a munição (grist) para a aprendizagem de máquina. A palavra dados (data) é adequada. Ela origina-se a partir do latim datum, “aquilo que é dado,” o particípio passado de dare, “dar.” O conjunto de dados usado para treinar um sistema de aprendizagem de máquina (quer ou não as classificações sejam atribuídas a priori aos dados no conjunto de dados) é tratado como um dado (given) nesse sentido: o conjunto de dados é estipulado ser a “verdade básica (ground truth)” – a fonte de autoridade, por mais que arbitrária. Um sistema de aprendizagem de máquina não questiona ou raciocina sobre o que é aprendizagem. As predições nada mais são do que afirmações na seguinte forma: “um tal e tal novo caso é provável de se comportar similarmente a outros casos similares que pertencem ao conjunto de dados que foi usado para treinar está máquina.” Era uma inclinação frequentemente notada de Holmes tomar como um dado a experiência a partir da qual os padrões do direito emergem.⁷ A objeção central comumente pronunciada sobre o pensamento legal de Holmes – que ele não se importava com os valores sociais ou morais – por analogia, aplicar-se-ia às predições derivadas a partir de dados. Nós exploraremos esse ponto e suas implicações nos capítulo 6-10 abaixo.

Dessa forma, na aprendizagem de máquina típica, o conjunto de dados de treinamento é montado antecipadamente, os parâmetros são aprendidos e, em seguida, a máquina treinada é colocada em uso. O conceito de direito de Holmes segue um caminho similar. A experiência reunida da sociedade (incluindo os seus textos legais escritos) pode ser comparada aos valores de parâmetros em um sistema de aprendizagem de máquina. Ao jurista são apresentadas novas questões, exatamente como à máquina (após o treinamento ter produzido os parâmetros aprendidos) são apresentadas novas variáveis de recurso, e, a partir de ambos, saídas são esperadas.

Naturalmente, os juristas continuarão acumulando experiência através do tempo, tanto a partir dos casos nos quais eles participaram quanto a partir de outras fontes. Da mesma forma, em uma variante particular da aprendizagem de máquina uma máquina pode passar por treinamento incremental uma vez que ela tenha sido posicionada. Isso é descrito como aprendizagem online, denotando que a máquina “ficou online” (ou seja, tornou-se operacional) e continua a treinar. Baseando na simplicidade de engenharia, é mais comum, até agora, treinar a máquina e, em seguida, posicioná-la sem qualquer capacidade para aprendizagem online.⁸

Talvez haja um aspecto do entendimento do direito que (ainda) não tem nenhuma contraparte na aprendizagem de máquina, mesmo em sua variante [38]online: uma decisão legal é tomada em antecipação de como ela será usada como entrada para futuras decisões. Um aspecto antecipatório não está presente na aprendizagem de máquina em seu presente estado da arte. Nós exploraremos essa ideia no capítulo 9.

3.3 A Amplitude da Experiência e os Limites dos Dados

Outra distinção é que a experiênca que Holmes tinha em mente é consideravelmente mais ampla do que os típicos conjuntos de dados de treinamento usados na aprendizagem de máquina, e é menos estruturada. O sistema de aprendizagem de máquina está restriro a receber entradas em formatos simples e rigídos. Por exemplo, uma máquina recebe uma entrada na forma de uma imagem de tamanho pré-especificado ou uma etiqueta a partir de um pré-especificado conjunto (relativamente) pequeno de possibilidades. As tarefas que a aprendizagem de máquina pode manejar, em seu presente estado da arte, são aquelas onde uma máquina é requisitada a fazer uma predição sobre coisas que são novas para a máquina, mas essa novidade (newness) não excede os parâmetros dos dados sobre o qual a máquina foi treinada. A aprendizagem de máquina é limitada a esse respeito. Ela está limitada aos dados em um sentido particular – dados como conjuntos estruturados de entradas; ao passo que a experiência na qual os juristas descobrem os padrões do direito é uma proveniência muito mais ampla e de uma forma muito mais variada.

Contudo, a aprendizagem de máquina está chegando lá. Há pesquisa em curso sobre como incorporar grandes bases de conhecimento em sistemas de aprendizagem de máquina, por exemplo, incorporar conhecimento sobre o munto obtido a partir da Wikipedia. Qualquer conjunto de dados muito grande e altamente variado poderia ser uma fonte eventual de treinamento, se a aprendizagem de máquina alcança esse objetivo. Os relatos de caso (case reports) de um sistema legal nacional também seriam um exemplo do tipo de base de conhecimento que poderia ser usada para treinar um sistema de aprendizagem de máquina. Na medida que a ciência da computação encontra os seus caminhos para alargar os dados que podem ser usados para treinar um sistema de aprendizagem de máquina, o conjunto de dados de treinamento chegará muito mais a assemelhar-se ao conceito de Holmes da experiência como a substância (stuff) básica no qual são encontrados os padrões – textos de todos só tipos, e experiência de todos os tipos.

Agora, nós nos voltamos para a descoberta de padrões (finding patterns), o que quer dizer como se obtém a predição a partir dos dados que são dados.

Próximo capítulo

ORIGINAL:

GRANT, T. D.; WISCHIK, D. J. On the path to AI: Law’s prophecies and the conceptual foundations of the machine learning age. Palgrave Macmillian Cham: 2020. pp.33-40. Disponível em: <https://link.springer.com/book/10.1007/978-3-030-43582-0>

TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0

1 [39]Holmes (1881) op. cit. Prólogo, p. xii, n. 9.

2 Id.

3 Quando escrevendo para a Suprema Corte sobre uma questão da lei de Porto Rico, o Juiz da Suprema Corte (Justice) Holmes reiterou sua ideia anterior sobre a experiência, aqui concluindo que o juiz sem a experiência deveria exercitar contenção (restraint). A variedade de fatos que Holmes identificou como relevante é similar àqueles que ele identificou quarenta anos antes em The Common Law:

Esta Corte expressou muitas vezes a deferência devida ao entendimento das cortes locais ao lidar com questões de interesse puramente local … isso é especialmente verdadeiro ao lidar com as decisões de uma Corte herdada e criada em um sistema diferente daquele que prevalece aqui. Quando nós contemplamos um tal sistema a partir de fora, ele parece uma parede de pedra, cada parte igual a todas as outras, exceto tão longe quanto a nossa própria educação pode levar-nos a perceber subordinações com as quais nós estamos acostumados. Mas, para alguém criado dentro dele, a ênfase variável, as suposições tácitas, as práticas não escritas, as mil influências obtidas apenas a partir da vida, podem conceder às partes diferentes, valores inteiramente novos que a lógica e a gramática nunca poderiam ter obtido a partir dos livros. Diaz et al. v. Gonzalez et al., 261 U.S. 102, 105–106, 43 S.Ct. 286, 287–88 (Holmes, J.) (1923).

Os escritores legais, em particular os positivistas, “há muito têm debatido [sobre] quais fatos são os importantes na determinação da existência e do conteúdo do direito.” Barzun, 69 Stan. L. Rev. 1323, 1329 (2017). Os escritos de Holmes suportam uma interpretação ampla de “quais fatos…” ele tinha em mente, e ele foi deliberado quando ele disse que é apenas “a teoria do nosso sistema legal … que as conclusões a serem alcançadas em um caso serão induzidas apenas por evidência e argumento durante a sessão em tribunal (in open court), e não por nenhuma influência externa”: Patterson v. Colorado ex rel. Att’y Gen., 205 U.S. 454, 562 (1907) (ênfase acrescentada).

4 Gompers v. United States, 233 U.S. 604, 610 (1914).

5 Ver Rabban (2013) 215–68.

6 Chapter 5, pp. 54–57.

7 Ver mais em Chapter 10, pp. 114–119.

8 Kroll et al., op. cit., n. 76, em 660, indica que sistemas de aprendizagem online apresentam desafios adicionais para a responsabilidade (accountability) algorítmica.

Mathesis

Páginas

sexta-feira, 17 de fevereiro de 2023

No Caminho para a IA 3 Experiência e Dados como Entradas

Nenhum comentário:

Postar um comentário

Elementos de Lógica - Livro II - Capítulo I Das Operações da Mente e dos Termos

Arquivo do blog

Marcadores