Mathesis: Uma Introdução à Epistemologia 6 Epistemologia, Probabilidade e Ciência

terça-feira, 6 de setembro de 2022

Uma Introdução à Epistemologia 6 Epistemologia, Probabilidade e Ciência

Uma Introdução à Epistemologia

Capítulo 5

6 Epistemologia, Probabilidade e Ciência

Por Jonathan Lopez

Resultados de Aprendizagem do Capítulo

Ao completar este capítulo, os leitores serão capazes de:

Distinguir entre a epistemologia formal e a tradicional, incluindo suas principais características, motivações e suposições.
Cultivar um sentido intuitivo de como básicos métodos formais aplicam-se ao pensamento e à tomada de decisão cotidianos.
Empregar o Bayesianismo em contextos científicos, especialmente para o teste de hipóteses.
Avaliar as forças e limitações do Bayesianismo.

PREÂMBULO

Tradicionalmente, epistemólogos têm abordado questões sobre a natureza do conhecimento e da justificação epistêmica usando métodos informais, tais como intuição, introspecção, conceitos cotidianos e linguagem ordinária.¹ Quer em adição a ou no lugar desses métodos, a epistemologia formal utiliza métodos formais, tais como lógica, teoria dos conjuntos e probabilidade matemática. O resultado é uma maior precisão, rigor aumentado e uma variedade expandida de aplicações. Este capítulo foca-se sobre a abordagem formal em sua manifestação mais proeminente: o bayesianismo, o qual começa descartando a visão da crença como um caso de tudo ou nada (ou você acredita em uma proposição ou você não acredita) e antes trata a crença como admitindo graus. Esses graus são governados por quão fortemente uma proposição é sustentada pela evidência. O suporte evidencial é medido por probabilidade, especialmente com a ajuda de um famoso resultado na teoria da probabilidade, o teorema de Bayes (consequentemente o termo, “bayesiano”). Nosso objetivo aqui é entender o básico de bayesianismo, seus pros e contra, e uma aplicação extensa à epistemologia da ciência. Como nós veremos, a estrutura bayesiana é um encaixe (fit) natural para o contexto científico. Muito raramente um único experimento muda a opinião da comunidade científica; a busca pela verdade científica é uma luta difícil através de muitos experimentos e programas de pesquisa, conforme hipóteses ganham ou perdem favor à luz de um corpo mutável de evidência. O bayesianismo permite-nos modelar esse processo e usar esse entendimento para determinar algumas controvérsias sobre a teoria da escolha.

GRAUS DE CRENÇA

Você provavelmente está mais confiante em algumas crenças do que em outras. Você provavelmente disse coisas como “Eu estou 100% certo de que desliguei o forno,” o que quer dizer que sua confiança é alta, ou “Eu tenho um pressentimento (hunch) de que ele poderia não contar a verdade,” o que é dizer que sua confiança é baixa. Quando você escrutinar rigorosamente suas crenças, você descobrirá que ela caem ao longo de vários pontos em um espectro – uma hierarquia que não pode ser apreendida simplesmente dizendo que você ou acredita ou não. Tais termos tudo ou nada (all-or-nothing) aglomeram crenças em amplas categorias, mascarando diferenças importantes entre as localizações delas na hierarquia.

Antes suponha que você entende crença como “admissão de graus.” Isso permite a você distinguir crenças nas quais você tem graus variados de confiança: o seu grau de crença em uma proposição é o grau de confiança que você tem nessa proposição, o qual pode ser posicionado em uma escala de 0 a 1 (expressa em forma decimal, de razão, ou de porcentagem)². Uma crença que acumulou significante suporte evidencial recebe uma alta “pontuação (score)” ou grau, a qual gradualmente diminui com suporte decrescente. Plausivelmente, os padrões tudo ou nada da epistemologia tradicional podem então ser mapeados para termos graduados de acordo com uma tese nomeada segundo o filósofo britânico John Locke (1632-1704):

A tese lockeana: Uma crença (no sentido tudo ou nada) é racional quando o grau racional de crença é suficientemente alto (ou seja, acima de algum limite específico). (Foley 1992)³

Retrato de John Locke, por Godfrey Kneller, via Wikimedia Commons. Essa obra está no domínio público.

Dada essa tese, uma vantagem da estrutura graduada é que ela fornece os recursos para distinguir e avaliar níveis específicos de crença de uma maneira que também fundamenta os padrões epistemológicos tradicionais. No que se segue, nós nos focaremos nos aspectos graduados, tendo em mente que a tradução de volta em termos tradicionais é sempre possível via a tese lockeana.

Frequentemente, os epistemólogos formais falam sobre graus de crenças como créditos (credences). Por exemplo, tome-se a declaração, “Todos os solteiros são não casados,” a qual é analiticamente verdadeira (verdadeira por definição) e, portanto, impossível de ser falsa.⁴ Um crédito desse calibre receberia uma pontuação perfeita de 100/100 = 100% = 1. Uma tal pontuação representa certeza absoluta. Pouco aquém dessas, estão as crenças que são quase certas mas podem, teoricamente, estar enganadas. Por exemplo, você provavelmente está quase certo de que o mundo exterior existe, embora haja uma leve chance de que, efetivamente, você seja um cérebro em uma cuba e sua experiência do mundo esteja sendo simulada.⁵ Se for assim, você tem um crédito realmente alto, talvez de 95/100 = 95% = 0,95, de que você não é um cérebro em uma cuba. Quão mais distante da certeza absoluta, menor a pontuação que uma crença receberá. Uma pontuação de 0 está reservada para crenças que possivelmente não podem ser verdadeiras, frequentemente porque elas são analiticamente falsas (autocontraditórias) – por exemplo, “O número 42 é igualmente par (even) e ímpar (odd).” Essa estrutura pode fazer sentido de declarações como “Eu estou 100% certo de que eu liguei o alarme” e “Há 0% de chance de que eu vou conseguir esse emprego” (talvez após uma entrevista ruim). Todavia, essas sentenças poderiam, estritamente falando, ser hipérboles, uma vez que elas não são nem tautologias nem contradições – apenas altamente provável e altamente improvável, respectivamente. É claro, há leves inclinações – proposições nas quais você escassamente acredita ou fracamente rejeita. E no meio, a 50/100 = 50% = 0,5 de crédito, há proposições sobre as quais você provavelmente suspende o julgamento (não tem nenhuma opinião de uma maneira ou de outra), por exemplo. “O número total de pessoas vivendo atualmente na Terra é par em vez de ímpar.”⁶

DOIS MODELOS DE GRAUS DE CRENÇAS

A melhor maneira de entender como “pontuações (scores)” são atribuídas a crenças depende de para quem você pergunta e quais são seus propósitos. A seção anterior tratou das pontuações como valores em uma escala de 0 a 1. Esse escala alinha-os com como nós tipicamente pensamos sobre probabilidades, as quais também caem entre 0 e 1, de acordo com um axioma padrão da teoria da probabilidade:

A probabilidade de uma proposição ou um evento X, representada por P(x), é tal que: 0 ≤ P(x) ≤ 1.

De maneira mais geral, epistemólogos formais tipicamente adotam o probabilismo: a visão de que pontuações deveriam conformar-se às probabilidades. Um resultado significante é que nós podemos usar as vantagens da teoria da probabilidade para falar e raciocinar cuidadosamente sobre nossas crenças. Todavia, há duas maneiras de pensar sobre probabilidades, as quais correspondem às maneiras que nós pensamos sobre graus de crença: objetiva e subjetiva.

Jacob Bernoulli (1655-1705), o matemático que introduziu a distinção objetiva/subjetiva em probabilidade. Pintuda por Niklaus Bernoulli, via Wikimedia Commons. Essa obra está no domínio público.

Um entendimento objetivo dos graus de crença entende a “pontuação” da qual nós estivemos falando como uma característica do mundo real (externo, independente da mente). Por exemplo, se eu perguntasse a você qual é o seu grau de crença que uma moeda honesta (fair coin) resulte em cara (head) para cima, você provavelmente diria 1 em 2, ou 50% = 0.5. Isso está fundamentado no fato de que a moeda tem um lado que é cara (o resultado desejado) a partir de dois resultados possíveis para um único lançamento (toss). A obtenção de um royal flush no pôquer segue o mesmo raciocínio com números maiores: há quatro maneiras de fazê-lo a partir de 2.598.960 jogadas de pôquer (poker hands) possíveis (1 em 649.740). No geral, a probabilidade objetiva, consequentemente, o grau de crença que alguém deveria ter, é igual ao número de maneiras que o resultado desejado pode ser obtido a partir do número total de todos os resultados relevantes possíveis:

P(X) = # de maneiras que X pode ser obtido / # total de resultados relevantes possíveis

O denominador dessa razão é o tamanho da classe de referência (o conjunto de todos os resultados possíveis).⁷ No caso da moeda, a classe de referência consiste em dois resultados possíveis: caras (heads) e coroas (tails). No caso das cartas, a classe de referência consiste em todas as mãos possíveis em um jogo de pôquer. Mas as questões não são sempre tão definidas. Por exemplo, considere o evento “O seu time de esporte local vencerá o próximo campeonato.” Nós consideraríamos todas as partidas (games) passadas e futuras que o time alguma vez disputou? Deveríamos considerar apenas suas partidas de campeonatos passadas e futuras? É claro, nós não podemos inspecionar diretamente partidas futuras no presente. Dessa forma, nós simplesmente examinamos o passado? Se sim, quão longe no passado nós deveríamos ir? Certamente as vitórias e derrotas deles nos anos de 1970 não são relevantes para este ano. Agora considere que crédito atribuir a uma crença tal como esta: “A conquista da Europa por Napoleão teria sido exitosa se ele nunca tivesse se aventurado na Rússia durante o inverno.” A despeito de ser intuitivamente provável, aqui seria ainda mais difícil se decidir por onde se iniciar a atribuição de uma classe de referência. Esse conjunto de confusões é conhecido como o problema da classe de referência.

John Stuart Mill (1806-1873), o filósofo que defendeu uma visão “frequentista” da probabilidade como a “frequência” de um evento em uma classe de referência. Imagem via Wikimedia Commons. Essa obra está no domínio público.

Um entendimento subjetivo dos graus de crença evita esse problema ao não vincular sua crença à natureza do evento em questão. A partir desse entendimento, a pontuação que alguém atribui a uma crença é uma probabilidade subjetiva: quão confiante você efetivamente está nessa crença ser verdadeira, independentemente de quais características do mundo real, independente da mente. Isso permite a você dizer coisas como “Eu estou 75% certo de que meu amigo se atrasará” e “Eu estou 90% certo de que meu time de esporte local vencerá o seu próximo campeonato” sem se decidir sobre uma classe de referência para usar em uma razão.

Augustus De Morgan (1806-1871), o matemático que está entre os primeiros proponentes da probabilidade subjetiva. Imagem via Wikimedia Commons. Essa obra está no domínio público.

Embora a interpretação subjetiva permita-nos expandir a classe de eventos ou proposições à qual nós podemos atribuir probabilidades, ela provoca uma multidão de outros problemas. Um dos problemas mais proeminentes para o entendimento subjetivo é o problema dos anteriores (priors) (o nome para o qual se tornará evidente na próxima seção). Basicamente, suas probabilidades subjetivas não estão fundamentadas em nada no mundo real, elas estão apenas à decisão [arbitrária] (up to) cada pessoa individual. Isso significa que cada um pode apenas estabelecer suas probabilidades subjetivas para o que quer que eles queiram? Bem, eles poderiam, mas há, pelo menos, algumas restrições sobre o que torna um conjunto de probabilidades subjetivas racional.

Como com suas crenças em uma estrutura tradicional (não graduada), os créditos não deveriam violar as leis da lógica. Por exemplo, você não deveria acreditar em duas proposições que contradizem uma a outra. A estrutura graduada adicionalmente requer de nós que respeitemos as leis da probabilidade.

Digamos que você decida tentar pela primeira vez uma pista de corrida e, por sorte, chegou o dia em que eles estão realizando corrida de Corgis (uma raça de cães galesa). Antes que as corridas comecem, você consegue encontrar alguns dos corredores. O primeiro Corgi, Atticus, tem fofas pernas pequenas, está um pouco para o lado gordinho, mas tem um sorriso que convence você de que ele vencerá a corrida. Você decide que ele tem 80% de chance. O próximo Corgi que você encontra, Banquo, é um meio pastor alemão, é muito mais alto e magro, e não parou de encarar, a meia distância, de uma determinada maneira. Agora você está convencido de que Banquo vencerá com um crédito de 80%. Após encontrar todos os corredores e, subsequentemente, apaixonar-se por todos eles, você quer que todos vençam e, portanto, atribui a cada uma probabilidade de 80%. Atribuir a cada concorrente uma probabilidade tão alta é irracional. Mas por que, especialmente no entendimento subjetivo?

Uma maneira de testar se qualquer uma de suas probabilidades é irracional na estrutura graduada é análoga a como você poderia avaliar as crenças em uma estrutura não graduada: você verifica inconsistências. Em uma estrutura não graduada, as inconsistências surgem na forma de contradições lógicas entre as crenças. Na estrutura graduada, as inconsistências surgem quando as probabilidades que você atribui às crenças não respeitam as leis da probabilidade (junto com as leis da lógica). Uma tal lei, aditividade finita, sustenta que, se duas proposições ou eventos, X e Y, são incompatíveis, as probabilidades deles devem ser aditivas (a soma de suas probabilidades individuais):

P(X ou Y) = P(X) + P(Y), onde X e Y não podem ambas ser obtidas.

George Boole (1815-1864), o que matemático que defendeu a probabilidade objetiva. Ele também “logicizou” a probabilidade, fundamentando-a em relações lógicas entre proposição. Imagem via Wikimedia Commons. Essa obra está no domínio público.

Um exemplo de eventos incompatíveis é uma moeda normal pousando igualmente em caras (heads), Ca, e coroas (tails), Co, em um único lançamento (toss). Colocando de lado a probabilidade negligenciável da moeda pousar sobre a borda, Ca e Co têm, cada uma, uma probabilidade de ½. Assim, a aditividade finita implica que P(Ca ou Co) = P(Ca) + P(Co) = ½ + ½ = 1. Em outras palavras, a probabilidade de obter uma ou outra, Ca ou Co, é de 1, ou de certeza.

Retornemos ao exemplo da corrida. Você pode descobrir que a atribuição de 80% de probabilidade subjetiva para todos os corredores é irracional se você for forçado a “arriscar-se em comprometer-se com o resultado (put your money where your mouth is).” A tabela 1 sumariza a informação pertinente que você veria exibida em um contador de apostas (betting counter). A pista de corrida (racetrack) atribui a cada corredor chances de apostas (betting odds), as quais podem ser traduzidas na probabilidade de vitória.

Por exemplo, uma vez que Banquo é o favorito para vencer a corrida, a pista de corrida dá a ele “chances iguais (even odds)” (1 para 1) para evitar o pagamento de dinheiro demais. Atticus, embora adorável, é menos provável de vencer, assim, a pista de corrida dá a ele chances de 4 para 1. O Dr. Waddle, o menos provável de vencer, pagará mais se ele puder alcançar uma vitória inesperada de 9 para 1. Essa maneira de ler as chances de apostas (betting odds) quer dizer as entender como montantes hipotéticos que o apostador (bookie) e você mesmo, respectivamente, estabelecem. Isso significa que, se Atticus vencer, você receberá os $4 da aposta do apostador e receberá de volta o $1 de sua aposta. É claro, você pode apostar qualquer quantidade que você desejar. As chances de aposta apenas estabelecem a razão (ratio).

Se um apostador ouvir por acaso você dizer é provável que todos os Corgis vençam, com chances iguais de 80% cada um, ele poderia tentar tirar vantagem disso oferecendo a você o conjunto revisado de apostas sumarizado na tabela 2 abaixo. O apostador chega a esses números usando a mesma estratégia da pista de corrida. Se você aceitar, como seus créditos sugerem, você estará garantido de perder dinheiro. Custará a você $4 para apostar em todos os Corgis, mas você receberá de volta apenas $1.25 uma vez que apenas um Corgi, efetivamente, vencerá.

Outra maneira de colocar que você está garantido de perder é que você tenha um Dutch book formado contra você. Para evitar Dutch books, você necessita ajustar seus créditos para se alinharem com as leis da probabilidade. É racional evitar Dutch books. Assim, de acordo com o argumento do Dutch book, créditos racionais aderem às leis da probabilidade (Vineberg 2016).

Embora o argumento do Dutch book comece ao tornar a probabilidade subjetiva mais palatável ao colocar algumas restrições firmes sobre as probabilidades que você racionalmente pode atribuir, alguém objetaria que essas restrições são muito demandantes. Essa objeção ao probabilismo no geral (ou objetivo ou subjetivo) é o problema da onisciência lógica. No começo deste capítulo, foi mencionado que todas e apenas verdades necessárias, tais como aquelas da lógica (por exemplo, p ou não p), merecem uma pontuação perfeita de 1:

P(X) = 1, quando X é necessariamente verdadeiro

P(X) = 0, quando X é necessariamente falso.

Contudo, há um número infinito de verdades lógicas. Uma vez que os seres humanos (individual e coletivamente) são finitos, há muitas verdades lógicas sobre as quais nenhuma pessoa pode alguma vez pensar. Algumas delas estão além de nossa limitada compreensão, uma vez que não há limite para quão complexas elas podem ser. Mesmo muitas verdades lógicas simples não podem ser reconhecidas sem o estudo da lógica. Portanto, por um número de razões, nenhum homem tem a capacidade de formar uma crença sobre toda verdade lógica, tornando impossível para nós atribuir 1 a todas elas. Ao adotar a estrutura graduada, nós comprometemo-nos dizendo que nossas crenças se comportaram de acordo com as leis da lógica e probabilidade. Mas, se há muitas instâncias onde elas não se comportam, como nós parecemos ter encontrado, nós deveríamos repensar esse relacionamento.

Em resposta, nós poderíamos dizer que, mesmo assim, as leis da lógica e probabilidade são padrões para agentes racionais ideais, os quais podem ser vistos como um tipo de caso teórico limitante para aqueles de nós em nosso confuso mundo real. Nessa abordagem, nós estamos engajados em idealização, muito como os físicos fazem quando eles raciocinam com seus planos sem fricção, vácuos completos e esferas perfeitas. Ainda assim, o argumento do Dutch book não impede as pessoas de terem créditos ridículos enquanto elas respeitarem as leis da probabilidade. Quase qualquer crédito (por exemplo, de que nosso time local de esportes tem 99.9% de chance de vencer o campeonato) pode ser tornado mais probabilisticamente consistente se eles são ajustadas para se adequarem. A probabilidade objetiva poderia apelar para características do mundo real para estabelecer o crédito apropriado, mas a probabilidade subjetiva não tem essa vantagem. Nós retornaremos a esse problema para o probabilismo subjetivo nas duas seções finais para ver se ele pode ser mitigado.

TEOREMA DE BAYES E BAYESIANISMO

Thomas Bayes (suposta identificação por Terence O’Donnell), via Wikimedia Commons. Essa obra está no domínio público.

As seções anteriores introduziram alguns dos ingredientes críticos para o uso do teorema de Bayes, um poderoso teorema em teoria da probabilidade estabelecido pelo reverendo Thomas Bayes (ca. 1702-1761). Esse teorema concede a você as regras a seguir para atualizar seus créditos em evidência vindoura. O bayesianismo é uma versão da epistemologia formal que concede ao teorema de Bayes um papel central na atualização de créditos. Afinal, não é exatamente qualquer maneira de atualização que é racional. Por exemplo, após assistir a algumas notícias sobre quedas de aviões na mesma semana, você poderia ficar tentado a reduzir seu crédito de que viagem aérea é segura ao ponto de que você fique com medo de voar. A diminuição de seu grau de crença na segurança da viagem aérea a esse ponto seria irracional porque a evidência não é suficientemente forte. Afinal, pense em todos os voos seguros que ocorrem em uma base regular quando comparados com aqueles que caem. Para vermos como nós poderíamos abordar a atualização de sua crença de uma maneira racional, examinemos os componentes do teorema de Bayes.

Frequentemente, o teorema de Bayes é expresso como se segue:

P(H│E) = P(E│H) . P(H) / P(E), onde P(E) ≠ 0.

P(H│E) representa a probabilidade de uma hipótese H dada umaa evidência E, onde H e E são duas proposições ou dois eventos quaisquer. Ela diz quão provável E torna H. Porque essa probabilidade é depende de ou condicional em relação a E, ela é referida como uma probabilidade condicional.

O processo de obtenção dessa probabilidade é chamado de condicionalização (ou condicionamento). Anterior à condicionalização, alguém começa com uma probabilidade prévia, P(H). Essa é uma probabilidade base ou inicial para H, uma que ainda não leva a evidência E em consideração. Após a condicionalização, alguém termina com uma probabilidade posterior, P(H│E).

Dados esses conceitos, nós agora estamos em posição de entender a regra de condicionalização, a qual é uma proposta relativamente intuitiva: sempre que uma pessoa obtém nova evidência E relativa à hipótese H, a maneira adequada de atualizar o crédito inicial desse alguém em H – dada por P(H) – é através da condicionalização a partir de E, então conformando o novo crédito de alguém com o resultado:⁸

Após obter a evidência E, o crédito atualizado P_novo(H) é dado por P(H│E).

A importância do teorema de Bayes é que ele nos ajuda a colocar isso em prática ao conceder-nos um meio preciso pelo qual calcular o efeito de condicionalização. Mas, antes que nós possamos ver como isso funciona, primeiro, nós precisamos examinar os outros componentes do teorema.

P(E│H) é a probabilidade da obtenção da evidência E dado que a hipótese H seja verdadeira. Esse componente é chamado de plausibilidade (likelihood). Algumas vezes, ele é descrito como o “poder explanatório” de H com respeito a E. Basicamente, ele mede quão bem sua hipótese prediz a evidência. Se um experimento apropriadamente conduzido e bem projetado produz E como o resultado esperado de H, esse valor será alto.

P(E) é a probabilidade de obtenção da evidência E. Se a evidência é facilmente obtida por acaso, não seria uma boa ideia aumentar sua confiança na hipótese. O teorema de Bayes explica isso porque, se P(E) é grande, ela diminuirá sua probabilidade posterior em virtude de estar no denominador de nossos cálculos, tornando a razão menor.

Bayesianismo Comparativo

Uma maneira de usar o teorema de Bayes é para calcular a expressão do lado direito na fórmula, inserir os valores para obter um número para P(H│E) e então atualizar o seu crédito de acordo. Mas algumas vezes é difícil obter um valor para P(E). Nós podemos desviar disso usando o teorema de uma maneira comparativa. Se nós queremos usar E para escolher entre duas hipóteses concorrentes H₁ e H₂, nós apenas precisamos mostrar que P(H₁│E) > P(H₂│E). Aplicando o teorema de Bayes a cada lado da desigualdade, P(E) aparecerá em cada lado e cancelará. O resultado é que:

P(H₁│E) > P(H₂│E), quando P(E│H₁)P(H₁) > P(E│H₂)P(H₂).

E se nós começarmos a partir do neutro entre H₁ e H₂, de modo que P(H₁) = P(H₂), então aqueles se cancelam também. O resultado é que:

P(H₁│E) > P(H₂│E), quando P(E│H₁) > P(E│H₂), para casos onde P(H₁) = P(H₂).

Em outras palavras, dado que tudo o mais seja igual, nós devemos adotar H₁ sobre H₂ quando o primeiro explicar melhor ou predizer a evidência. Dessa maneira, o bayesianismo comparativo fornece-nos uma verificação probabilística de uma forma de inferência à explicação melhor.

Note que onde nós temos apenas uma única hipótese H, nós ainda podemos usar a formulação compartiva acima para comparar H com _não-H (substituindo H₁ por H e H₂ por _não-H):

P(H│E) > P(_não-H│E), quando P(E│H) > P(E│_não-H), para casos onde P(H) = P(_não-H) = 1/2.

Mas nós devemos ser cautelosos para não largamos a P(H) dessa maneira – exceto quando comparando H com outra hipótese que é igualmente provável. Em outros casos, P(H) pode ter um impacto dramático sobre o cálculo. De fato, ignorar probabilidades prévias e focar-se exclusivamente em probabilidades condicionais é a notória falácia da taxa básica (base-rate fallacy)(assim nomeada porque P(H) é algumas vezes chamada de taxa básica (base rate)). Psicológos identificaram essa falácia como uma fonte comum de muitos erros de raciocínio no mundo real, variando de erros de diagnóstico médico a erros legais a políticas discriminatórias (Kahneman e Tversky 1973). Para obter uma percepção de como essa falácia opera no contexto médico, tente pela primeira vez a questão 2 nas Questões para Reflexão ao final deste capítulo.

CAIXA 1 – A Navalha de Ockham

A Navalha de Ockham, a qual postula que “entidades não devem ser multiplicadas além da necessidade,” serve como um princípio orientador para escolher entre hipóteses concorrentes. A intuição central é que nós deveríamos aderir à explicação mais simples consistente com os dados, certificando-nos que nenhum postulado adicional seja supérfluo. Uma vez que a simplicidade é uma virtude explanatória (entre outras) – quer dizer, ela melhora a qualidade de uma explanação (outras coisas sendo iguais) – a navalha de Ockham está intimamente associada à explicação à explicação melhor.

Guilherme de Ockham (ca. 1285-1347), o filósofo-teólogo medieval cristão a quem se credita a navalha. Imagem via Wikimedia Commons. Essa obra está em domínio público.

A escolha entre um modelo heliocêntrico ou geocêntrico do universo mostra como “a navalha” ocorre em um contexto científico. O modelo heliocêntrico sustenta que os planetas orbitam em torno do sol. O modelo geocêntrico sustenta que eles orbitam em torno da Terra. Contudo, para explicar as observações, o modelo geocêntrico estipula adicionalmente que os planetas exibem “epiciclos,” significando que ele se movem para trás e para frente via ciclos menores no interior de suas órbitas. Esses epiciclos podem ser vistos como uma entidade ou postulado extra. Embora a navalha não elimine o postulado com certeza, ela torna o modelo geocêntrico menos provável do que o modelo heliocêntrico.

Modelo Heliocêntrico de Copérnico, por Scewing, via Wikimedia Commons. Essa obra está no domínio público.

O Modelo Geocêntrico, por James Ferguson a partir da primeira edição da Encyclopaedia Britannica (1771), via Wikimedia Commons. Essa obra está no domínio público.

A adição de uma nova entidade/postulado é equivalente à adição de um conjunto (um “e”) à hipótese, o qual (por causa de como as probabilidades são calculadas) apenas funciona para conduzir para baixo o crédito de alguém. Matematicamente, nós podemos expressar isso como a seguinte lei probabilística:

P(X e Y) < P(X) quando X não implica Y.

Considere o seguinte exemplo tornado famoso pelos psicólogos Kahneman e Tversky (1983). Linda é uma recente graduada na universidade que estudou filosofia. Enquanto na universidade, Linda regularmente participou em ativismo relacionado à injustiça racial e mudança climática. O que é mais provável?

Linda é uma caixa de banco
Linda é uma caixa de banco e é ativa no movimento feminista.

Se você for como a maioria das pessoas, você provavelmente teria escolhido (b). Contudo, (b) é a opção menos provável porque, não importa que probabilidades você atribui a cada atributo – “caixa de banco” e “ativa no movimento feminista” –, sempre será menos provável para ambos os atributos aparecerem juntos antes que cada um por si mesmo. Para uma explicação e discussão estendida desse exemplo, ver Brit Brogaard (2006). Para mais sobre a navalha de Ockham, ver Elliott Sober (2015-2016).

APLICAÇÃO: A EPISTEMOLOGIA DA CIÊNCIA

Revisar seu crédito em uma hipótese em resposta a evidência, especificamente, a observações empíricas, é tudo que interessa à ciência. Uma das razões por que o bayesianismo tem sido tão influente é que ele se generaliza através de muitos campos e cenários. Nesta seção, nós examinaremos como alguém poderia usar o bayesianismo para auxiliar na atualização dos graus de crença em hipóteses científicas.

Suponha que você queira saber se vacinas causam autismo, assim você parte para fazer alguma pesquisa. Após uma meia hora no Google, você encontra-se em um redemoinho de desinformação. Você depara-se com o famoso (infame) artigo de 1998 na Lancet responsável por instigar o equívoco vacina/autismo. Nesse artigo, o Dr. Andrew Wakefield e seus coautores relatam um estudo no qual 8 de 12 crianças mostraram o início dos sintomas comportamentais associados com o autismo dentro de semanas do recebimento da imunização contra sarampo (measles), caxumba (mumps) e rubéola (rubella). Sobre essa base, você aceita uma chance de 8/12 ≈ 66.67% de que vacinas causem autismo e forma um crédito de ≈ 0,667 de que seu filho desenvolverá autismo (H) se você permitir a imunização dele (E). Em outras palavras, sua estimativa inicial é que P(H│E) ≈ 0,667. Contudo, em seguida, você aprende que The Lancet retirou o artigo após o estudo ter sido repetidamente desacreditado. Contudo, os antivacinadores continuam a colocar-se do lado de Wakefield, outros insistem que vacinas são seguras e vitais para a saúde pública.

Andrew Wakefield durante uma marcha antivacina em Varsóvia. Fotografia por Bladość, via Wikimedia Commons. Licença CC BY-SA 4.0

O que você deveria fazer? Determinado a clarificar isso, mas inseguro quanto a suas habilidades de probabilidade, um intrigante capítulo de um livro-texto aberto sobre epistemologia bayesiana captura seu olhar. Equipado com seu novo conhecimento do teorema de Bayes, você procura por algum experimento para obter as probabilidades para inserir no teorema. Por sorte, há muitos semelhantes experimentos a partir dos quais as extrair. Como um exemplo, considere apenas um estudo realizado em Quebec (Fombonner et al. 2006).

O estudo relata que ≈ 65 per 10.000 crianças foram diagnosticadas com uma condição no espectro do autismo. Assim, P(H) ≈ 65/10000 = 0.0065. Os pesquisadores relatam que isso é consistentes com a taxa de 0,6% encontrada em outros estudos epidemiológicos. Eles também calculam uma média de 93% de taxa de vacinação entre crianças no grupo de idade relevante, o que produz P(E) = 0.93. Se vacinas causam autismo, alguém poderia esperar uma taxa de vacinação mais elevada que o normal (higher-than-normal) concentrada entre os 65 diagnosticados com autismo. Para conceder aos antivacinadores o benefício da dúvida, suponha que 64 dos 65 (aproximadamente 98%) foram imunizados. Quer dizer, P(E│H) ≈ 0.98.

Usando o teorema de Bayes,

P(H│E) = P(E│H) . P(H) / P(E) ≈ 0,98 . (0,0065) / 0,93 ≈ 0,0068 = 0,68%

Combinando tudo junto, esse resultado sugere que a resposta racional à evidência é rebaixar dramaticamente o seu crédito na hipótese a partir do inicial 66,67% para menos de 1%. Embora nós não possamos nunca excluir completamente a hipótese, experimentos adicionais poderiam continuar essa ladeira para baixo até que os créditos se tornem desaparecidamente pequenos. Mesmo com 1%, você já estaria justificado em acreditar que é altamente improvável que vacinas causem autismo – em outras palavras, justificado em acreditar que é altamente provável (99%) que vacines não causam autismo. Um corolário para isso é que, não importa quanta evidência se acumule, você nunca será capaz de elevar seu crédito acima de 1, ou da certeza absoluta. Esse ponto generaliza-se: um tratamento bayesiano da ciência melhor concorda com o falibilismo, a ideia de que alguém pode ter justificação sem certeza.

O nosso exemplo também demonstra que o bayesianismo tem algum mecanismo para a correção de probabilidades prévias, uma vez que evidência suficiente removerá erros anteriores. Alguém poderia apreciar que nós poderíamos ter começado como céticos sobre a alegação de que vacinas causam autismo, digamos, com 5% de confiança, e que nosso crédito ainda teria diminuído após ver a evidência. A curto prazo, contudo, o bayesianismo subjetivo permitiria a alguém acreditar em prévias irrealistas até que evidência suficiente surgisse. O bayesianismo objetivo tem a vantagem nessa frente porque ele insiste em ter prévias que sejam coerentes com o mundo antes que alguém progrida com a atividade de atualização (embora, por outro lado, a visão objetiva encare o problema da classe de referência).

O caso da vacina requereu que nós apelássemos a taxas observadas e cálculos estatísticos para determinar as probabilidades para dar entrada no teorema de Bayes. Contudo, nem sempre é possível colocar um número em valores relevantes. Considere a teoria da relatividade geral, a qual postula que a massa causa o espaço-tempo a deformar-se ou se curvar, e que essa curvatura é a força da gravidade. À época de sua publicação em 1915, a maioria dos cientistas via essa teoria como um afastamento radical, injustificado, da teoria newtoniana da gravidade de longa data. Afinal, Einstein não tinha prova empírica. Por outro lado, o raciocínio dele também parecia convincente, para não mencionar que ele tinha sido provado correto uma vez antes, quando todos os outros tinham sido provados errados (a respeito de sua teoria da relatividade especial em 1905). Assim, em 1915, talvez fosse razoável formar um crédito de 50/50 sobre a questão da gravidade newtoniana (N) versus a relatividade geral (RG). Se assim, então P(N) = P(RG).

Retrato de Isaac Newton, por Godfrey Kneller, via Wikimedia Commons. Essa obra está no domínio público.

Albert Einstein, 1921, por Ferdinand Schmutzer, via Wikimedia Commons. Essa obra está no domínio público.

Considerando que a N prediz que raios de luz se aproximando do sol viajariam em um caminho reto, a RG prediz que eles seriam curvados pela gravidade do sol, tomando um caminho curvo. Durante o eclipse solar total em 1919, o famoso experimento Eddington (E) confirmou fortemente a previsão de RG. Em outras palavras, P(E│RG) » P(E│N), onde a desigualdade dupla significa “muito maior do que.” É claro, é difícil ver como valores numéricos poderiam ser determinados.

Arthur Stanley Eddington (1882-1944), astrofísico e astrônomo inglês. Parte da George Grantham Bain Collection, Library of Congress Prints and Photographs Division Washington, D.C. Imagem via Wikimedia Commons. Essa obra está no domínio público.

Ilustração da curvatura do espaçotempo devido à massa, como predito pela relatividade geral. Imagem por OpenStax Univeristy Physics, via Wikimedia Commons. Licença: CC BY 4.0

Bayesianismo comparativo ao resgate! Dado o que há pouco nós determinamos – que P(N) = P(RG) e P(E│RG) » P(E│N) – a versão comparativa do teorema de Bayes introduzida na seção anterior implica que P(RG│E) » P(N│E). Consequentemente, E suporta fortemente RG sobre N. O bayesianismo comparativo diz que, após nós termos aprendido os resultados de Eddington, nós deveríamos aumentar significativamente nosso crédito em RG e diminuir nosso crédito em N. Uma vez que esses créditos anteriormente eram iguais, isso significa que nós terminaremos com P(RG│E) » ½. Em outras palavras, nós deveríamos acreditar fortemente em RG sobre N.

É claro, essa conclusão é um pouco limitada. Sem probabilidades numéricas, o bayesianismo não pode identificar um grau específico de crença em RG. Antes, o bayesianismo comparativo mostrou-nos como nós estamos justificados em escolher entre duas hipóteses concorrentes. Adicionalmente, comparações também podem justificar utilmente um “ranqueamento de crença” (por exemplo, a crença C1 é mais provável do que a C2, a qual é mais provável do que a C3). Teóricos de decisão usam semelhantes ranqueamentos para explicar a quais crenças deveríam ser concedidos peso maior na tomada de decisão.

AVALIANDO O BAYESIANISMO

Este capítulo demonstrou que o bayesianimo nos fornece> um suplemento ou uma alternativa fortes à tradicional epistemologia. Uma estrutura graduada permite-nos caracterizar nossas atitudes doxásticas mais precisamente. As ferramentas da probabilidade ajudam-nos com uma rica estrutura matemática para a avaliação de créditos. A mais valiosa dessas ferramentas é o teorema de Bayes, o qual, meticulosamente, prescreve como refinar nossos créditos através do tempo à luz de nova evidência. O resultado é uma estrutura poderosa, uma que pode fornecer uma forte fundamentos epistemológico para investigação científica.

Este capítulo também mostrou que o bayesianismo também não deixa de ter suas fraquezas, incluindo o problema da classe de referência, o problema dos anteriores, e o problema da onisciência lógica. Contudo, esses podem não ser insuperáveis e, de fato, são o ponto central de vividos debate e pesquisa em epistemologia formal. Embora esse capítulo se foque em exemplos da ciência, ele pode ser apreciado visto que o resultado é altamente generalizável. Se você está intrigado pelo potencial do bayesianismo, seria frutífero pesquisar a lista de leitura sugerida para entender como ele faz contato com outras áreas da filosofia.

Questões para Reflexão

Crie um esboço (sketch) do que sua própria variação de créditos poderia parecer-se. Use o contínuo abaixo para mapear seus créditos para as proposições listadas em (a)-(e). Há várias marcas de referência para ajudar a guiar o seu pensamento.

O consenso científico está errado sobre a mudança climática
Um ataque nuclear acontecerá durante a sua vida.
Alguém em um dado ônibus lotado (≈30 passageiros) tem o mesmo aniversário que você.
A partida final da próxima Copa do Mundo (de futebol) apresentará, pelo menos, um país europeu.
A Talking Heads (uma banda de rock) reunir-se-á para um último álbum.

Exploremos o teorema de Bayes e vejamos como ele se compara com suas intuições sobre probabilidade. Considere duas alegações:

T = Você testa positivo para uma dada condição médica.

C= Você tem a condição médica.

Suponha que o teste tenha um forte histórico (track record) para a detecção da condição quando ela está efetivamente presente: P(T│C) = 0.8. Também suponha que 1% da população tenha a condição: P(C) = 0.01. Finalmente, suponha que aproximadamente uma de cada dez pessoas que são testadas tendem a testar positivas: P(T) = 0.01. Agora responda às questões seguintes:

Usando apenas a sua intuição (sem cálculos), quão provável é que você tenha a condição dado que você testou positivo? Em outras palavras, P(C│T) é alta, baixa ou aproximadamente no meio?
Agora, insira os números no teorema de Bayes para descobrir uma estimativa numérica para P(C│T).
Compare suas respostas em (a) e (b). Se você descobrir sua intuição está muito longe do curso, qual você pensa que é a razão para isso? O que desviou sua atenção? Você seletivamente se focou em um aspecto particular dos dados fornecidos? O erro está relacionado com a falácia da taxa básica (base-rate fallacy)(introduzida na seção Baysianismo Comparativo)?

Encontre o seu próprio exemplo para demonstrar o uso do bayesianismo comparativo. Comece uma específica hipótese científica ou filosófica H, na qual seu crédito inicial é de 0.5. Descreva qualquer consideração única E que pareça ter alguma relevância para H. De acordo com o bayesianismo comparativo, como aprender sobre E deveria altera seu crédito em H? Explique o passo a passo.
O bayesianismo é a maneira pela qual os nossos cérebros “naturalmente” atualizam nossas crenças? Pesquisadores em IA (inteligência artificial) tem tido sucesso tremendo usando inferência bayesiana para aproximar algumas capacidades humanas. Isso sugere que nós poderíamos ter topado com o algoritmo que nosso cérebro esteve usando durante todo o tempo? (Ver o artigo, na seção de Leitura Adicional, “Are Our Brains Bayesian?” por Robert Bain)
Mapeando o Terreno: Abaixo você vê um roteiro (roadmap) do terreno epistemológico. Como a maioria das áreas da filosofia, você se encontrará em um ponto de escolha. Cada opção tem pros e contras, mas está para você defender sua posição, qualquer que seja o caminho pelo qual você prossiga. Você leu sobre os resultados da estrutura graduada (degreed framework), mas seria intelectualmente responsável ter alguma coisa para dizer sobre os problemas que cada posição herda. Como um exercício, determine qual dos problemas você considera que é o mais sério e decida qual posição você considera que é a mais defensável, todas as coisas consideradas. Escreva um miniensaio explicando a sua decisão.

A Casa Sempre Vence (The House Always Wins): Para obter uma percepção melhor de Dutch books, seria útil repetir o seguinte jogo. O exemplo envolve uma roleta (roulette wheel), mas, para simplicidade, nós apenas consideraremos apostas nos quais a bola aterrissará em um número na faixa 1-36 e um dos dois espaços verdes (0 e 00), produzindo um espaço de amostra (sample space)(o conjunto de todos os possíveis resultados individuais) de tamanho 38.

Primeiro considere o que aconteceria se você colocasse apostas em todas as 38 opções. Embora você vencerá algumas dessas, uma vez que você cobriu todas as opções, a maioria delas você perderá, garantindo uma perda líquida (net loss). Assim, isso é um Dutch book.

Agora, em vez disso, examine o que acontece quando você repete apostas únicas em sequência. Suponha que você comece com $200 e coloque $5 (mínimo) apostados na roleta simplificada. Primeiro, escolha um número no qual você desejaria apostar. Para vez se você venceu, use um gerador de números aleatórios (https://www.random.org/integers/) para gerar um número por vez na faixa 1-38 e assuma que 37 e 38 equivalham aos dois espaços verdes (0 e 00), respectivamente. Em seguida, repita. Para cada vitória, uso o espaço na tabela abaixo para registrar o seu ganho ou perda. Embora você poderia vencer de vez em quando, a longo prazo você perderá o seu pote inicial de dinheiro. Tente e veja quanto demora para alcançar esse ponto.

LEITURA ADICIONAL

Teoria Básica da Probabilidade

Brogaard, Berit. 2016. “‘Linda the Bank Teller’ Case Revisited.” Psychology Today (blog). 22 de November de 2016. https://www.psychologytoday.com/ca/blog/the-superhuman-mind/201611/linda-the-bank-teller-case-revisited

Hacking, Ian. 2001. An Introduction to Probability and Inductive Logic, capítulo 6. New York: Cambridge University Press.

Metcalf, Thomas. 2018. “The Probability Calculus.” In 1000-Word Philosophy: An Introductory Anthology. https://1000wordphilosophy.com/2018/09/23/introduction-to-the-probability-calculus/

Filosofia da Probabilidade

Metcalf, Thomas. 2018. “Interpretations of Probability.” In 1000-Word Philosophy: An Introductory

Anthology. https://1000wordphilosophy.com/2018/07/08/interpretations-of-probability/

Epistemologia Bayesiana

Carneades.org. 2014. “Bayesian Epistemology.” vídeo no YouTube, 3.02. 14 de Dezembro de 2014. https://www.youtube.com/watch?v=YRz8deiJ57E&list=PLz0n_SjOttTdIqlgDjdNFfLUFVrl5j1J4

Talbott, William. 2008. “Bayesian Epistemology.” In The Stanford Encyclopedia of Philosophy, editada por Edward N. Zalta. https://plato.stanford.edu/entries/epistemology-bayesian/

Considerações Explanatórias Relacionadas ao Bayesianismo

Sober, Elliott. 2015. Ockham’s Razors: A User’s Manual. New York: Cambridge University Press.

———. 2016. “Why Is Simpler Better?” Aeon. https://aeon.co/essays/are-scientific-theories-really-better-when-they-are-simpler

IA, Psciologia Cognitiva e Bayesianismo

Bain, Robert. 2016. “Are Our Brains Bayesian?” Significance 13 (4): 14–19. https://doi.org/10.1111/j.1740-9713.2016.00935.x

REFERÊNCIAS

Foley, Richard. 1992. “The Epistemology of Belief and the Epistemology of Degrees of Belief.” American Philosophical Quarterly 29 (2): 111–21.

Fombonne, Eric, Rita Zakarian, Andrew Bennett, Linyan Meng, and Diane Mclean-Heywood. 2006.

“Pervasive Developmental Disorders in Montreal, Quebec, Canada: Prevalence and Links with Immunizations.” Pediatrics 118 (1): 139–50.

Hájek, Alan. 2007. “The Reference Class Problem Is Your Problem Too.” Synthese 156: 563–85.

Kahneman, Daniel, and Amos Tversky. 1973. “On the Psychology of Prediction.” Psychological Review 80: 237–51.

Moon, Andrew. 2017. “Beliefs Do Not Come in Degrees.” Canadian Journal of Philosophy 47 (6): 760–78.

Tversky, Amos, and Daniel Kahneman. 1983. “Extensional versus Intuitive reasoning: The Conjunction Fallacy in Probability Judgment,” Psychological Review 90 (4): 293–315.

Vineberg, Susan. 2016. “Dutch Book Arguments.” In The Stanford Encyclopedia of Philosophy, editada por Edward N. Zalta. https://plato.stanford.edu/entries/Dutch-book/

Wakefield, A.J., et al. 1998. “RETRACTED: Ileal-Lymphoid-Nodular Hyperplasia, Non-Specific Colitis, and Pervasive Developmental Disorder in Children.” The Lancet 351 (9103). https://www.thelancet.com/journals/lancet/article/PIIS0140-6736(97)11096-0/fulltext

Capítulo 7

ORIGINAL:

LOPEZ, J. Epistemology, Probability, and Science. In. BARNETT, B.C. Introduction to Philosophy: Epistemology. Rebus Community: 2021. Disponível em: <https://press.rebus.community/intro-to-phil-epistemology/chapter/epistemology-probability-and-science/>

TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0

1 Referir-se aos capítulos 1-4 deste volume para os fundamentos da epistemologia tradicional.

2 Compare Moon (2017), quem distingue graus de confiança dos graus de crença. Nessa visão, crenças não vêm em graus.

3 Aqui nós deixamos o limite não especificado, uma vez que ele está em debate.

4 Referir-se ao capítulo 3 (https://press.rebus.community/intro-to-phil-epistemology/chapter/sources-of-knowledge-rationalism-empiricism-and-the-kantian-synthesis/), por K. S. Sangeetha, deste volume, para elucidação adicional da conexão entre analiticidade, possibilidade e necessidade.

5 Ver o capítulo 4 (https://press.rebus.community/intro-to-phil-epistemology/chapter/skepticism/), por Daniel Massey, deste volume, para esse e cenários céticos relacionados.

6 Alguns farão uma distinção entre suspensão/retirada do julgamento e não ter nenhuma atitude em relação a uma proposição (por exemplo, proposição que alguém não compreende ou sobre a qual nunca pensou). Se assim, o primeiro estaria localizado no meio da escala de confiança, ao passo que o segundo equivaleria a estar completamente fora da escala. Também vale notar que alguns epistemólogos identificarão a retirada de crença como uma variação (possivelmente vaga) que inclui o 0,5. Portanto, a crença corresponderia à parte da escala além daquela variação para cima até e incluindo 1, ao passo que a descrença corresponderia àquela parte da escala antecedendo àquela variação para baixo e incluindo 0.

7 “Classe de referência” algumas vezes é aplicada apenas a probabilidades estatísticas e uma interpretação “frequentista.” Mas outros generalizaram o significado de acordo com a maneira que eu estou usando o termo aqui. Ver Hájek (2007).

8 Uma vez que a regra da condicionalização não reflete nenhuma incerteza que nós temos sobre a evidência mesma, alguns bayesianos substituem essa regra por uma modificação chamada de “condicionalização de Jeffrey,” denominado em homenagem ao filósofo que a propôs, Richard Jeffrey (1926-2002). Referir-se à leitura adicional sobre a condicionalização de Jeffrey para mais sobre essa questão.

Mathesis

Páginas

terça-feira, 6 de setembro de 2022

Uma Introdução à Epistemologia 6 Epistemologia, Probabilidade e Ciência

Nenhum comentário:

Postar um comentário

Elementos de Lógica - Livro II - Capítulo I Das Operações da Mente e dos Termos

Arquivo do blog

Marcadores