Mathesis: AC, Antes dos Computadores 5 Mais Sobre o Alfabeto

segunda-feira, 28 de junho de 2021

AC, Antes dos Computadores 5 Mais Sobre o Alfabeto

AC, Antes dos Computadores: Sobre a Tecnologia da Informação, da Escrita à Era do Dado Digital

Por Stephen Robertson

[49]5 Mais Sobre o Alfabeto

Nós vimos quão importante foi o alfabeto para muitos desenvolvimentos posteriores em tecnologia da informação. Uma vez que nós temos um pequeno alfabeto fornecendo a unidade básica a partir da qual nos podemos construir o texto, muitas outras coisas tornam-se muito mais fáceis ou simplesmente possíveis. Dentre as invenções que eu discuti até agora, os exemplos mais marcantes são o da impressão de tipos móveis e a telegrafia.

Neste capítulo, eu examinarei mais quatro aspectos do alfabeto e da escrita alfabética. O primeiro é a maneira pela qual nós separamos palavras quando escrevemos, principalmente com espaços. O segundo resulta diretamente da telegrafia, e é a ideia de codificar letras ou caracteres com pulsos elétricos. Eventualmente, um pouco abstraído do meio especifico, os pulsos tornar-se-ão o que nós conhecemos como bits (as unidades básicas do dado digital, como nós veremos depois). O terceiro nós já vimos brevemente, com o telégrafo impresso de Hughes: é o teclado, com cada tecla representando uma letra ou outro caractere. Finalmente, eu discutirei a noção abstrata de um ‘caractere’, a qual tanto eu quanto as histórias que eu descrevi inventamos para muito simplificar. Mas primeiro, uma pequena anedota.

Meu pai foi um intelectual, acadêmico, escritor, nascido em 1911. Ele escreveu durante toda a vida – livros, artigos, análises, cartas, poemas. Sua caligrafia era quase ilegível; seu método principal de escrita era a máquina de escrever mecânica. Ele era um competente, ainda que às vezes impreciso, digitador – eu acredito que ele ensinou a si mesmo. A despeito de não ser em absoluto mecanicamente inclinado, ele chegou a alguma acomodação com suas máquinas de escrever – ele até aprendeu a mudar a fita (ribbon), o que leitores de uma certa idade podem lembrar exatamente de como era uma operação complicada. Como um escritor, ele tendia a fazer muito rascunho e reescrita. Então, quando mais tarde em sua vida, processadores de texto relativamente baratos tornaram-se disponíveis, ele eventualmente adquiriu um. Ele estava provavelmente no final de seus setenta ou oitenta anos.

Como com a máquina de escrever, ele tornou-se muito bom em fazer o processador de texto realizar o que ele desejava. Eu não lembro da forma, mas ele tinha uma [50]tela somente para texto de verde monocromático, um disquete, e um teclado mais ou menos convencional. Nenhum mouse; nem janelas: combinações especiais de teclas fariam coisas como mover o cursor de um ponto a outro da tela, ir ao final do texto, deletar palavras inteiras, salvar um documento. Tipicamente ele abriria um documento no qual ele já fizera muito trabalho, iria ao final, e começaria a adicionar a ele ou editar o trabalho dos dias anteriores. Quando abrindo um semelhante documento e indo ao final, ele frequentemente descobria que o cursor não estava efetivamente no final do texto visível, mas consideravelmente mais abaixo e à direita. Ele teria de usar as teclas de controle do cursor para retornar ao ponto onde ele queria estar.

Eu descobri que, quando deletando palavras ao final do texto existente (uma coisa que ele fazia muito frequentemente), ele não deletaria os espaços entre elas, ou os caracteres de nova linha – assim eles acumulariam no final de seu texto. É claro, eles eram invisíveis – tanto quando nos dizia respeito, tudo que ele tinha abaixo do texto era papel em branco. A ideia de que esse espaço aparentemente vazio estava efetivamente parcialmente cheio de caracteres invisíveis é realmente muito estranha – não admira que ele tivesse dificuldade para a reconhecer. Mas eu apenas tinha de indicar a ele que ele também poderia deletá-los.

Espaçamento de palavras

No inglês escrito de hoje, como na maioria dos sistemas escritos baseados em alfabetos, é normal separar as palavras que nós escrevemos, através de espaços – para não mencionar todas as outras coisas que podem vir entre palavras, tais como sinais de pontuação. Isso vem tão naturalmente para nós que não fazer assim parece perverso ao extremo. Mas esse nem sempre foi o caso. O período muito inicial da escrita não separava as palavras em absoluto, e até o período romano, embora alguma escrita marcasse as fronteiras entre palavras de alguma maneira, isso não era sempre ou consistentemente aplicado.

Não foi até os séculos VI e VII d.C. que monges de monastérios irlandeses começaram a fazer uso sistemático de espaçamento. Esse foi um período quando a cultura escrita do Ocidente foi principalmente mantida viva em monastérios, nas bibliotecas dos quais livros eram copiados à mão. Uma explicação um pouco irreverente da introdução de espaço entre palavras é que os monges irlandeses não eram muito bons em latim (a linguagem na qual todos os livros eram escritos). [51]Mas Paul Saenger, em seu livro Space Between Words: the Origins of Silent Reading, vincula a prática do espaçamento entre palavras à propagação da alfabetização e à prática de leitura silenciosa, na cabeça de alguém. Novamente, isso vem tão obviamente a nós na alfabetização universal do século XXI que é difícil imaginar a ausência dessa prática. Mas se nós retornássemos à Grécia antiga por um momento, a escrita era vista sob uma luz muito diferente. Um texto escrito era alguma coisa um pouco semelhante à nossa noção atual de uma partitura musical escrita: um roteiro (script) para um leitor especializado interpretar e ler em voz alta para uma audiência. Em um semelhante contexto, a noção de o tornar fácil para leitores simplesmente não aparece.

A propagação do espaçamento entre palavras deve muito a um monge inglês. No final do século VIII, Alcuíno, um monge bem conhecido, foi convidado pelo Rei Carlos Magno dos Francos para ir à sua corte em Aachen, a fim de educar os filhos de Carlos Magno. Entre as muitas contribuições para a cultura da corte e mais amplamente, Alcuíno contribuiu para o desenvolvimento de uma escrita altamente legível (o que nós poderíamos chamar de um tipo de letra (typeface)), minúscula carolíngia, e escreveu um manual de estilo escrito. Ele cobria muitas das coisas que nós agora tomamos como certas, incluindo pontuação, parágrafos, maiúsculas iniciais para sentenças – assim como espaço entre palavras.

Carlos Magno encorajou e presidiu um novo período de alta cultura, e eventualmente tornou-se o homem mais poderoso na Europa, reinando como Imperador sobre uma grande área. Dessa maneira a cultura e prática de sua corte espalharam-se por toda parte, e o uso dos espaços espalhou-se para outras escritas e linguagens. Abaixo nós veremos como o espaçamento entre palavras entra na era das telecomunicações.

Codificação das letras

Embora todos os sistemas de telégrafo dependem de ter um pequeno alfabeto, o homem que viu a conexão mais claramente foi Samuel Morse, junto com seu colaborador Alfred Vail. Seu grande salto adiante foi ver que nós podemos levar o processo uma etapa adiante, e trabalhar com um ‘alfabeto’ de apenas dois elementos: um pulso elétrico curto e um longo, geralmente referidos como ponto (dot) e traço (dash). O passo é simples, requerendo apenas um pequeno livro de código (codebook), e torna muito mais fácil pensar sobre processamento elétrico de texto.

Morse e Vail estavam muito conscientes da impressão de tipo móvel como inspirada [52]por algumas as mesmas considerações. O método de codificação Morse envolvia códigos de diferentes comprimentos para letras diferentes, e eles tiveram a inspiração, a qual é atualmente a base para alguns dos métodos modernos de compressão de dados, de que ele seria o mais eficiente se as letras mais comuns tivessem códigos curtos. Assim Vail visitou a oficina de tipógrafo (printer) de um periódico para contar os estoques de cada letra que eles mantinham – porque tipógrafos sabem muito bem exatamente que estoques manter para satisfazer a maioria dos requerimentos de impressão.

A ideia de codificação das letras nesse tipo de maneira passou por um número de versões desde a época dele. Os pulsos curtos e longos de Morse foram projetados para permitir os humanos codificarem e decodificarem facilmente, mas nós podemos pensar neles como qualquer par de estados distinguíveis (por exemplo, cima / baixo, ligado / desligado, preto / branco). Em seguida, nós precisamos de um número desses, espalhados no tempo ou espaço, em grupos. Um livro de código lista cada grupo distinto com o objeto que ele representa – por exemplo, o livro de código de Morse diz que a letra A é representada pelo grupo traço-ponto, e D por traço-ponto-ponto. Nesse caso, as coisas que nós queremos representar são as letras de nosso alfabeto usual.

Se nós pensarmos nesse par de elementos como ele mesmo um ‘alfabeto’ – em abstrato, em vez de em uma específica forma física – o que nós temos é o moderno conceito de um ‘bit’, um dígito binário. Usualmente, hoje em dia, nós pensamos nos dois estados como 0 e 1. Assim a letra A em Morse é 01, e D é 100. (o código Morse usa números diferentes de bits para letras diferentes, mas a maioria dos códigos aloca códigos em grupos de tamanho fixo.)

Efetivamente, Morse não foi o primeiro a usar um semelhante esquema de código binário para letras. O familiar sistema Braille de pontos em relevo (embossed dots) no papel (inventado por Louis Braille), projetado para permitir a cegos lerem com seus dedos, precede o código Morse por uma década ou aproximadamente. Os pontos estão em grupo de seis – quer dizer, o grupo é um arranjo retangular com seis posições, em cada uma das quais o ponto está presente ou ausente. O livro de código especifica que pontos estão efetivamente presentes para cada letra.

O posterior código de Baudot (inventado por Émile Baudot) usado para telex é um código de 5 dígitos de comprimento fixo. Um pequeno calculo mostrará a você que isso resulta em 32 combinações diferentes – o suficiente para as 26 letras do alfabeto latino, embora não para maiúsculas e minúsculas. Efetivamente isso não é bom o suficiente, mesmo se nós não nos importássemos com o tamanho da letra – ele não permite quaisquer marcas de pontuação ou os dígitos (Morse tem códigos para os dez dígitos e um ou dois para marcas de pontuação). Por essa razão o código de Baudot inclui um código shift – um pouco como [53]a tecla shift no teclado, ou mais precisamente uma tecla caps-lock – o que duplica os sentidos dos códigos restantes. O Braille usa um método similar para aumentar a variedade de caracteres representados.

Codificação para a era moderna

Conforme nós entravamos na era do computador nos anos 1960, novos sistemas de codificação forma definidos. De fato, houve dois principais códigos rivais, EBCDIC (pronunciado ebsidik, para máquinas IBM) e ASCII (pronunciado askey, para todos os outros computadores). Eu deixarei EBCDIC de lado, mas ASCII vale alguma discussão. O American Standard Code for Information Interchange é um sistema mais ambicioso do que o de Baudot, e foi usado para múltiplos propósitos na transmissão e armazenamento de dados no começo da era do computador, e de fato ainda está em uso. É um código de sete bits, permitindo um total de 132 combinações. Essas incluem as 26 letras, tanto maiúsculas quando minúsculas (fazendo 52), os dez dígitos (62), um número significante de marcas de pontuação e símbolos especiais (96), e 32 códigos para propósitos de controle. Variações menores desse sistema foram definidas para várias linguagens europeias com características não vistas em Inglês, por exemplo, caracteres acentuados. Variação mais sistemática é fornecida pelo código conhecido como ANSI, o qual se originou a partir do ASCII, mas tem páginas de código diferentes para diferentes linguagens. Cada página de código fornece uma codificação completa de um conjunto de caracteres para uma linguagem – mas o computador precisa ‘saber’ que página de código é usado para interpretar o ANSI corretamente.

O esquema de codificação conhecido como Unicode, o qual está atualmente se tornando o padrão para muitos propósitos, é um conjunto muito maior. Ele inclui não apenas caracteres para outros alfabetos que não o latino, por exemplo, grego, russo, arábico, mas também caracteres para linguagens não alfabéticas, por exemplo, japonês, chinês. Isso é um desenvolvimento fascinante: a ideia de uma codificação de caracteres somente poderia ter sido desenvolvida no contexto de um pequeno alfabeto; mas dada a ideia, agora se torna possível aplicá-la a conjunto de caracteres muito maiores. O Unicode em sua forma original completa requer 16 ou 32 bits para cada caractere, mas há codificações alternativas para o mesmo código, as quais permitem ao antigo conjunto ASCII de caracteres ser representado como tradicionalmente era, em oito bits. (Sim, eu sei que eu disse sete. O ASCII é um código de sete dígitos, mas uma vez que a maioria dos computadores opera com múltiplos de oito bits, o ASCII comumente é implantado em oito bits.)

[54]Embora ainda permaneçam algumas linguagens e escritas no mundo que ainda não foram incorporados no esquema, mesmo assim nós parecemos (no começo do século XXI) estar aproximando-nos do estado onde qualquer caractere de texto em qualquer linguagem pode ser representado através de um código binário padrão. Isso é uma realização notável.

O último alfabeto

O bit – o dígito binário, um caractere de um ‘alfabeto’ de duas letras – poderia ser visto como o estágio final de um processo que se iniciou quando nós começamos a investigar sistemas de escrita, alguma coisa como cinco milênios e meio atrás. No começo do terceiro milênio a.C., nós compreendemos que podemos representar qualquer registro através de dígitos. Não apenas linguagem, mas também, como nós veremos nós próximos capítulos, números, imagens, sons, imagens em movimento, e assim por diante. O alfabeto universal consiste em apenas dois símbolos, um ‘zero’ e um ‘um’.

Mas não é apenas uma questão de representação. Nós já vimos como o alfabeto auxiliou-nos em direção a novas maneiras de fazer coisas com informação. A impressão, e dessa maneira a revolução da publicação que a seguiu; e o código Morse, e a revolução telegráfica que o seguir: cada um desses teria sido inconcebível se nós não tivéssemos inventado o alfabeto em primeiro lugar. Agora, na nova revolução, as mudanças maiores resultam das maneiras de processar informação: de sistemas e métodos e mecanismos que operam com informação bastante na maneira como um tear (loom) opera sobre o material bruto do fio para produzir algo muito diferente, tecido. O envio de mensagens foi apenas uma semelhante operação; mas as possibilidades são quase infinitas.

A estranha história do teclado

Eu estou escrevendo este texto através de um aparelho que se tornou tão comum que ele quase passa sem ser notado: um teclado QWERTY. Isso é uma outra coisa que o alfabeto tornou possível. Embora meu controle possua mais do que 26 teclas, sua existência depende do pequeno número de caracteres possíveis – um teclado com uma tecla para cada um dos milhares de caracteres chineses distintos é bastante inconcebível.

Nós tivemos teclados para instrumentos musicais por séculos. Mas a [55]ideia de associar teclas com letras do alfabeto (ou com números, chegaremos a isso) esteve por aí desde o meio do século XIX pelo menos. Como nós já vimos, Hughes usou um teclado semelhante ao do piano para sua máquina semelhante ao telex. Várias tentativas foram feitas para desenvolver máquinas de escrever desde o começo daquele século.

Mas o desenvolvimento de uma máquina de escrever efetiva e utilizável teve de esperar até um pouco depois. O inventor primário foi Christopher Sholes; ao longo de um período de 1860 a 1890, ele e Remington, a companhia para a qual ele trabalhava e eventualmente vendeu, impulsionou a máquina de escrever do status de uma daquelas invenções vitorianas fascinantes mas impraticáveis àquele de um equipamento de negócio comum. Para fazer isso, Sholes teve de resolver um número de problemas mecânicos complexos. O design e o traçado do teclado que ele produziu, como um resultado do confronto com esses problemas mecânicos, está conosco até hoje. Se Sholes tivesse em andar em nosso escritório do século XXI, uma das poucas coisas que ele reconheceria deveria ser a sequência QWERTY em nosso teclado de computador. Quer dizer, isso é tão ainda mais extraordinário do que você possivelmente poderia ter imaginado.

Figura 2 Teclado QWERTY básico (como barras intercaladas de uma máquina de escrever tradicional). Diagrama: o autor.

Não é apenas sobre da sequência de letras que nós estamos falando aqui. Olhe para a figura 2 (se você um teclado por perto, compare-o ao do diagrama). Em particular, olhe para a maneira como as sucessivas filas de teclas estão deslocadas uma [56]da outra. Note que a linha ZXCVB está deslocada da linha ASDFG por uma tecla de largura; em outras palavras, Z está a meio caminho entre A e S. Também a linha QWERTY tem um deslocamento de meia linha da linha numérica. Mas o deslocamento entre a linha QWERTY e a linha ASDFG é – que? – um quarto de uma tecla? Mas por que diabos?

Não, mais certamente não é por qualquer razão ergonômica ou de facilidade de uso (ease-of-use); de fato, é bem difícil de aprender a usar. A razão é puramente mecânica. Imagine que cada tecla descansa no final de uma barra de metal, a qual surge das costas da máquina (onde o papel teria estado). Essas barras teriam de ser retas e paralelas – ou o movimento delas não seria verdadeiro quando pressionadas – e não podem ser permitidas interferir uma com a outra. Assim, elas têm de se cuidadosamente intercaladas. A barra Q vai entre a barra 1 e a barra 2, a W entre 2 e 3, isso é fácil. Mas agora a barra A tem de ir entre a barra Q e a barra 2, S entre W e 3; e Z entre 2 e W, e assim por diante. Agora você vê porque isso teve de ser assim.

É exatamente possível que você tenha um teclado que não siga essa convenção deslocada (off-set). Alguns PDAs e outras máquinas pequenas, e tablets com teclados em tela, têm a sequência QWERTY mas ou não usa o deslocamento em absoluto, ou usam um deslocamento universal de meia tecla. Mesmo se você for (digamos) francês, e tenha um daqueles teclados onde a sequência de letras é AZERTY ou alguma variação a partir de Sholes, você ainda terá aqueles deslocamentos. Alguns teclados são divididos em duas partes, por razões ergonômicas associadas com a maneira que você posiciona suas mãos; mas eles ainda usam os deslocamentos de Sholes em cada metade.

Mas, você pode argumentar, meu teclado não tem mais aquelas barras de metal: de fato, você tem de ser de uma certa idade até para lembrar da existência delas. Hoje em dia, cada tecla opera seu próprio microinterruptor (microswitch), e elas poderiam ser arranjadas de qualquer maneira que escolhêssemos. Então, por que nós persistimos em usar esses deslocamentos? Bem, isso é parte da história.

Guerras de teclado

Entre os anos 1880 e 1890, várias companhias rivais de máquinas de escrever foram formadas, e um número de arranjos diferentes de teclados estavam em uso. Outra característica do teclado de Sholes é que quando eles introduziram minúsculas e maiúsculas, eles o fizeram através da familiar tecla shift – a qual [57]agora, é claro, era acompanhada por umas poucas imitadoras, como as teclas control CTRL e alternate ALT. Mas, pelo menos uma das companhias rivais precisamente adicionou mais teclas, assim, aquelas letras maiúsculas e minúsculas ficaram em teclas separadas.

Conforme a escrita em máquinas de escrever tornava-se mais comum, escolas para treinar datilógrafos foram estabelecidas, e vários sistemas de dedilhado foram inventados para os diferentes teclados para ajudarem os datilógrafos a trabalharem mais rápido – os primeiros datilógrafos eram quase certamente datilógrafos de um ou dois dedos. Afirmações e contestações eram feitas sobre as velocidades relativas dessas combinações diferentes. E muito em breve elas tornaram-se competições.

Um método de 8 dedos foi inventado por Margaret Longley, quem administrava uma escola, no começo dos anos 1880. Ela aplicou esse método a diferentes formas de máquinas de escrever – mas, como aplicado ao teclado Sholes, é similar ao dedilhado ensinado hoje em dia. Frank McGurrin, um estenógrafo de tribunal, usou-o com grande habilidade em uma Remington inicial. Outro estudante e posterior diretor na escola Longley, Louis Traub, usou um dedilhado similar na máquina Caligraph com um teclado de seis filas.

A primeira competição, em 1888, lançou Traub contra McGurrin. Mas McGurrin tinha uma carta na manga. O truque era que ele descobrira que poderia memorizar o traçado do teclado, não olhando para o teclado enquanto datilografando, mas para o papel (ele também podia datilografar de olhos vendados). Ele inventou o que nós conhecemos como digitação (touch-typing).

Isso revelou-se ser muito bom. McGurrin venceu completamente Taub, quem logo depois mudou para uma Remington. McGurrin prosseguiu para vencer muito mais competições; e o teclado nunca mais olhou para trás. Gradualmente, as companhias rivais adotaram o traçado Sholes. Ter um único sistema, um traçado padrão de teclado e um método de datilografia, foi uma grande vantagem do ponto de vista do trabalho. Há um relato encantador desse evento no ensaio The Panda’s Thumb of Technology, por Stephen Jay Gould, publicado na coleção Bully for Brontosaurus.

No século XX, era comum denegrir o teclado de Sholes, e afirmar que era muito ineficiente e não ergonômico para o datilógrafo (até que foi projetado para desacelerar o datilógrafo, o que efetivamente não é o caso). Um sistema rival foi projetado em bases ergonômicas, o teclado Dvorak, o qual possui a mesma estrutura básica que o Sholes mas um arranjo muito diferente das letras. Em uma série de experimentos, foi demonstrado que Dvorak era mais fácil de aprender e mais rápido de datilografar que o Sholes. Contudo, [58]o teclado Shoes estava então tão bem estabelecido que se provou impossível de desalojar. De fato, os experimentos (um pouco como a competição de 1888) eram um pouco suspeitos como evidência científica; provavelmente as diferenças não eram muito grandes. Além disso, Dvorak não fez nada em absoluto quanto aos deslocamentos, o que certamente era uma das fontes de problemas ergonômicos com o teclado Sholes.

Na segunda metade do século XX, nós vimos o desenvolvimento de (sucessivamente, a propósito) a máquina de escrever bola de golf (golf-ball typewriter) da IBM, o processador de texto, o PC, o laptop. Com cada um desses desenvolvimento, nós poderíamos, em princípio, ter abandonado Sholes e inventado alguma coisa que poderia ter sido melhor. Mas essa não é a maneira que as coisas funcionam: as tecnologias têm de coexistir; pessoas têm de mudar entre elas; pessoas têm de maximizar os benefícios que elas obtêm do investimento que colocaram em aprender alguma coisa. Se você for um datilógrafo experiente, seu dedos lembram-se não apenas das localizações das letras, mas também dos deslocamentos. Mesmo mover ASDFG um quarto de tecla para a direita, de maneira que todos os deslocamentos fossem de meias teclas, confundiria você.

Uma vez eu assinalei os deslocamentos para um homem com habilidade de digitação (touch-typing) que tinha conseguido transferi-las para um daqueles teclados de PDA minúsculos, de aproximadamente dez centímetros de largura. Os projetistas deste teclado retiveram o traçado QWERTY, mas (obviamente não esperando ninguém efetivamente digitar (touch-type) nele) tornaram todos os deslocamentos de meia tecla. A reposta instantânea a ele foi “Eu sabia que havia algo errado com ele!”

Todas essas coisas conspiraram para assegurar a persistência de quase todo aspecto do projeto de Sholes, incluindo os deslocamentos. Projetistas de laptops, com as limitações bastante severas de espaço deles, inventaram de seguir os deslocamentos de Sholes mas fazendo uso interessantes deles, ao mudar as formas das teclas nas extremidades laterais do teclado, de modo a caberem em um retângulo. O laptop no qual eu estou digitando exatamente agora tem uma tecla shift de tamanho normal na esquerda, próxima do \, próxima do Z, mas acima dela há uma tecla Caps Lock de um tamanho e meio próxima ao A, e uma tecla Tab de um tamanho e um quarto próxima ao Q. À direta, há uma tecla de Return que é um L de cabeça para baixo cobrindo duas fileiras, e uma tecla Backspace de um tamanho e um terço. No topo há uma fileira de teclas de função menores que o padrão, de modo que mais possa ser encaixado em uma fileira, com um pouco mais à direita abaixo.

[59]Outras linguagens

É claro, há alguma variação entre países e línguas. Idiomas que usam o alfabeto romano não têm de fazer muito para fazer Sholes funcionar para elas – talvez adicionar uns poucos acentos ou caracteres especiais. Alfabetos não romanos obviamente necessitam de mudança mais drástica; mas é realmente apenas uma questão de fazer substituições. Mas e quanto a linguagens não alfabéticas? O chinês, por exemplo, possui muito mais caracteres do que possivelmente poderiam ser representados em um teclado semelhante a Sholes.

Houve uma forma de máquina de escrever desenvolvida para o chinês. Ela consistia em uma bandeja (tray) de vários milhares de caracteres de metal em relevo (embossed), cada um em uma imagem espelho, como aqueles de uma máquina de escrever ocidental tradicional. Mas nesse caso os caracteres estão todos separados, não unidos a qualquer parte de maquinaria. A fim de datilografar um caractere, o datilógrafo tem de localizar um quadro móvel acima do caractere correto, então pressionar uma alavanca, o que causa o caractere ser erguido da bandeja e chocar-se contra a fita e papel. Embora fosse possível alcançar velocidades bem rápidas de datilografia (se mediado em palavras por minutos), ela requeria do datilógrafo treinar por uma dupla de anos.

Hoje em dia, na China e no Oeste, muito de semelhante trabalho é feito em computadores, com teclados ocidentais (ou seja, Sholes). Há uma dupla de diferentes maneiras de datilografar chinês em um teclado ocidental (envolvendo muitos pressionamentos de teclas por caractere e / ou menus), o que, obviamente, tem de ser aprendido. Mas essencialmente isso é muito mais fácil de fazer do que tentar construir uma representação direta do chinês em um teclado.

O que Sholes deveria pensar?

Retornemos, por um momento, à fantasia de comunicação através do tempo com Christopher Sholes.

Se você retornasse a 1877 e explicasse a Sholes que o projeto dele de teclado ainda estaria em uso no começo do milênio seguinte, a despeito do fato de que cada uma das restrições mecânicas que determinaram o projeto terem desaparecido, ele poderia ficar lisonjeado, mas provavelmente consideraria você um pouco louco. Se você acrescentasse que um teclado baseado no projeto dele estaria unido a praticamente qualquer aparelho semelhante a uma máquina de escrever no mundo, incluindo a China – ele certamente não teria dúvida de que você estava [60]comprovadamente insano.

Contudo, no começo do terceiro milênio d.C., tal é o caso.

O conceito de um caractere

Antes, eu fiz referência a ‘letras ou outros caracteres’. Nós já havíamos visto as letras do alfabeto e os dígitos dos sistemas de numeração arábico como caracteres, e invenções tais como a máquina de escrever ou esquema de codificação ASCII dão-nos caracteres extras tais como marcas de pontuação e símbolos de moedas. De vez em quando, um símbolo antigo é ressuscitado para um propósito inteiramente novo. Considere, por exemplo, o sinal @, o qual costumava ser usado para indicar o preço unitário de alguma mercadoria (‘2lbs margarina @ 4d por lb = 8d’, lb sendo um peso em libra e d sendo um penny na antiga moeda do Reino Unido). O @ agora foi assumido universalmente como sinal de endereço de e-mail e para outros usos.

Um caractere para o qual o ASCII tem um código (embora nem Morse nem Baudot tinham) é o famoso espaço entre palavras, o qual eu discuti antes neste capítulo. A esse respeito o ASCII, seguindo o Baudot antes dele e inspirado pela máquina de escrever, expandiu um pouco a noção de um caractere. Seguindo a barra de espaço na máquina de escrever (a qual é tratada muito como uma letra invisível), o ASCII define espaço como um caractere ‘imprimível’, distinto de caracteres de controle como newline ou tab. Agora nos tornamos completamente familiares com a ideia de que o espaço é apenas outro caractere. Além disso, a distinção ASCII entre caracteres imprimíveis e de controle agora parece bastante estranha, pelo menos para programadores de computador. Mesmo Tab ou Newline são apenas outros caracteres, com suas próprias teclas no teclado e seu próprio código no sistema de codificação.

Como um aparte, uma fonte imensa de confusão e problemas com máquinas resultou do fato de que, a despeito do ASCII, não tem havido nenhum acordo sobre que caractere deveria ser usado para representar o fim de uma linha. O ASCII tem dois, definidos como ‘retorno de carruagem (carriage return)’ (CR) e ‘alimentação de linha (line feed)’ (LF), ambos os termos agora sendo relíquias de máquinas de escrever tradicionais – um CR move-se de volta para o começo da linha na página digitada, e um LF avança uma linha abaixo na página. Arquivos no sistema operacional Windows têm linhas terminando com CRLF, no sistema UNIX a convenção é LF, e no Apple Mac costumava ser CR. E essa não é uma lista exaustiva das convenções que têm sido usadas!

[61]O ASCII também distingue claramente (como Morse fez antes) entre letras e números. A máquina de escrever Sholes por um lado tinha teclas de dígitos de 2-9 mas não para zero ou um; a convenção de máquinas de escrever era usar o ‘éle’ minúsculo para um e o ‘ô’ maiúsculo para zero.

Eu assumi, e tanto a máquina de escrever quanto o código ASCII encorajaram-se a assumir, que há coisas bem definidas, separáveis, chamadas de caracteres, não apenas em sistemas alfabéticos, mas em silabários e outros esquemas de escrita. Isso é algo como uma simplificação excessiva; nós podemos ver esquisitices mesmo no interior do ASCII, e mais ainda quando nós consideramos outras linguagens além do inglês. Efetivamente, muito do sistema de caractere mais limpo é o chinês: cada caractere é autocontido e ocupa um bloco quadrado na página – belamente simples, se você esquecer por um momento sobre o número de caracteres diferentes.

Uma esquisitice no ASCII é que ele tem dois códigos para cada letra inglesa: minúscula e maiúscula. O códio ASCII para ‘A’ é diferente daquele para ‘a’. Há alguma razão para isso – embora haja certas regras sobre quanto usar maiúsculas e quando usar minúsculas, essas regras não são claras ou inequívocas o suficiente para nós deixarmos a decisão para uma máquina. Assim, quando nós estamos datilografando, nós usamos a tecla shift para indicar uma letra maiúscula, e a codificação é feita de acordo.

Nós facilmente poderíamos ter decidido fazer da tecla shift um caractere no seu próprio direito, um código de controle dizendo para a máquina ‘Agora, vá de maiúscula’, ou para aplicar apenas ao caractere seguinte, ou ‘travando (locking)’ e requerendo um código correspondente ‘diminua novamente (down-again)’ (esse último método é usado no sistema Baudot para representar números). Mas nós não o fizemos. Por outro lado, nós tipicamente usamos esse método para representar variações de fonte ou tipo de letra; eu tive de usar um pouco de semelhante convenção para produzir itálico (italics) e negrito (boldface) neste livro. Nós não temos códigos separados para o romano A, itálico A e / ou negrito A.

Essa decisão tem muitas ramificações. Pense, por exemplo, em como nomes são tipicamente organizados em um diretório, ou palavras em um dicionário ou um índice. Tradicionalmente nós não distinguimos entre maiúsculas e minúsculas quando arranjando coisas em ordem de dicionário. De modo semelhante, nós esperamos que os modernos motores de busca não distingam. Mas essas expectativas requerem que nossas máquinas sejam ditas que (para alguns propósitos, pelo menos) ‘A’ e ‘a’ são o mesmo

Em árabe, cada letra não tem duas mas quatro formas diferentes. Mas aqui as [62]regras são bastante claras: as quatro formas ocorrem quando a letra é (1) no começo de uma palavra, (2) no final de uma palavra, (3) em outra posição em uma palavra, e (4) sozinha. Embora construir uma máquina de escrever tradicional que faça isso seja difícil, essa decisão agora pode ser seguramente deixada para uma máquina, assim somente um código para a letra é necessário.

Na impressão em inglês, nós temos algumas letras que são comumente, em muitos tipos de letras (typeface), juntas – chamadas de ligaduras (ligatures). Os exemplos mais comuns são f l, representada como fl, e f i, representada como fi. O sistema de composição tipográfica (typesetting) que eu estou usando neste livro fará essas ligaduras automaticamente para mim (exceto que eu tenha dito para não o fazer quando eu mostrar as letras separadamente). Em livros mais antigos, você algumas vezes vê outras ligaduras (por exemplo, s e t algumas vezes estão juntas), embora a maioria das outras ligaduras extinguiram-se. Também é tradicional formar um único caractere de um ‘a’ seguido por um ‘e’ em algumas circunstâncias, por exemplo ‘ archæology(arqueologia)’. Mas esse exemplo é mais complicado, por duas razões. Primeiro, ele apenas se aplica a algumas palavras de origem latina, não é uma regra para quando essas letras ocorrem juntas. Segundo, se alguma vez for encontrada em inglês moderno, é considerado como uma ligadura das duas letras ‘a’ e ‘e’ – a ordem de dicionário trata-o como duas letras separadas. Mas nas linguagens escandinavas e em inglês antigo, esse caractere é considerado como uma letra no seu direito, com uma posição na ordem alfabética distinta das duas vogais componentes.

Conforme nos exploramos outras linguagens, nós descobrimos muitos exemplos complexos. Em alemão há o símbolo do s duplo ß (não obstante tratado como dois esses em ordem alfabética.) Em espanhol nós temos uma letra que é impressa como ll (dois éles), mas é considerada como uma letra no seu próprio direito, com sua própria posição alfabética. Decorações em caracteres, tais como acentos ou tremas ou cedilhas, introduzem suas próprias complicações. O sânscrito é escrito em um sistema alfabético (a escrita Devanagari), mas todas as letras que formam uma sílaba são juntas por ligadura em um único símbolo-silaba; há centenas de ligaduras diferentes o sânscrito e o árabe também compartilham a propriedade de que as vogais são tipicamente consideradas como decorações nas consoantes, em vez de letras no seu próprio direito.

Essas complexidades são difíceis de se lidar em um sistema de codificação; eventualmente, em vez de representar caracteres autocontidos, alguns códigos têm de ser usados para representar instruções para a máquina de como interpretar os caracteres, ou de como os apresentar em forma legível.

[63]Assim a ideia de um ‘caractere’ é um pouco complexa. Nós, falantes e escritores em inglês, somos sortudos de ser poupados de algumas dessas complexidades. E, apenas possivelmente, o desenvolvimento da computação no mundo de língua inglesa beneficiou-se da simplicidade relativa de nossa escrita.

Próximo capítulo

ORIGINAL:

Robertson, Stephen, B C, Before Computers: On Information Technology from Writing to the Age of Digital Data. Cambridge, UK: Open Book Publishers, 2020. p.49-63. Disponível em: <https://doi.org/10.11647/OBP.0225>

TRADUÇÃO:

EderNB do Blog Mathesis

Licença: CC BY 4.0

Mathesis

Páginas

segunda-feira, 28 de junho de 2021

AC, Antes dos Computadores 5 Mais Sobre o Alfabeto

Nenhum comentário:

Postar um comentário

Elementos de Lógica - Livro II - Capítulo I Das Operações da Mente e dos Termos

Arquivo do blog

Marcadores