Os chatbots de IA precisam de mais livros para aprender, e várias bibliotecas dos EUA emprestam livros a eles.

Selecione o idioma

Portuguese

Down Icon

Selecione o país

Spain

Down Icon

Os chatbots de IA precisam de mais livros para aprender, e várias bibliotecas dos EUA emprestam livros a eles.

Os chatbots de IA precisam de mais livros para aprender, e várias bibliotecas dos EUA emprestam livros a eles.

Tudo o que ouvimos na internet foi apenas o começo do ensino da inteligência artificial sobre a humanidade. Agora, as empresas de tecnologia estão se voltando para um repositório de conhecimento ainda mais antigo : as estantes das bibliotecas .

Quase um milhão de livros publicados desde o século XV — e em 254 idiomas — fazem parte de um acervo da Universidade de Harvard recentemente compartilhado com pesquisadores. Tesouros de jornais antigos e documentos governamentais mantidos pela Biblioteca Pública de Boston serão incluídos em breve.

Abrir os cofres para acessar tomos centenários pode significar uma riqueza de dados para empresas de tecnologia que enfrentam processos judiciais de romancistas, artistas visuais e outros cujos trabalhos criativos foram usados ​​sem seu consentimento para treinar chatbots de IA.

Domínio público

“É uma decisão prudente começar com informações de domínio público porque elas são menos controversas neste momento do que o conteúdo que ainda está protegido por direitos autorais”, disse Burton Davis, conselheiro geral adjunto da Microsoft.

Davis observou que as bibliotecas também possuem "grandes quantidades de dados culturais, históricos e linguísticos interessantes", que têm estado ausentes nas últimas décadas dos comentários online com os quais os chatbots de IA têm aprendido em grande parte. O medo de ficar sem informações também levou os desenvolvedores de IA a recorrer a dados "sintéticos", criados pelos próprios chatbots e de qualidade inferior.

Com o apoio de doações irrestritas da Microsoft e da OpenAI, criadora do ChatGPT, a Institutional Data Initiative, sediada em Harvard , está trabalhando com bibliotecas e museus ao redor do mundo para tornar suas coleções históricas prontas para IA de uma forma que também beneficie as comunidades que atendem.

“Estamos tentando transferir parte do poder que atualmente está nas mãos da IA ​​de volta para essas instituições”, disse Aristana Scourtas, que lidera a pesquisa no Laboratório de Inovação em Bibliotecas da Faculdade de Direito de Harvard . “Bibliotecários sempre foram administradores de dados e informações.”

Chatbots. Arquivo Clarín. Chatbots. Arquivo Clarín.

O conjunto de dados recém-lançado por Harvard, Institutional Books 1.0, contém mais de 394 milhões de páginas digitalizadas . Uma das obras mais antigas remonta ao século XV: reflexões manuscritas de um pintor coreano sobre o cultivo de flores e árvores. A maior concentração de obras é do século XIX, sobre temas como literatura, filosofia, direito e agricultura — todas meticulosamente preservadas e organizadas por gerações de bibliotecários.

Melhore a precisão

Promete ser muito benéfico para desenvolvedores de IA que tentam melhorar a precisão e a confiabilidade de seus sistemas.

“Muitos dos dados utilizados no treinamento de IA não vêm de fontes originais”, observou Greg Leppert, diretor executivo da iniciativa de dados e diretor de tecnologia do Centro Berkman Klein para Internet e Sociedade de Harvard, uma organização focada no estudo do ciberespaço. Esta coleção de livros abrange “até a cópia física que foi digitalizada pelas instituições que efetivamente coletaram esses materiais”, acrescentou.

Antes do ChatGPT desencadear um frenesi comercial em inteligência artificial, a maioria dos pesquisadores de IA não estava particularmente interessada na procedência dos trechos de texto que extraíam da Wikipédia, de fóruns de mídia social como o Reddit e, às vezes, de vastos repositórios de livros pirateados . Eles só precisavam do que os cientistas da computação chamam de tokens: unidades de dados, cada uma das quais pode representar um fragmento de uma palavra.

Chatbots.REUTERS/Dado Ruvic/Ilustração Chatbots.REUTERS/Dado Ruvic/Ilustração

A nova coleção de treinamento de IA de Harvard tem cerca de 242 bilhões de tokens, uma quantidade difícil de ser compreendida por humanos , mas ainda assim é apenas uma gota no oceano do que está sendo alimentado nos sistemas de IA mais avançados. Por exemplo, a Meta, empresa controladora do Facebook, afirmou que a versão mais recente de seu extenso modelo de linguagem de IA foi treinada em mais de 30 trilhões de tokens extraídos de texto, imagens e vídeos.

A Meta também está enfrentando um processo movido pela comediante Sarah Silverman e outros autores publicados que acusam a empresa de roubar seus livros de “bibliotecas fantasmas” de obras pirateadas.

Agora, com algumas reservas, as bibliotecas reais estão impondo suas condições.

Violações de direitos autorais

A OpenAI, que também enfrenta uma série de processos por violação de direitos autorais, doou US$ 50 milhões este ano para um grupo de instituições de pesquisa, incluindo a Biblioteca Bodleian da Universidade de Oxford, com 400 anos, que está digitalizando livros raros e usando IA para transcrevê-los.

Quando a empresa abordou pela primeira vez a Biblioteca Pública de Boston, uma das maiores dos Estados Unidos, a biblioteca deixou claro que qualquer informação digitalizada estaria disponível para todos , compartilhou Jessica Chapel, diretora de serviços digitais e online.

“A OpenAI tinha interesse em grandes quantidades de dados de treinamento. Nós temos interesse em grandes quantidades de objetos digitais. Então, este parece ser um caso em que os interesses estão coincidindo ”, disse Chapel.

A digitalização é cara. Por exemplo, a biblioteca de Boston dedicou um trabalho árduo à digitalização e organização de dezenas de jornais da Nova Inglaterra em francês, amplamente distribuídos no final do século XIX e início do século XX entre as comunidades de imigrantes canadenses em Quebec. Agora que esse texto está sendo usado para treinar a IA, ele está ajudando a financiar projetos que os bibliotecários desejam realizar de qualquer maneira.

Chatbots.REUTERS/Dado Ruvic/Ilustração Chatbots.REUTERS/Dado Ruvic/Ilustração

O acervo de Harvard já havia começado a ser digitalizado em 2006 para outro gigante da tecnologia, o Google, em seu controverso projeto de criar uma biblioteca on-line pesquisável com mais de 20 milhões de livros.

O Google passou anos se defendendo de ações judiciais movidas por autores sobre sua biblioteca online , que incluía muitas obras mais recentes protegidas por direitos autorais. Finalmente, encontrou uma solução em 2016, quando a Suprema Corte dos EUA confirmou decisões de instâncias inferiores que rejeitavam alegações de violação de direitos autorais.

95 anos de proteção

Agora, pela primeira vez, o Google trabalhou com Harvard para extrair volumes do Google Livros do domínio público e abrir caminho para seu compartilhamento com desenvolvedores de IA. A proteção de direitos autorais nos Estados Unidos normalmente dura 95 anos, e mais ainda para gravações sonoras.

A nova iniciativa foi aplaudida pelo mesmo grupo de autores que processou o Google por seu projeto de livro e que mais recentemente levou empresas de IA aos tribunais.

“Muitos desses títulos existem apenas nas estantes das principais bibliotecas, e a criação e o uso deste conjunto de dados ampliarão o acesso a esses volumes e ao conhecimento que eles contêm”, afirmou Mary Rasenberger, diretora executiva do Writers Guild, em um comunicado. “Acima de tudo, a criação de um conjunto abrangente de dados jurídicos para treinamento democratizará a criação de novos modelos de IA.”

Fotografia fornecida pelo Google mostrando as duas páginas de posts do Gemini, o chatbot de inteligência artificial (IA) do Google. EFE/Google Fotografia fornecida pelo Google mostrando as duas páginas de posts do Gemini, o chatbot de inteligência artificial (IA) do Google. EFE/Google

Ainda não se sabe o quão útil tudo isso será para a próxima geração de ferramentas de IA , já que os dados são compartilhados na plataforma Hugging Face, que hospeda conjuntos de dados e modelos de IA de código aberto que qualquer pessoa pode baixar.

A coleção de livros é mais diversificada linguisticamente do que as fontes de dados típicas da AI. Menos da metade dos volumes está em inglês, embora as línguas europeias continuem predominantes, especialmente alemão, francês, italiano, espanhol e latim.

Imensamente crucial

Uma coleção de livros imersos no pensamento do século XIX também poderia ser "imensamente crucial" para as tentativas da indústria de tecnologia de criar agentes de IA que possam planejar e raciocinar tão bem quanto os humanos, observou Leppert.

“Na universidade, você tem muito material didático sobre o que significa raciocínio”, observou ele. “Você tem muita informação científica sobre como executar processos e como realizar análises.”

Ao mesmo tempo, há também muitos dados desatualizados , desde teorias científicas e médicas desacreditadas até narrativas racistas e coloniais.

"Quando você lida com um conjunto de dados tão grande, há algumas questões complicadas em torno de conteúdo e linguagem prejudiciais", disse Kristi Mukk, coordenadora do Laboratório de Inovação da Biblioteca de Harvard, que disse que a iniciativa busca fornecer orientação para mitigar os riscos do uso de dados, "ajudando assim os usuários a tomarem suas próprias decisões informadas e usarem a IA de forma responsável".

Com informações da Associated Press.

Clarin

Clarin

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow