Les chatbots IA ont besoin de plus de livres pour apprendre. Ces bibliothèques ouvrent leurs rayons.

CAMBRIDGE, Massachusetts – Tout ce qui a été dit sur Internet n'était que le début d'une éducation à l'intelligence artificielle sur l'humanité. Les entreprises technologiques exploitent désormais un ancien réservoir de connaissances : les bibliothèques.
Près d'un million de livres publiés dès le XVe siècle – et en 254 langues – font partie d'une collection de l'Université Harvard mise à la disposition des chercheurs en IA jeudi. Des trésors de vieux journaux et de documents gouvernementaux conservés par la bibliothèque publique de Boston seront également bientôt disponibles.
Ouvrir les coffres-forts de livres vieux de plusieurs siècles pourrait être une mine d'or pour les entreprises technologiques qui luttent contre les poursuites judiciaires de romanciers vivants , d'artistes visuels et d'autres dont les œuvres créatives ont été récupérées sans leur consentement pour former des chatbots d'IA.
« C'est une décision prudente de commencer avec des données du domaine public, car elles sont moins controversées à l'heure actuelle que le contenu qui est toujours protégé par le droit d'auteur », a déclaré Burton Davis, avocat général adjoint chez Microsoft.
Davis a déclaré que les bibliothèques détiennent également « des quantités importantes de données culturelles, historiques et linguistiques intéressantes » qui manquent aux commentaires en ligne des dernières décennies dont les chatbots IA ont principalement tiré des leçons.
Soutenue par des « dons sans restriction » de Microsoft et du créateur de ChatGPT OpenAI, l'Initiative de données institutionnelles basée à Harvard travaille avec des bibliothèques du monde entier sur la manière de rendre leurs collections historiques compatibles avec l'IA d'une manière qui profite également aux bibliothèques et aux communautés qu'elles servent.
« Nous essayons de redonner une partie du pouvoir de l'IA actuelle à ces institutions », a déclaré Aristana Scourtas, responsable de la recherche au Library Innovation Lab de la faculté de droit de Harvard. « Les bibliothécaires ont toujours été les gardiens des données et de l'information. »
La nouvelle base de données de Harvard, Institutional Books 1.0, contient plus de 394 millions de pages papier numérisées. L'une des premières œuvres date du XVe siècle : les réflexions manuscrites d'un peintre coréen sur la culture des fleurs et des arbres. La plus grande concentration d'œuvres date du XIXe siècle, sur des sujets tels que la littérature, la philosophie, le droit et l'agriculture. Toutes ces œuvres ont été soigneusement conservées et organisées par des générations de bibliothécaires.
Cela promet d’être une aubaine pour les développeurs d’IA qui tentent d’améliorer la précision et la fiabilité de leurs systèmes.
« Une grande partie des données utilisées pour la formation en IA ne proviennent pas de sources originales », a déclaré Greg Leppert, directeur exécutif de l'initiative, également technologue en chef au Berkman Klein Center for Internet & Society de Harvard. Cette collection de livres remonte « jusqu'à la copie physique numérisée par les institutions qui ont collecté ces documents », a-t-il précisé.
Avant que ChatGPT ne déclenche un engouement commercial pour l'IA, la plupart des chercheurs en IA ne se souciaient guère de la provenance des passages de texte extraits de Wikipédia, de forums de médias sociaux comme Reddit et parfois de vastes dépôts de livres piratés. Ils avaient simplement besoin de ce que les informaticiens appellent des jetons – des unités de données, chacune pouvant représenter un fragment de mot.
La nouvelle collection d'entraînement d'IA de Harvard compte environ 242 milliards de jetons, un montant difficile à imaginer pour les humains, mais qui ne représente qu'une infime partie de ce qui alimente les systèmes d'IA les plus avancés. Meta, la société mère de Facebook, par exemple, a déclaré que la dernière version de son modèle de langage d'IA à grande échelle a été entraînée sur plus de 30 000 milliards de jetons extraits de textes, d'images et de vidéos.
Meta est également confronté à un procès intenté par la comédienne Sarah Silverman et d'autres auteurs publiés qui accusent l'entreprise d'avoir volé leurs livres dans des « bibliothèques fantômes » d'œuvres piratées.
Aujourd’hui, malgré quelques réserves, les vraies bibliothèques se lèvent.
OpenAI, qui se bat également contre une série de poursuites en matière de droits d'auteur , a fait don de 50 millions de dollars cette année à un groupe d'institutions de recherche, dont la bibliothèque Bodleian de l'Université d'Oxford, vieille de 400 ans, qui numérise des textes rares et utilise l'IA pour les aider à les transcrire.
Lorsque l'entreprise a contacté pour la première fois la bibliothèque publique de Boston, l'une des plus grandes des États-Unis, la bibliothèque a clairement indiqué que toutes les informations qu'elle numérisait seraient destinées à tous, a déclaré Jessica Chapel, sa responsable des services numériques et en ligne.
« OpenAI s'intéressait aux volumes massifs de données d'entraînement. Nous nous intéressons également aux volumes massifs d'objets numériques. Il s'agit donc simplement d'un cas où les choses s'harmonisent », a déclaré Chapel.
La numérisation coûte cher. Par exemple, la bibliothèque de Boston a dû déployer un travail minutieux pour numériser et organiser des dizaines de journaux francophones de la Nouvelle-Angleterre, largement lus à la fin du XIXe et au début du XXe siècle par les communautés d'immigrants canadiens du Québec. Maintenant que ces textes servent de données de formation, ils contribuent au financement de projets que les bibliothécaires souhaitent de toute façon entreprendre.
« Nous avons été très clairs : nous sommes une bibliothèque publique », a déclaré Chapel. « Nos collections sont destinées à un usage public, et tout ce que nous avons numérisé dans le cadre de ce projet sera rendu public. »
La collection de Harvard a déjà été numérisée à partir de 2006 pour un autre géant de la technologie, Google, dans le cadre de son projet controversé de création d'une bibliothèque en ligne consultable de plus de 20 millions de livres.
Google a passé des années à repousser les recours judiciaires des auteurs concernant sa bibliothèque de livres en ligne, qui comprenait de nombreuses œuvres récentes et protégées par le droit d'auteur. L'affaire a finalement été réglée en 2016, lorsque la Cour suprême des États-Unis a confirmé les décisions des tribunaux inférieurs qui avaient rejeté les plaintes pour violation du droit d'auteur.
Pour la première fois, Google a collaboré avec Harvard pour récupérer des ouvrages du domaine public sur Google Livres et permettre leur mise à disposition aux développeurs d'IA. Aux États-Unis, la protection du droit d'auteur dure généralement 95 ans , et plus longtemps pour les enregistrements sonores.
L'utilité de tout cela pour la prochaine génération d'outils d'IA reste à voir, car les données seront partagées jeudi sur la plateforme Hugging Face, qui héberge des ensembles de données et des modèles d'IA open source que tout le monde peut télécharger.
La collection de livres est plus diversifiée sur le plan linguistique que les sources de données d'IA classiques. Moins de la moitié des volumes sont en anglais, bien que les langues européennes dominent toujours, notamment l'allemand, le français, l'italien, l'espagnol et le latin.
Une collection de livres imprégnée de la pensée du XIXe siècle pourrait également être « extrêmement critique » pour les efforts de l'industrie technologique visant à créer des agents d'IA capables de planifier et de raisonner aussi bien que les humains, a déclaré Leppert.
« À l'université, on enseigne beaucoup sur le raisonnement », a déclaré Leppert. « On dispose de nombreuses informations scientifiques sur la manière d'exécuter des processus et de réaliser des analyses. »
Dans le même temps, il existe également de nombreuses données obsolètes, allant de théories scientifiques et médicales démystifiées à des récits racistes.
« Lorsque vous traitez un ensemble de données aussi volumineux, des problèmes délicats se posent concernant le contenu et le langage préjudiciables », a déclaré Kristi Mukk, coordinatrice au Library Innovation Lab de Harvard, qui a déclaré que l'initiative tente de fournir des conseils sur la manière d'atténuer les risques liés à l'utilisation des données, pour « les aider à prendre leurs propres décisions éclairées et à utiliser l'IA de manière responsable ».
————
L'Associated Press et OpenAI ont un accord de licence et de technologie qui permet à OpenAI d'accéder à une partie des archives textuelles de l'AP.
ABC News