Chatboty ze sztuczną inteligencją potrzebują więcej książek do nauki, dlatego kilka bibliotek w USA będzie im je wypożyczać.

Wszystko, co usłyszeliśmy w internecie, było zaledwie początkiem nauczania sztucznej inteligencji o ludzkości. Teraz firmy technologiczne zwracają się ku jeszcze starszemu repozytorium wiedzy : bibliotecznym regałom.
Prawie milion książek wydanych już w XV wieku — i w 254 językach — jest częścią kolekcji Uniwersytetu Harvarda, którą niedawno udostępniono badaczom. Skarby starych gazet i dokumentów rządowych przechowywanych w Boston Public Library wkrótce zostaną do niej dołączone.
Otwarcie skarbców w celu uzyskania dostępu do wielowiekowych tomów może oznaczać dostęp do ogromnej ilości danych dla firm technologicznych , którym grożą procesy ze strony powieściopisarzy, artystów wizualnych i innych osób , których dzieła twórcze zostały wykorzystane bez ich zgody do szkolenia chatbotów ze sztuczną inteligencją.
„Rozsądnie jest zacząć od informacji z domeny publicznej, ponieważ na tym etapie budzą one mniej kontrowersji niż treści, które wciąż są objęte prawami autorskimi” — powiedział Burton Davis, zastępca głównego doradcy prawnego Microsoftu.
Davis zauważył, że biblioteki przechowują również „ogromne ilości interesujących danych kulturowych, historycznych i językowych”, których brakowało w ostatnich dekadach w komentarzach online, z których w dużej mierze uczyły się boty czatowe AI. Obawy przed wyczerpaniem informacji sprawiły również, że twórcy AI zwrócili się ku „syntetycznym” danym, tworzonym przez same boty czatowe i o niższej jakości.
Dzięki wsparciu nieograniczonych darowizn od firm Microsoft i OpenAI (twórcy ChatGPT) działająca na Uniwersytecie Harvarda inicjatywa Institutional Data Initiative współpracuje z bibliotekami i muzeami na całym świecie, aby dostosować ich zbiory historyczne do sztucznej inteligencji w sposób, który przyniesie korzyści również społecznościom, którym służą.
„Próbujemy przenieść część władzy, która obecnie znajduje się w rękach AI, z powrotem do tych instytucji” — powiedziała Aristana Scourtas, która kieruje badaniami w Harvard Law School's Library Innovation Lab . „Bibliotekarze zawsze byli zarządcami danych i informacji”.
Chatboty. Archiwum Clarín.
Zestaw danych, który właśnie opublikował Harvard, Institutional Books 1.0, zawiera ponad 394 miliony zeskanowanych stron papieru . Jedno z najstarszych dzieł pochodzi z XV wieku: odręczne refleksje koreańskiego malarza na temat uprawy kwiatów i drzew. Największa koncentracja dzieł pochodzi z XIX wieku i obejmuje tematy takie jak literatura, filozofia, prawo i rolnictwo — wszystkie skrupulatnie zachowane i uporządkowane przez pokolenia bibliotekarzy.
Obiecuje to okazać się bardzo przydatne dla twórców sztucznej inteligencji, którzy starają się zwiększyć dokładność i niezawodność swoich systemów.
„Wiele danych, które zostały wykorzystane w szkoleniu AI, nie pochodzi z oryginalnych źródeł” — zauważył Greg Leppert, dyrektor wykonawczy inicjatywy danych, który jest również dyrektorem ds. technologii w Berkman Klein Center for Internet & Society na Uniwersytecie Harvarda, organizacji skupiającej się na badaniu cyberprzestrzeni. Ta kolekcja książek obejmuje „aż do fizycznej kopii zeskanowanej przez instytucje, które faktycznie zebrały te materiały” — dodał.
Zanim ChatGPT wywołał komercyjny szał w sztucznej inteligencji, większość badaczy AI nie była szczególnie zainteresowana pochodzeniem fragmentów tekstu, które zeskrobali z Wikipedii, forów mediów społecznościowych, takich jak Reddit, a czasami ogromnych repozytoriów pirackich książek . Potrzebowali po prostu tego, co informatycy nazywają tokenami: jednostkami danych, z których każda może reprezentować fragment słowa.
Chatbots.REUTERS/Dado Ruvic/Illustration
Szacuje się, że nowa kolekcja szkoleń AI Harvardu obejmuje 242 miliardy tokenów, co jest kwotą trudną do zrozumienia dla ludzi , ale wciąż kroplą w morzu tego, co trafia do najbardziej zaawansowanych systemów AI. Na przykład spółka macierzysta Facebooka, Meta, stwierdziła, że najnowsza wersja jej rozbudowanego modelu języka AI została wytrenowana na ponad 30 bilionach tokenów wyodrębnionych z tekstu, obrazów i filmów.
Meta musi również stawić czoła pozwowi wytoczonemu przez komik Sarah Silverman i innych opublikowanych autorów, którzy oskarżają firmę o kradzież książek z „bibliotek widmo”, w których znajdują się pirackie dzieła.
Teraz, choć z pewnymi zastrzeżeniami, biblioteki królewskie narzucają swoje warunki.
Firma OpenAI, która również zmaga się z serią procesów o naruszenie praw autorskich, przekazała w tym roku 50 milionów dolarów grupie instytucji badawczych (w tym 400-letniej Bibliotece Bodlejańskiej Uniwersytetu Oksfordzkiego), które zajmują się digitalizacją rzadkich książek i przepisywaniem ich przy użyciu sztucznej inteligencji.
Kiedy firma po raz pierwszy zwróciła się do Biblioteki Publicznej w Bostonie, jednej z największych w Stanach Zjednoczonych, biblioteka jasno dała do zrozumienia, że wszelkie zdigitalizowane przez nią informacje będą dostępne dla każdego – powiedziała Jessica Chapel, dyrektor ds. usług cyfrowych i online.
„OpenAI interesowało się ogromnymi ilościami danych treningowych. My interesujemy się ogromnymi ilościami obiektów cyfrowych. Wygląda więc na to, że interesy się pokrywają ” — powiedział Chapel.
Digitalizacja jest droga. Na przykład biblioteka w Bostonie poświęciła mozolną pracę na skanowanie i porządkowanie dziesiątek francuskojęzycznych gazet z Nowej Anglii, które były szeroko dystrybuowane pod koniec XIX i na początku XX wieku wśród kanadyjskich społeczności imigrantów w Quebecu. Teraz, gdy tekst ten jest używany do szkolenia AI, pomaga on finansować projekty, które bibliotekarze i tak chcą realizować.
Chatbots.REUTERS/Dado Ruvic/Illustration
Digitalizacja zbiorów Harvardu rozpoczęła się już w 2006 r. na zlecenie innego giganta technologicznego, Google, w ramach kontrowersyjnego projektu mającego na celu stworzenie przeszukiwalnej biblioteki online zawierającej ponad 20 milionów książek.
Google przez lata odpierało pozwy autorów dotyczące jego biblioteki online , która zawierała wiele nowszych, chronionych prawem autorskim dzieł. W końcu znalazło rozwiązanie w 2016 r., kiedy Sąd Najwyższy USA podtrzymał orzeczenia sądów niższej instancji, które odrzucały roszczenia o naruszenie praw autorskich.
Teraz po raz pierwszy Google współpracuje z Harvardem, aby wyodrębnić tomy Google Books z domeny publicznej i utorować drogę do udostępniania ich programistom AI. Ochrona praw autorskich w Stanach Zjednoczonych trwa zazwyczaj 95 lat, a w przypadku nagrań dźwiękowych dłużej.
Nową inicjatywę pochwaliła ta sama grupa autorów, która pozwała Google w związku z projektem książki, a ostatnio pozwała do sądu firmy zajmujące się sztuczną inteligencją.
„Wiele z tych tytułów istnieje tylko na półkach dużych bibliotek, a stworzenie i wykorzystanie tego zestawu danych rozszerzy dostęp do tych tomów i wiedzy, którą zawierają” — powiedziała Mary Rasenberger, dyrektor wykonawczy Writers Guild, w oświadczeniu. „Przede wszystkim stworzenie kompleksowego zestawu danych prawnych do szkoleń zdemokratyzuje tworzenie nowych modeli AI”.
Zdjęcie udostępnione przez Google przedstawiające dwie strony postów dla Gemini, czatbota Google opartego na sztucznej inteligencji (AI). EFE/Google
Na ile przydatne okażą się te wszystkie dane dla następnej generacji narzędzi AI, dopiero się okaże , ponieważ są one udostępniane na platformie Hugging Face, która udostępnia otwarte zestawy danych i modele AI, dostępne do pobrania przez każdego.
Zbiór książek jest bardziej zróżnicowany językowo niż typowe źródła danych AI. Mniej niż połowa tomów jest w języku angielskim, chociaż języki europejskie pozostają dominujące, szczególnie niemiecki, francuski, włoski, hiszpański i łacina.
Zbiór książek przesiąkniętych myślą XIX wieku może mieć również „niezwykle kluczowe znaczenie” dla prób branży technologicznej zmierzających do stworzenia agentów AI, którzy potrafią planować i rozumować równie dobrze jak ludzie – zauważył Leppert.
„Na uniwersytecie masz mnóstwo materiałów dydaktycznych na temat tego, co oznacza rozumowanie” – zauważył. „Masz mnóstwo informacji naukowych na temat tego, jak wykonywać procesy i jak przeprowadzać analizy”.
Jednocześnie istnieje wiele nieaktualnych danych , od zdyskredytowanych teorii naukowych i medycznych po narracje rasistowskie i kolonialne.
„Kiedy masz do czynienia z tak dużym zestawem danych, pojawiają się pewne trudne kwestie dotyczące szkodliwej treści i języka” — powiedziała Kristi Mukk, koordynatorka Harvard Library Innovation Lab, która stwierdziła, że inicjatywa ma na celu zapewnienie wskazówek, jak złagodzić ryzyko związane z wykorzystaniem danych, a tym samym „pomagać użytkownikom podejmować świadome decyzje i odpowiedzialnie korzystać ze sztucznej inteligencji”.
Na podstawie informacji Associated Press.
Clarin