Is het het makkelijkst om met kunstmatige intelligentie te communiceren in het Pools?

De media berichtten onlangs dat "Pools de beste taal is om aanwijzingen te geven". Dit is niet de conclusie van ons onderzoek, ontkent Marzena Karpińska van Microsoft, medeauteur van de studie waaruit de Poolse media overhaast deze conclusie trokken.
ADVERTENTIE
OneRuler is een meertalige benchmark (testsuite) om te beoordelen hoe goed taalmodellen omgaan met zeer lange teksten. Het vergelijkt hoe verschillende AI-modellen presteren bij het ophalen van informatie in 26 verschillende talen.
Hoewel de AI-modellen gemiddeld het beste presteerden in de benchmark met Pools, waren deze verschillen tussen Pools en Engels niet significant en gaven de auteurs geen verklaring voor de resultaten. Poolstalige media die deze analyses samenvatten, concludeerden overhaast dat "Pools de beste taal is voor prompting".
Marzena Karpińska van Microsoft, medeauteur van de studie, antwoordde op de vraag van PAP of het klopte dat de studie beweerde dat Pools de beste taal is om te souffleren: "Nee. Dat hebben we helemaal niet onderzocht. We hebben een tool ontwikkeld om taalmodellen te diagnosticeren en te kijken hoe goed ze informatie uit zeer lange teksten kunnen halen."
Ze legde uit dat de taak die aan verschillende modellen werd gegeven als onderdeel van de benchmark vergelijkbaar was met het zoeken naar een speld in een hooiberg: een zin met informatie werd in een boek in een bepaalde taal ingevoegd. En het model – geïnstrueerd in dezelfde taal – moest die zin als het juiste antwoord identificeren. In teksteditors of browsers wordt dit soort taken afgehandeld met de standaard CTRL+F-functie (zoeken in document). AI-modellen hebben deze ingebouwde functie echter niet.
Een andere benchmarktaak was het maken van een lijst met de meest voorkomende woorden uit het boek.
"We verwachtten dat de meertalige modellen 100% nauwkeurig zouden zijn. Dat was niet zo. We merkten dat de modellen fouten begonnen te maken, vooral toen we ze er in de instructies aan herinnerden dat het antwoord mogelijk niet in de zoektekst stond. In dat geval had het model moeten aangeven dat het antwoord er niet was", aldus de co-auteur van de studie. De nauwkeurigheid daalde aanzienlijk bij deze taak, waarschijnlijk omdat de volledige context gebruikt moest worden, niet alleen het boek.
Wat van invloed zou kunnen zijn geweest op welke taal het beste presteerde in de benchmark, was de methodologie, met name de selectie van het leesmateriaal dat in de tests werd gebruikt. Voor elke taal werd een ander boek gebruikt.
Zo werd er voor de Poolse taal gezocht in het derde deel van "Nights and Days", voor de Spaanse taal in "Don Quixote", voor de Engelse taal in "Little Women" en voor de Duitse taal in "The Magic Mountain". Dit waren niet dezelfde teksten vertaald in verschillende talen, maar totaal verschillende boeken uit verschillende historische periodes. Het is dus mogelijk dat niet de Poolse taal superieur was aan het Engels, maar dat "Nights and Days" voor de modellen makkelijker te doorzoeken bleek dan "Little Women".
De onderzoeker legde uit dat deze selectie van boeken voortkwam uit de noodzaak om teksten in elke taal te selecteren waarvan het auteursrecht al was verlopen.
– Er zijn zoveel verschillende factoren in dit onderzoek dat we zeker niet kunnen concluderen dat het Pools de beste taal is om te ‘prompten’, verzekerde Karpińska.
Volgens de geïnterviewde van het PAP zou het feit dat geen enkel model 100 procent effectiviteit behaalde in zo'n eenvoudige taak, een waarschuwing moeten zijn voor alle gebruikers van taalmodellen.
Mensen laden bergen documenten in GPT Chat en stellen vragen over deze content. En het is belangrijk om te onthouden dat taalmodellen nog steeds zeer beperkte mogelijkheden hebben voor tekstverwerking. Soms zijn ze ongelooflijk goed, en dan maken ze even later enorme fouten. Je moet het opnieuw vragen, controleren met een ander model. En bovenal moet je voorzichtig zijn met welke documenten je in de modellen laadt, vooral als het gaat om gevoelige content en privacy," concludeerde de onderzoeker.
Het werk van OneRuler werd in oktober van dit jaar geëvalueerd en gepresenteerd op de wetenschappelijke conferentie CoLM (Conference on Language Modeling).
ADVERTENTIE
Kurier Szczecinski




