Google Gemini: alles wat u moet weten over generatieve AI-modellen

Google probeert golven te maken met Gemini, zijn vlaggenschipsuite van generatieve AI-modellen, apps en services. Maar wat is Gemini? Hoe kun je het gebruiken? En hoe verhoudt het zich tot andere generatieve AI-tools zoals OpenAI's ChatGPT , Meta's Llama en Microsoft's Copilot ?

Om het makkelijker te maken om op de hoogte te blijven van de laatste Gemini-ontwikkelingen, hebben we deze handige gids samengesteld. We zullen deze updaten naarmate er nieuwe Gemini-modellen, functies en nieuws over Google's plannen voor Gemini worden vrijgegeven.

Gemini is Google's lang beloofde , next-gen generatieve AI-modelfamilie. Ontwikkeld door Google's AI-onderzoekslabs DeepMind en Google Research, het is er in vier smaken:

Gemini Ultra , een heel groot model.
Gemini Pro , een groot model – hoewel kleiner dan Ultra. De nieuwste versie, Gemini 2.0 Pro Experimental, is Google's vlaggenschip.
Gemini Flash , een snellere, "gedistilleerde" versie van Pro. Het is er ook in een iets kleinere en snellere versie, genaamd Gemini Flash-Lite, en een versie met redeneervermogen, genaamd Gemini Flash Thinking Experimental.
Gemini Nano , twee kleine modellen: Nano-1 en de iets capabelere Nano-2 , die bedoeld is om offline te draaien

Alle Gemini-modellen zijn getraind om native multimodaal te zijn, dat wil zeggen, in staat om met meer dan alleen tekst te werken en deze te analyseren. Google zegt dat ze vooraf zijn getraind en verfijnd op een verscheidenheid aan openbare, gepatenteerde en gelicentieerde audio, afbeeldingen en video's; een set codebases; en tekst in verschillende talen.

Dit onderscheidt Gemini van modellen zoals Google's eigen LaMDA , die uitsluitend is getraind op tekstgegevens. LaMDA kan niets anders dan tekst begrijpen of genereren (bijv. essays, e-mails, enzovoort), maar dat is niet per se het geval met Gemini-modellen.

We merken hier op dat de ethiek en wettigheid van het trainen van modellen op openbare data, in sommige gevallen zonder medeweten of toestemming van de data-eigenaren, onduidelijk zijn. Google heeft een AI-vrijwaringsbeleid om bepaalde Google Cloud-klanten te beschermen tegen rechtszaken als ze ermee te maken krijgen, maar dit beleid bevat uitzonderingen. Ga voorzichtig te werk, vooral als u van plan bent om Gemini commercieel te gebruiken.

Gemini is een apart en onderscheidend onderdeel van de Gemini-apps op het web en mobiel ( voorheen Bard ).

De Gemini-apps zijn clients die verbinding maken met verschillende Gemini-modellen en een chatbot-achtige interface erbovenop leggen. Zie ze als front-ends voor Google's generatieve AI, analoog aan ChatGPT en Anthropic's Claude-familie van apps .

Google Gemini mobiele app — **Afbeeldingcredits:** Google

Gemini op het web leeft hier . Op Android vervangt de Gemini-app de bestaande Google Assistant-app. En op iOS dienen de Google- en Google Search-apps als de Gemini-clients van dat platform.

Op Android is het sinds kort ook mogelijk om de Gemini-overlay boven op een app te zetten om vragen te stellen over wat er op het scherm staat (bijvoorbeeld een YouTube-video). Houd gewoon de aan/uit-knop van een ondersteunde smartphone ingedrukt of zeg "Hey Google"; je ziet de overlay verschijnen.

Gemini-apps kunnen afbeeldingen accepteren, maar ook spraakopdrachten en tekst — inclusief bestanden zoals PDF's en binnenkort video's, geüpload of geïmporteerd van Google Drive — en afbeeldingen genereren. Zoals je zou verwachten, worden gesprekken met Gemini-apps op mobiel overgedragen naar Gemini op het web en vice versa als je op beide plekken bent aangemeld bij hetzelfde Google-account.

De Gemini-apps zijn niet de enige manier om Gemini-modellen te werven voor hulp bij taken. Langzaam maar zeker vinden Gemini-functies hun weg naar standaard Google-apps en -services zoals Gmail en Google Docs.

Om van de meeste hiervan te profiteren, hebt u het Google One AI Premium Plan nodig. Technisch gezien is het AI Premium Plan onderdeel van Google One , het kost $ 20 en biedt toegang tot Gemini in Google Workspace-apps zoals Docs, Maps, Slides, Sheets, Drive en Meet. Het maakt ook mogelijk wat Google Gemini Advanced noemt, wat de geavanceerdere Gemini-modellen van het bedrijf naar de Gemini-apps brengt.

Gemini Advanced-gebruikers krijgen hier en daar ook extra's, zoals prioriteitstoegang tot nieuwe functies, de mogelijkheid om Python-code rechtstreeks in Gemini uit te voeren en te bewerken en een groter "contextvenster". Gemini Advanced kan de inhoud van — en redeneren over — ongeveer 750.000 woorden in een gesprek (of 1.500 pagina's aan documenten) onthouden. Dat is vergeleken met de 24.000 woorden (of 48 pagina's) die de vanille Gemini-app aankan.

Screenshot van een Google Gemini-commercial — **Afbeeldingcredits:** Google

Gemini Advanced geeft gebruikers ook toegang tot de Deep Research-functie van Google, die gebruikmaakt van "geavanceerde redenering" en "lange contextmogelijkheden" om onderzoeksbrieven te genereren. Nadat u de chatbot hebt ingeschakeld, maakt deze een meerstappenonderzoeksplan, vraagt u dit goed te keuren en vervolgens heeft Gemini een paar minuten nodig om het web te doorzoeken en een uitgebreid rapport te genereren op basis van uw vraag. Het is bedoeld om complexere vragen te beantwoorden, zoals "Kun je me helpen mijn keuken opnieuw in te richten?"

Google biedt Gemini Advanced-gebruikers ook een geheugenfunctie , waarmee de chatbot uw oude gesprekken met Gemini kan gebruiken als context voor uw huidige gesprek. Gemini Advanced-gebruikers krijgen ook meer gebruik van NotebookLM, het product van het bedrijf dat PDF's omzet in door AI gegenereerde podcasts.

Gemini Advanced-gebruikers krijgen ook toegang tot de experimentele versie van Gemini 2.0 Pro van Google, het vlaggenschipmodel van het bedrijf dat is geoptimaliseerd voor moeilijke codeer- en wiskundige problemen.

Een andere Gemini Advanced-exclusieve functie is reisplanning in Google Search, waarmee aangepaste reisroutes worden gemaakt op basis van prompts. Gemini zal een reisroute genereren die automatisch wordt bijgewerkt om eventuele wijzigingen weer te geven, rekening houdend met zaken als vluchttijden (van e-mails in de Gmail-inbox van een gebruiker), maaltijdvoorkeuren en informatie over lokale attracties (van Google Search en Maps-gegevens).

Gemini over Google-services is ook beschikbaar voor zakelijke klanten via twee abonnementen, Gemini Business (een add-on voor Google Workspace) en Gemini Enterprise. Gemini Business kost slechts $ 6 per gebruiker per maand, terwijl Gemini Enterprise — dat vergadernotities en vertaalde bijschriften toevoegt, evenals documentclassificatie en -labeling — over het algemeen duurder is, maar de prijs is gebaseerd op de behoeften van een bedrijf. (Beide abonnementen vereisen een jaarlijkse verbintenis.)

In Gmail bevindt Gemini zich in een zijpaneel waarmee u e-mails kunt schrijven en berichtenthreads kunt samenvatten. U vindt hetzelfde paneel in Docs, waar het u helpt bij het schrijven en verfijnen van uw content en het brainstormen over nieuwe ideeën. Gemini in Slides genereert slides en aangepaste afbeeldingen. En Gemini in Google Sheets houdt gegevens bij en organiseert deze, en maakt tabellen en formules.

De AI-chatbot van Google is onlangs beschikbaar in Maps , waar Gemini recensies over koffiebars kan samenvatten of aanbevelingen kan doen voor een dagje uit in een buitenlandse stad.

Gemini's bereik strekt zich ook uit tot Drive, waar het bestanden en mappen kan samenvatten en snelle feiten over een project kan geven. In Meet vertaalt Gemini ondertussen ondertitels naar extra talen.

Tweelingen in Gmail — **Afbeeldingcredits:** Google

Gemini kwam onlangs naar Google's Chrome-browser in de vorm van een AI-schrijftool. Je kunt het gebruiken om iets compleet nieuws te schrijven of bestaande tekst te herschrijven; Google zegt dat het de webpagina waarop je je bevindt in overweging neemt om aanbevelingen te doen.

Elders vindt u hints van Gemini in de databaseproducten van Google, cloudbeveiligingstools en app-ontwikkelingsplatforms (waaronder Firebase en Project IDX ), maar ook in apps zoals Google Photos (waar Gemini zoekopdrachten in natuurlijke taal afhandelt), YouTube (waar het helpt bij het brainstormen over video-ideeën) en de notitie-assistent NotebookLM .

Code Assist (voorheen Duet AI for Developers ), Google's suite van AI-aangedreven hulpmiddelen voor codeaanvulling en -generatie, draagt zware rekenkundige taken over aan Gemini. Dat geldt ook voor Google's beveiligingsproducten die worden ondersteund door Gemini , zoals Gemini in Threat Intelligence, dat grote delen van potentieel schadelijke code kan analyseren en gebruikers natuurlijke taalzoekopdrachten laat uitvoeren naar aanhoudende bedreigingen of indicatoren van inbreuk.

Aangekondigd op Google I/O 2024, Gemini Advanced-gebruikers kunnen Gems maken , aangepaste chatbots aangestuurd door Gemini-modellen. Gems kunnen worden gegenereerd op basis van beschrijvingen in natuurlijke taal, bijvoorbeeld: "Jij bent mijn hardloopcoach. Geef me een dagelijks hardloopschema" en kunnen worden gedeeld met anderen of privé worden gehouden.

Gems zijn beschikbaar op desktop en mobiel in 150 landen en de meeste talen. Uiteindelijk kunnen ze een uitgebreide set integraties met Google-services gebruiken, waaronder Google Agenda, Taken, Keep en YouTube Music, om aangepaste taken te voltooien.

Tweeling edelstenen — **Afbeeldingcredits:** Google

Over integraties gesproken: de Gemini-apps op het web en mobiel kunnen gebruikmaken van Google-services via wat Google 'Gemini-extensies' noemt. Gemini integreert nu met Google Drive, Gmail en YouTube om te reageren op vragen als 'Kun je mijn laatste drie e-mails samenvatten?' Later dit jaar kan Gemini aanvullende acties uitvoeren met Google Agenda, Keep, Taken, YouTube Music en Utilities, de Android-exclusieve apps die functies op het apparaat bedienen, zoals timers en alarmen, mediabediening, de zaklamp, het volume, wifi, Bluetooth, enzovoort.

Een ervaring genaamd Gemini Live stelt gebruikers in staat om "diepgaande" spraakchats te hebben met Gemini. Het is beschikbaar in de Gemini-apps op mobiel en de Pixel Buds Pro 2 , waar het zelfs toegankelijk is wanneer je telefoon vergrendeld is.

Met Gemini Live ingeschakeld, kunt u Gemini onderbreken terwijl de chatbot spreekt (in een van de verschillende nieuwe stemmen) om een verduidelijkende vraag te stellen, en het zal zich in realtime aanpassen aan uw spraakpatronen. Op een gegeven moment zou Gemini visueel begrip moeten krijgen, waardoor het uw omgeving kan zien en erop kan reageren, hetzij via foto's of video's die zijn vastgelegd door de camera's van uw smartphones.

Tweelingen Live — **Afbeeldingcredits:** Google

Live is ook ontworpen om te dienen als een soort virtuele coach, die je helpt te repeteren voor evenementen, ideeën te brainstormen, enzovoort. Live kan bijvoorbeeld voorstellen welke vaardigheden je moet benadrukken in een aankomend sollicitatiegesprek of stagegesprek, en het kan advies geven over spreken in het openbaar.

Je kunt hier onze recensie van Gemini Live lezen. Spoiler alert: we denken dat de functie nog een lange weg te gaan heeft voordat hij superhandig is — maar het is nog vroeg, toegegeven.

Gemini-gebruikers kunnen illustraties en afbeeldingen genereren met behulp van het ingebouwde Imagen 3 -model van Google.

Google zegt dat Imagen 3 de tekstprompts die het vertaalt naar afbeeldingen nauwkeuriger kan begrijpen dan zijn voorganger, Imagen 2 , en dat het in zijn generaties "creatiever en gedetailleerder" is. Bovendien produceert het model minder artefacten en visuele fouten (althans volgens Google) en is het het beste Imagen-model tot nu toe voor het renderen van tekst.

Google Afbeelding 3 — Een voorbeeld van Imagen 3. **Afbeeldingcredits:** Google

In februari 2024 werd Google gedwongen om Gemini's mogelijkheid om afbeeldingen van mensen te genereren te pauzeren nadat gebruikers klaagden over historische onjuistheden . Maar in augustus introduceerde het bedrijf de generatie van mensen opnieuw voor bepaalde gebruikers, met name Engelstalige gebruikers die zich hadden aangemeld voor een van Google's betaalde Gemini-abonnementen (bijvoorbeeld Gemini Advanced ) als onderdeel van een pilotprogramma.

In juni introduceerde Google een Gemini-ervaring speciaal voor tieners, waarbij leerlingen zich kunnen aanmelden via hun Google Workspace for Education-schoolaccount.

De op tieners gerichte Gemini heeft "aanvullende beleidsregels en waarborgen", waaronder een op maat gemaakt onboardingproces en een "AI-geletterdheidsgids" om (zoals Google het noemt) "tieners te helpen AI verantwoord te gebruiken". Verder is het bijna identiek aan de standaard Gemini-ervaring, tot aan de "dubbele controle"-functie die het web doorzoekt om te zien of de antwoorden van Gemini accuraat zijn.

Steeds meer door Google gemaakte apparaten maken gebruik van Gemini voor verbeterde functionaliteit, van de Google TV Streamer tot de Pixel 9 en 9 Pro tot de nieuwste Nest Learning Thermostat .

Op de Google TV Streamer gebruikt Gemini uw voorkeuren om suggesties voor content voor al uw abonnementen te doen en recensies en zelfs hele tv-seizoenen samen te vatten.

Google TV Streamer instellen — **Afbeeldingcredits:** Google

Op de nieuwste Nest-thermostaat (en Nest-speakers, -camera's en -smartdisplays) zal Gemini binnenkort de conversatie- en analysemogelijkheden van Google Assistent versterken.

Abonnees op het Nest Aware- abonnement van Google krijgen later dit jaar een preview van nieuwe Gemini-aangedreven ervaringen zoals AI-beschrijvingen voor Nest-camerabeelden, videozoekopdrachten in natuurlijke taal en aanbevolen automatiseringen. Nest-camera's begrijpen wat er gebeurt in realtime videofeeds (bijvoorbeeld wanneer een hond in de tuin graaft), terwijl de bijbehorende Google Home-app video's naar boven haalt en apparaatautomatiseringen maakt op basis van een beschrijving (bijvoorbeeld "Hebben de kinderen hun fietsen op de oprit laten staan?", "Laat mijn Nest-thermostaat de verwarming aanzetten als ik elke dinsdag thuiskom van mijn werk").

Google Gemini in het slimme huis — Gemini kan binnenkort beveiligingscamerabeelden van Nest-apparaten samenvatten. **Afbeeldingcredits:** Google

Ook later dit jaar krijgt Google Assistant een paar upgrades op Nest-merk- en andere smart home-apparaten om gesprekken natuurlijker te laten aanvoelen. Verbeterde stemmen zijn onderweg, naast de mogelijkheid om vervolgvragen te stellen en "[makkelijker] heen en weer te gaan."

Omdat Gemini-modellen multimodaal zijn, kunnen ze een scala aan multimodale taken uitvoeren, van het transcriberen van spraak tot het ondertitelen van afbeeldingen en video's in realtime. Veel van deze mogelijkheden hebben de productfase bereikt (zoals in de vorige sectie werd gesuggereerd), en Google belooft in de niet al te verre toekomst nog veel meer.

Natuurlijk is het lastig om het bedrijf op zijn woord te geloven. Google heeft ernstig ondermaats geleverd met de originele Bard-lancering. Meer recentelijk heeft het veren doen ruisen met een video die beweerde de mogelijkheden van Gemini te tonen, die min of meer ambitieus was — niet live.

Ook biedt Google geen oplossing voor een aantal onderliggende problemen met generatieve AI-technologie vandaag de dag, zoals de gecodeerde vooroordelen en de neiging om dingen te verzinnen (d.w.z. te hallucineren ). Dat doen zijn rivalen ook niet, maar het is iets om in gedachten te houden wanneer u overweegt om Gemini te gebruiken of ervoor te betalen.

Ervan uitgaande dat Google in dit artikel de waarheid spreekt met zijn recente beweringen, volgt hier wat de verschillende niveaus van Gemini nu kunnen doen en wat ze kunnen doen zodra ze hun volledige potentieel hebben bereikt:

Volgens Google kan Gemini Ultra dankzij de multimodaliteit worden gebruikt om te helpen met zaken als natuurkundehuiswerk, het stapsgewijs oplossen van opgaven op een werkblad en het aanwijzen van mogelijke fouten in reeds ingevulde antwoorden.

We hebben de Gemini Ultra de afgelopen maanden echter niet veel gezien. Het model verschijnt niet in de Gemini-app en staat niet vermeld op de API-prijspagina van Google Gemini. Dat betekent echter niet dat Google Gemini Ultra in de toekomst niet weer op de voorgrond van zijn aanbod zal plaatsen.

Ultra kan ook worden toegepast op taken zoals het identificeren van wetenschappelijke artikelen die relevant zijn voor een probleem, zegt Google. Het model kan bijvoorbeeld informatie uit meerdere artikelen halen en een grafiek van één artikel bijwerken door de formules te genereren die nodig zijn om de grafiek opnieuw te maken met actuelere gegevens.

Gemini Ultra ondersteunt technisch gezien het genereren van afbeeldingen. Maar die mogelijkheid is nog niet doorgedrongen tot de geproduceerde versie van het model — misschien omdat het mechanisme complexer is dan hoe apps zoals ChatGPT afbeeldingen genereren. In plaats van prompts naar een afbeeldingsgenerator te sturen (zoals DALL-E 3 , in het geval van ChatGPT), geeft Gemini afbeeldingen "native" uit, zonder tussenstap.

Ultra is beschikbaar als API via Vertex AI, het volledig beheerde AI-ontwikkelplatform van Google, en AI Studio, de webgebaseerde tool van Google voor app- en platformontwikkelaars.

Google zegt dat het nieuwste Pro-model, Gemini 2.0 Pro , het beste model tot nu toe is voor coderingsprestaties en complexe prompts. Het is momenteel beschikbaar als experimentele versie, wat betekent dat het onverwachte problemen kan hebben.

Gemini 2.0 Pro overtreft zijn voorganger, Gemini 1.5 Pro , in benchmarks die codering, redeneren, wiskunde en feitelijke nauwkeurigheid meten. Het model kan tot 1,4 miljoen woorden, twee uur video of 22 uur audio verwerken en kan redeneren over of vragen beantwoorden over die data ( meer of minder ).

Gemini 1.5 Pro ondersteunt echter nog steeds de Deep Research-functie van Google.

Gemini 2.0 Pro werkt samen met een functie genaamd code-uitvoering, die in juni tegelijk met Gemini 1.5 Pro werd uitgebracht . Deze functie is bedoeld om bugs in de code die het model genereert te verminderen door de code iteratief te verfijnen in verschillende stappen. (Code-uitvoering ondersteunt ook Gemini Flash.)

Binnen Vertex AI kunnen ontwikkelaars Gemini Pro aanpassen aan specifieke contexten en use cases via een fine-tuning of "grounding"-proces. Pro (samen met andere Gemini-modellen) kan bijvoorbeeld worden geïnstrueerd om gegevens van externe leveranciers zoals Moody's, Thomson Reuters, ZoomInfo en MSCI te gebruiken, of om informatie te halen uit bedrijfsdatasets of Google Search in plaats van de bredere kennisbank. Gemini Pro kan ook worden verbonden met externe API's van derden om specifieke acties uit te voeren, zoals het automatiseren van een backoffice-workflow.

AI Studio biedt sjablonen voor het maken van gestructureerde chatprompts met Pro. Ontwikkelaars kunnen het creatieve bereik van het model beheren en voorbeelden geven om toon- en stijlinstructies te geven — en ook de veiligheidsinstellingen van Pro aanpassen.

Met Vertex AI Agent Builder kunnen mensen Gemini-aangedreven "agenten" bouwen binnen Vertex AI. Een bedrijf kan bijvoorbeeld een agent creëren die eerdere marketingcampagnes analyseert om een merkstijl te begrijpen en die kennis vervolgens toepassen om nieuwe ideeën te genereren die consistent zijn met de stijl.

Google noemt Gemini 2.0 Flash zijn AI-model voor het agentische tijdperk. Het model kan native afbeeldingen en audio genereren, naast tekst, en kan tools gebruiken zoals Google Search en interacteren met externe API's.

Het 2.0 Flash-model is sneller dan de vorige generatie modellen van Gemini en presteert zelfs beter dan sommige van de grotere Gemini 1.5-modellen op benchmarks die codering en beeldanalyse meten. U kunt Gemini 2.0 Flash uitproberen in de Gemini web- of mobiele app en via de AI-ontwikkelaarsplatforms van Google.

In december bracht Google een ‘denkende’ versie van Gemini 2.0 Flash uit die in staat is om te ‘redeneren’, waarbij het AI-model een paar seconden nodig heeft om een probleem terug te berekenen voordat het een antwoord geeft.

In februari maakte Google Gemini 2.0 Flash-denken beschikbaar in de Gemini-app. Diezelfde maand bracht Google ook een kleinere versie uit, genaamd Gemini 2.0 Flash-Lite. Het bedrijf zegt dat dit model beter presteert dan zijn Gemini 1.5 Flash-model, maar even duur en snel is.

Flash is een uitloper van Gemini Pro die klein en efficiënt is, gebouwd voor smalle, hoogfrequente generatieve AI-workloads. Flash is multimodaal zoals Gemini Pro, wat betekent dat het audio, video, afbeeldingen en tekst kan analyseren (maar alleen tekst kan genereren). Google zegt dat Flash met name geschikt is voor taken zoals samenvattings- en chat-apps, plus ondertiteling van afbeeldingen en video's en gegevensextractie uit lange documenten en tabellen.

Devs die Flash en Pro gebruiken, kunnen optioneel gebruikmaken van contextcaching, waarmee ze grote hoeveelheden informatie (bijvoorbeeld een kennisbank of database met onderzoekspapers) kunnen opslaan in een cache die Gemini-modellen snel en relatief goedkoop kunnen benaderen. Contextcaching is echter een extra vergoeding bovenop andere Gemini-modelgebruikskosten.

Gemini Nano is een veel kleinere versie van de Gemini Pro en Ultra modellen, en is efficiënt genoeg om direct op (sommige) apparaten te draaien in plaats van de taak ergens naar een server te sturen. Tot nu toe drijft Nano een aantal functies aan op de Pixel 8 Pro, Pixel 8 , Pixel 9 Pro, Pixel 9 en Samsung Galaxy S24 , waaronder Summarize in Recorder en Smart Reply in Gboard.

De Recorder-app, waarmee gebruikers op een knop kunnen drukken om audio op te nemen en te transcriberen, bevat een door Gemini aangestuurde samenvatting van opgenomen gesprekken, interviews, presentaties en andere audiofragmenten. Gebruikers krijgen samenvattingen, zelfs als ze geen signaal of wifi-verbinding hebben. En als knipoog naar privacy, verlaten er geen gegevens hun telefoon tijdens het proces.

Nano zit ook in Gboard, de toetsenbordvervanger van Google. Daar stuurt het een functie aan die Smart Reply heet, die helpt om te suggereren wat je als volgende wilt zeggen als je een gesprek voert in een berichten-app zoals WhatsApp.

In de Google Berichten-app op ondersteunde apparaten stuurt Nano Magic Compose aan, waarmee berichten kunnen worden opgesteld in stijlen als 'opgewonden', 'formeel' en 'lyrisch'.

Google zegt dat een toekomstige versie van Android Nano zal gebruiken om gebruikers te waarschuwen voor mogelijke oplichting tijdens gesprekken. De nieuwe weer-app op Pixel-telefoons gebruikt Gemini Nano om op maat gemaakte weerberichten te genereren. En TalkBack, de toegankelijkheidsservice van Google, gebruikt Nano om auditieve beschrijvingen van objecten te maken voor slechtziende en blinde gebruikers.

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash en 2.0 Flash-Lite zijn beschikbaar via Google's Gemini API voor het bouwen van apps en services — allemaal met gratis opties. Maar de gratis opties leggen gebruikslimieten op en laten bepaalde functies weg, zoals contextcaching en batching .

Gemini-modellen zijn anders pay-as-you-go. Dit zijn de basisprijzen — exclusief add-ons zoals contextcaching — vanaf september 2024:

Gemini 1.5 Pro: $ 1,25 per 1 miljoen invoertokens (voor prompts tot 128K tokens) of $ 2,50 per 1 miljoen invoertokens (voor prompts langer dan 128K tokens); $ 5 per 1 miljoen uitvoertokens (voor prompts tot 128K tokens) of $ 10 per 1 miljoen uitvoertokens (voor prompts langer dan 128K tokens)
Gemini 1.5 Flash: 7,5 cent per 1 miljoen input-tokens (voor prompts tot 128K tokens), 15 cent per 1 miljoen input-tokens (voor prompts langer dan 128K tokens), 30 cent per 1 miljoen output-tokens (voor prompts tot 128K tokens), 60 cent per 1 miljoen output-tokens (voor prompts langer dan 128K tokens)
Gemini 2.0 Flash: 10 cent per 1 miljoen input tokens, 40 cent per 1 miljoen output tokens. Voor audio specifiek kost het 70 center per 1 miljoen input tokens, en ook 40 center per 1 miljoen output tokens.
Gemini 2.0 Flash-Lite: 7,5 cent per 1 miljoen input-tokens, 30 cent per 1 miljoen output-tokens.

Tokens zijn onderverdeelde bits van ruwe data, zoals de lettergrepen "fan", "tas" en "tic" in het woord "fantastic"; 1 miljoen tokens is gelijk aan ongeveer 700.000 woorden. Input verwijst naar tokens die in het model worden gevoerd, terwijl output verwijst naar tokens die het model genereert.

De prijs voor 2.0 Pro is nog niet bekendgemaakt en Nano bevindt zich nog in de vroege toegangsfase .

Project Astra is Google DeepMind's poging om AI-aangedreven apps en "agents" te creëren voor realtime, multimodaal begrip. In demo's heeft Google laten zien hoe het AI-model tegelijkertijd live video en audio kan verwerken. Google heeft in december een app-versie van Project Astra uitgebracht voor een klein aantal vertrouwde testers, maar heeft op dit moment geen plannen voor een bredere release.

Het bedrijf wil Project Astra in een paar slimme brillen stoppen . Google gaf in december ook een prototype van een bril met Project Astra en augmented reality-mogelijkheden aan een paar vertrouwde testers. Er is echter nog geen duidelijk product op dit moment en het is onduidelijk wanneer Google daadwerkelijk zoiets zou uitbrengen.

Project Astra is nog steeds gewoon dat, een project, en geen product. De demo's van Astra laten echter zien wat Google wil dat zijn AI-producten in de toekomst doen.

Dat zou kunnen.

Apple heeft gezegd dat het in gesprek is om Gemini en andere modellen van derden te gebruiken voor een aantal functies in zijn Apple Intelligence- suite. Na een keynote-presentatie op WWDC 2024 bevestigde Apple SVP Craig Federighi plannen om met modellen te werken , waaronder Gemini, maar hij gaf geen verdere details.

Dit bericht werd oorspronkelijk gepubliceerd op 16 februari 2024 en wordt regelmatig bijgewerkt.

techcrunch