Google Gemini : tout ce que vous devez savoir sur les modèles d'IA génératifs

Google tente de faire des vagues avec Gemini, sa suite phare de modèles, d'applications et de services d'IA générative. Mais qu'est-ce que Gemini ? Comment l'utiliser ? Et comment se compare-t-il à d'autres outils d'IA générative tels que ChatGPT d'OpenAI, Llama de Meta et Copilot de Microsoft ?
Pour vous permettre de suivre plus facilement les derniers développements de Gemini, nous avons élaboré ce guide pratique, que nous mettrons à jour au fur et à mesure que de nouveaux modèles Gemini, de nouvelles fonctionnalités et des nouvelles sur les projets de Google pour Gemini seront publiés.
Gemini est la famille de modèles d'IA générative de nouvelle génération promise depuis longtemps par Google. Développée par les laboratoires de recherche en IA DeepMind et Google Research de Google, elle se décline en quatre versions :
- Gemini Ultra , un très grand modèle.
- Gemini Pro , un grand modèle, bien que plus petit que l'Ultra. La dernière version, Gemini 2.0 Pro Experimental, est le produit phare de Google.
- Gemini Flash est une version plus rapide et « distillée » de Pro. Il existe également une version légèrement plus petite et plus rapide, appelée Gemini Flash-Lite, et une version avec des capacités de raisonnement, appelée Gemini Flash Thinking Experimental.
- Gemini Nano , deux petits modèles : Nano-1 et le Nano-2 , légèrement plus performant, qui est censé fonctionner hors ligne
Tous les modèles Gemini ont été formés pour être nativement multimodaux, c'est-à-dire capables de travailler avec et d'analyser plus que du texte. Google affirme qu'ils ont été préformés et affinés sur une variété de fichiers audio, d'images et de vidéos publics, propriétaires et sous licence, un ensemble de bases de code et du texte dans différentes langues.
Cela distingue Gemini des modèles tels que LaMDA de Google , qui a été formé exclusivement sur des données textuelles. LaMDA ne peut comprendre ni générer quoi que ce soit au-delà du texte (par exemple, des essais, des e-mails, etc.), mais ce n'est pas nécessairement le cas avec les modèles Gemini.
Nous notons ici que l' éthique et la légalité des modèles de formation sur des données publiques, dans certains cas sans le consentement des propriétaires des données, sont obscures. Google a mis en place une politique d'indemnisation de l'IA pour protéger certains clients de Google Cloud contre les poursuites judiciaires s'ils en font l'objet, mais cette politique contient des exceptions. Procédez avec prudence, en particulier si vous envisagez d'utiliser Gemini à des fins commerciales.
Gemini est séparé et distinct des applications Gemini sur le Web et sur mobile ( anciennement Bard ).
Les applications Gemini sont des clients qui se connectent à différents modèles Gemini et superposent une interface de type chatbot. Considérez-les comme des interfaces pour l'IA générative de Google, analogues à ChatGPT et à la famille d'applications Claude d'Anthropic.

Gemini sur le Web est disponible ici . Sur Android, l' application Gemini remplace l'application Google Assistant existante. Et sur iOS, les applications Google et Google Search servent de clients Gemini de cette plateforme.
Sur Android, il est également possible depuis peu de faire apparaître la superposition Gemini au-dessus de n'importe quelle application pour poser des questions sur ce qui se trouve à l'écran (par exemple, une vidéo YouTube). Il suffit d'appuyer longuement sur le bouton d'alimentation d'un smartphone pris en charge ou de dire « Ok Google » ; la superposition apparaîtra.
Les applications Gemini peuvent accepter des images ainsi que des commandes vocales et du texte (y compris des fichiers tels que des PDF et bientôt des vidéos, téléchargés ou importés depuis Google Drive) et générer des images. Comme vous pouvez vous y attendre, les conversations avec les applications Gemini sur mobile sont transférées vers Gemini sur le Web et vice versa si vous êtes connecté au même compte Google aux deux endroits.
Les applications Gemini ne sont pas le seul moyen de bénéficier de l'aide des modèles Gemini pour certaines tâches. Lentement mais sûrement, les fonctionnalités imprégnées de Gemini font leur chemin dans les applications et services phares de Google, comme Gmail et Google Docs.
Pour profiter de la plupart de ces fonctionnalités, vous aurez besoin du forfait Google One AI Premium. Techniquement, faisant partie de Google One , le forfait AI Premium coûte 20 $ et donne accès à Gemini dans les applications Google Workspace telles que Docs, Maps, Slides, Sheets, Drive et Meet. Il permet également ce que Google appelle Gemini Advanced, qui apporte les modèles Gemini les plus sophistiqués de la société aux applications Gemini.
Les utilisateurs de Gemini Advanced bénéficient également de petits plus, comme un accès prioritaire aux nouvelles fonctionnalités, la possibilité d'exécuter et de modifier du code Python directement dans Gemini et une « fenêtre contextuelle » plus grande. Gemini Advanced peut mémoriser le contenu d'environ 750 000 mots dans une conversation (ou 1 500 pages de documents) et raisonner sur ces derniers. C'est à comparer aux 24 000 mots (ou 48 pages) que l'application Gemini standard peut gérer.

Gemini Advanced donne également accès aux utilisateurs à la fonctionnalité Deep Research de Google, qui utilise le « raisonnement avancé » et les « capacités de contexte long » pour générer des résumés de recherche. Après avoir demandé au chatbot de l'approuver, il crée un plan de recherche en plusieurs étapes, vous demande de l'approuver, puis Gemini prend quelques minutes pour effectuer une recherche sur le Web et générer un rapport détaillé basé sur votre requête. Il est destiné à répondre à des questions plus complexes telles que « Pouvez-vous m'aider à réaménager ma cuisine ? »
Google propose également aux utilisateurs de Gemini Advanced une fonction de mémorisation , qui permet au chatbot d'utiliser vos anciennes conversations avec Gemini comme contexte pour votre conversation actuelle. Les utilisateurs de Gemini Advanced bénéficient également d'une utilisation accrue de NotebookLM, le produit de l'entreprise qui transforme les PDF en podcasts générés par l'IA.
Les utilisateurs de Gemini Advanced ont également accès à la version expérimentale de Gemini 2.0 Pro de Google, le modèle phare de la société optimisé pour les problèmes de codage et de mathématiques difficiles.
Une autre exclusivité de Gemini Advanced est la planification de voyage dans Google Search, qui crée des itinéraires de voyage personnalisés à partir d'invites. En prenant en compte des éléments tels que les horaires de vol (à partir des e-mails dans la boîte de réception Gmail d'un utilisateur), les préférences de repas et les informations sur les attractions locales (à partir des données Google Search et Maps), ainsi que les distances entre ces attractions, Gemini génère un itinéraire qui se met à jour automatiquement pour refléter les changements.
Gemini sur les services Google est également disponible pour les clients professionnels via deux forfaits, Gemini Business (un module complémentaire pour Google Workspace) et Gemini Enterprise. Gemini Business coûte seulement 6 $ par utilisateur et par mois, tandis que Gemini Enterprise, qui ajoute la prise de notes lors des réunions et la traduction des légendes ainsi que la classification et l'étiquetage des documents, est généralement plus cher, mais son prix est fixé en fonction des besoins de l'entreprise. (Les deux forfaits nécessitent un engagement annuel.)
Dans Gmail, Gemini est situé dans un panneau latéral qui permet de rédiger des e-mails et de résumer les fils de discussion. Vous retrouverez le même panneau dans Docs, où il vous aide à rédiger et à peaufiner votre contenu et à réfléchir à de nouvelles idées. Gemini dans Slides génère des diapositives et des images personnalisées. Et Gemini dans Google Sheets suit et organise les données, en créant des tableaux et des formules.
Le chatbot IA de Google est récemment arrivé sur Maps , où Gemini peut résumer les avis sur les cafés ou proposer des recommandations sur la façon de passer une journée dans une ville étrangère.
La portée de Gemini s'étend également à Drive, où il peut résumer des fichiers et des dossiers et fournir des informations rapides sur un projet. Dans Meet, Gemini traduit les sous-titres dans d'autres langues.

Gemini est récemment arrivé sur le navigateur Chrome de Google sous la forme d'un outil d'écriture IA. Vous pouvez l'utiliser pour écrire quelque chose de complètement nouveau ou réécrire un texte existant. Google affirme qu'il tiendra compte de la page Web sur laquelle vous vous trouvez pour faire des recommandations.
Ailleurs, vous trouverez des traces de Gemini dans les produits de base de données de Google, les outils de sécurité cloud et les plateformes de développement d'applications (notamment Firebase et Project IDX ), ainsi que dans des applications comme Google Photos (où Gemini gère les requêtes de recherche en langage naturel), YouTube (où il aide à réfléchir à des idées de vidéos) et l' assistant de prise de notes NotebookLM .
Code Assist (anciennement Duet AI for Developers ), la suite d'outils d'assistance à l'intelligence artificielle de Google pour la saisie et la génération de code, délègue une grande partie de ses tâches de calcul à Gemini. Il en va de même pour les produits de sécurité de Google qui s'appuient sur Gemini , comme Gemini dans Threat Intelligence, qui peut analyser de grandes portions de code potentiellement malveillant et permettre aux utilisateurs d'effectuer des recherches en langage naturel pour détecter les menaces en cours ou les indicateurs de compromission.
Annoncés lors de la Google I/O 2024, les utilisateurs de Gemini Advanced peuvent créer des Gems , des chatbots personnalisés alimentés par des modèles Gemini. Les Gems peuvent être générés à partir de descriptions en langage naturel (par exemple, « Vous êtes mon coach de course à pied. Donnez-moi un programme de course quotidien ») et partagés avec d'autres personnes ou gardés privés.
Les Gems sont disponibles sur ordinateur et sur mobile dans 150 pays et dans la plupart des langues. À terme, ils pourront exploiter un ensemble étendu d'intégrations avec les services Google, notamment Google Agenda, Tasks, Keep et YouTube Music, pour effectuer des tâches personnalisées.

En parlant d’intégration, les applications Gemini sur le Web et sur mobile peuvent exploiter les services Google via ce que Google appelle les « extensions Gemini ». Gemini s’intègre aujourd’hui à Google Drive, Gmail et YouTube pour répondre à des requêtes telles que « Pouvez-vous résumer mes trois derniers e-mails ? » Plus tard cette année, Gemini sera en mesure d’effectuer des actions supplémentaires avec Google Calendar, Keep, Tasks, YouTube Music et Utilities, les applications exclusives à Android qui contrôlent les fonctionnalités de l’appareil comme les minuteurs et les alarmes, les commandes multimédias, la lampe de poche, le volume, le Wi-Fi, le Bluetooth, etc.
Une expérience appelée Gemini Live permet aux utilisateurs d'avoir des conversations vocales « approfondies » avec Gemini. Elle est disponible dans les applications Gemini sur mobile et sur les Pixel Buds Pro 2 , où elle est accessible même lorsque votre téléphone est verrouillé.
Avec Gemini Live activé, vous pouvez interrompre Gemini pendant que le chatbot parle (avec l'une des nombreuses nouvelles voix) pour lui poser une question de clarification, et il s'adaptera à vos habitudes de parole en temps réel. À un moment donné, Gemini est censé acquérir une compréhension visuelle, lui permettant de voir et de réagir à votre environnement, soit via des photos ou des vidéos capturées par les caméras de vos smartphones.

Live est également conçu pour servir de coach virtuel, vous aidant à vous entraîner pour des événements, à réfléchir à des idées, etc. Par exemple, Live peut suggérer les compétences à mettre en avant lors d'un prochain entretien d'embauche ou de stage, et peut vous donner des conseils pour parler en public.
Vous pouvez lire notre test de Gemini Live ici . Alerte spoiler : nous pensons que cette fonctionnalité a encore du chemin à parcourir avant d'être très utile, mais il est vrai que nous n'en sommes qu'au début.
Les utilisateurs de Gemini peuvent générer des illustrations et des images à l'aide du modèle Imagen 3 intégré de Google.
Google affirme qu'Imagen 3 peut comprendre plus précisément les messages texte qu'il traduit en images par rapport à son prédécesseur, Imagen 2 , et qu'il est plus « créatif et détaillé » dans ses générations. De plus, le modèle produit moins d'artefacts et d'erreurs visuelles (du moins selon Google), et constitue le meilleur modèle Imagen à ce jour pour le rendu de texte.

En février 2024, Google a été contraint de suspendre la capacité de Gemini à générer des images de personnes après que des utilisateurs se soient plaints d' inexactitudes historiques . Mais en août, la société a réintroduit la génération de personnes pour certains utilisateurs, en particulier les utilisateurs anglophones inscrits à l'un des forfaits Gemini payants de Google (par exemple, Gemini Advanced ) dans le cadre d'un programme pilote.
En juin, Google a lancé une expérience Gemini destinée aux adolescents, permettant aux étudiants de s'inscrire via leurs comptes scolaires Google Workspace for Education.
L'application Gemini, destinée aux adolescents, dispose de « politiques et de garanties supplémentaires », notamment un processus d'intégration personnalisé et un « guide d'apprentissage de l'IA » pour (comme le dit Google) « aider les adolescents à utiliser l'IA de manière responsable ». Sinon, elle est presque identique à l'expérience Gemini standard, jusqu'à la fonction de « double vérification » qui examine le Web pour voir si les réponses de Gemini sont exactes.
Un nombre croissant d'appareils fabriqués par Google utilisent Gemini pour des fonctionnalités améliorées, du Google TV Streamer aux Pixel 9 et 9 Pro en passant par le tout nouveau Nest Learning Thermostat .
Sur Google TV Streamer, Gemini utilise vos préférences pour organiser les suggestions de contenu parmi vos abonnements et résumer les critiques et même des saisons entières de télévision.

Sur le dernier thermostat Nest (ainsi que sur les enceintes, caméras et écrans intelligents Nest), Gemini renforcera bientôt les capacités conversationnelles et analytiques de Google Assistant.
Les abonnés à l'abonnement Nest Aware de Google auront accès cette année à un aperçu des nouvelles expériences Gemini, comme les descriptions par IA des images des caméras Nest, la recherche de vidéos en langage naturel et les automatisations recommandées. Les caméras Nest comprendront ce qui se passe dans les flux vidéo en temps réel (par exemple, lorsqu'un chien creuse dans le jardin), tandis que l'application Google Home associée affichera les vidéos et créera des automatisations d'appareils à partir d'une description (par exemple, « Les enfants ont-ils laissé leur vélo dans l'allée ? », « Faire en sorte que mon thermostat Nest allume le chauffage quand je rentre du travail tous les mardis »).

Plus tard cette année, Google Assistant bénéficiera de quelques mises à jour sur les appareils de la marque Nest et d’autres appareils domestiques intelligents pour rendre les conversations plus naturelles. Des voix améliorées sont en cours d’élaboration, en plus de la possibilité de poser des questions complémentaires et de « [faire] des allers-retours [plus] faciles ».
Les modèles Gemini étant multimodaux, ils peuvent effectuer toute une gamme de tâches multimodales, de la transcription de la parole au sous-titrage d’images et de vidéos en temps réel. Bon nombre de ces fonctionnalités ont atteint le stade du produit (comme évoqué dans la section précédente), et Google promet bien plus dans un avenir pas trop lointain.
Bien sûr, il est un peu difficile de prendre l'entreprise au mot. Google n'a pas été à la hauteur lors du lancement initial de Bard. Plus récemment, il a fait des vagues avec une vidéo censée montrer les capacités de Gemini , qui était plus ou moins ambitieuse, mais pas en direct.
De plus, Google ne propose aucune solution à certains des problèmes sous-jacents de la technologie d'IA générative actuelle, comme ses biais codés et sa tendance à inventer des choses (c'est-à-dire à avoir des hallucinations ). Ses concurrents non plus, mais c'est un élément à garder à l'esprit lorsque vous envisagez d'utiliser ou de payer pour Gemini.
En supposant, pour les besoins de cet article, que Google soit honnête avec ses récentes déclarations, voici ce que les différents niveaux de Gemini peuvent faire maintenant et ce qu'ils seront capables de faire une fois qu'ils auront atteint leur plein potentiel :
Google affirme que Gemini Ultra , grâce à sa multimodalité, peut être utilisé pour aider à des tâches telles que les devoirs de physique, résoudre des problèmes étape par étape sur une feuille de calcul et signaler d'éventuelles erreurs dans des réponses déjà remplies.
Cependant, nous n'avons pas beaucoup vu Gemini Ultra ces derniers mois. Le modèle n'apparaît pas dans l'application Gemini et n'est pas répertorié sur la page de tarification de l'API de Google Gemini. Cependant, cela ne signifie pas que Google ne ramènera pas Gemini Ultra au premier plan de ses offres à l'avenir.
Selon Google, Ultra peut également être utilisé pour des tâches telles que l'identification d'articles scientifiques pertinents pour un problème. Le modèle peut par exemple extraire des informations de plusieurs articles et mettre à jour un graphique à partir d'un seul en générant les formules nécessaires pour recréer le graphique avec des données plus récentes.
Gemini Ultra prend techniquement en charge la génération d'images. Mais cette capacité n'a pas encore été intégrée à la version produite du modèle, peut-être parce que le mécanisme est plus complexe que celui utilisé par des applications telles que ChatGPT pour générer des images. Plutôt que d'envoyer des invites à un générateur d'images (comme DALL-E 3 , dans le cas de ChatGPT), Gemini génère des images « nativement », sans étape intermédiaire.
Ultra est disponible sous forme d'API via Vertex AI, la plateforme de développement d'IA entièrement gérée de Google, et AI Studio, l'outil Web de Google pour les développeurs d'applications et de plateformes.
Google affirme que son dernier modèle Pro, Gemini 2.0 Pro , est son meilleur modèle à ce jour en termes de performances de codage et de commandes complexes. Il est actuellement disponible en version expérimentale, ce qui signifie qu'il peut rencontrer des problèmes inattendus.
Gemini 2.0 Pro surpasse son prédécesseur, Gemini 1.5 Pro , dans les tests de référence mesurant le codage, le raisonnement, les mathématiques et l'exactitude factuelle. Le modèle peut prendre en compte jusqu'à 1,4 million de mots, deux heures de vidéo ou 22 heures d'audio et peut raisonner ou répondre à des questions sur ces données ( plus ou moins ).
Cependant, Gemini 1.5 Pro alimente toujours la fonction Deep Research de Google.
Gemini 2.0 Pro fonctionne en parallèle avec une fonctionnalité appelée exécution de code, publiée en juin en même temps que Gemini 1.5 Pro , qui vise à réduire les bugs dans le code généré par le modèle en affinant ce code de manière itérative sur plusieurs étapes. (L'exécution de code prend également en charge Gemini Flash.)
Au sein de Vertex AI, les développeurs peuvent personnaliser Gemini Pro en fonction de contextes et de cas d'utilisation spécifiques via un processus de réglage fin ou de « mise à la terre ». Par exemple, Pro (ainsi que d'autres modèles Gemini) peut être chargé d'utiliser des données provenant de fournisseurs tiers tels que Moody's, Thomson Reuters, ZoomInfo et MSCI, ou de s'approvisionner en informations à partir d'ensembles de données d'entreprise ou de Google Search au lieu de sa banque de connaissances plus large. Gemini Pro peut également être connecté à des API externes tierces pour effectuer des actions particulières, comme l'automatisation d'un flux de travail de back-office.
AI Studio propose des modèles pour créer des invites de chat structurées avec Pro. Les développeurs peuvent contrôler la gamme créative du modèle et fournir des exemples pour donner des instructions de ton et de style, et également ajuster les paramètres de sécurité de Pro.
Vertex AI Agent Builder permet aux utilisateurs de créer des « agents » basés sur Gemini au sein de Vertex AI. Par exemple, une entreprise peut créer un agent qui analyse les campagnes marketing précédentes pour comprendre le style d'une marque, puis appliquer ces connaissances pour aider à générer de nouvelles idées cohérentes avec ce style.
Google a baptisé Gemini 2.0 Flash son modèle d'IA pour l'ère des agents. Le modèle peut générer nativement des images et du son, en plus du texte, et peut utiliser des outils comme Google Search et interagir avec des API externes.
Le modèle Flash 2.0 est plus rapide que la génération précédente de modèles Gemini et surpasse même certains des plus grands modèles Gemini 1.5 lors de tests de codage et d'analyse d'images. Vous pouvez essayer Gemini 2.0 Flash dans l'application Web ou mobile Gemini et via les plateformes de développement IA de Google.
En décembre, Google a publié une version « pensante » de Gemini 2.0 Flash , capable de « raisonner », dans laquelle le modèle d'IA prend quelques secondes pour résoudre un problème à rebours avant de donner une réponse.
En février, Google a rendu la technologie Flash de Gemini 2.0 disponible dans l'application Gemini. Le même mois, Google a également publié une version plus petite appelée Gemini 2.0 Flash-Lite. La société affirme que ce modèle surpasse son modèle Flash Gemini 1.5, mais fonctionne au même prix et à la même vitesse.
Flash est une version compacte et efficace de Gemini Pro, conçue pour les charges de travail génératives d'IA étroites et à haute fréquence. Flash est multimodal comme Gemini Pro, ce qui signifie qu'il peut analyser l'audio, la vidéo, les images et le texte (mais il ne peut générer que du texte). Google affirme que Flash est particulièrement bien adapté aux tâches telles que les applications de résumé et de chat, ainsi qu'au sous-titrage d'images et de vidéos et à l'extraction de données à partir de longs documents et tableaux.
Les développeurs utilisant Flash et Pro peuvent éventuellement exploiter la mise en cache du contexte, qui leur permet de stocker de grandes quantités d'informations (par exemple, une base de connaissances ou une base de données d'articles de recherche) dans un cache auquel les modèles Gemini peuvent accéder rapidement et à moindre coût. La mise en cache du contexte est toutefois un coût supplémentaire qui s'ajoute aux autres frais d'utilisation du modèle Gemini.
Gemini Nano est une version beaucoup plus petite des modèles Gemini Pro et Ultra, et elle est suffisamment efficace pour s'exécuter directement sur (certains) appareils au lieu d'envoyer la tâche à un serveur quelque part. Jusqu'à présent, Nano alimente quelques fonctionnalités sur les Pixel 8 Pro, Pixel 8 , Pixel 9 Pro, Pixel 9 et Samsung Galaxy S24 , notamment Résumé dans l'enregistreur et Réponse intelligente dans Gboard.
L'application Recorder, qui permet aux utilisateurs d'appuyer sur un bouton pour enregistrer et transcrire des fichiers audio, comprend un résumé des conversations enregistrées, des entretiens, des présentations et d'autres extraits audio, alimenté par Gemini. Les utilisateurs obtiennent des résumés même s'ils n'ont pas de signal ou de connexion Wi-Fi. De plus, dans un souci de confidentialité, aucune donnée ne quitte leur téléphone pendant le processus.

Nano est également présent dans Gboard, le clavier de remplacement de Google. Il y alimente une fonctionnalité appelée Smart Reply, qui permet de suggérer la prochaine chose que vous voudrez dire lorsque vous avez une conversation dans une application de messagerie comme WhatsApp.
Dans l'application Google Messages sur les appareils pris en charge, Nano pilote Magic Compose, qui peut créer des messages dans des styles tels que « excité », « formel » et « lyrique ».
Google affirme qu'une future version d'Android utilisera Nano pour alerter les utilisateurs des escroqueries potentielles lors des appels. La nouvelle application météo des téléphones Pixel utilise Gemini Nano pour générer des bulletins météo personnalisés. Et TalkBack, le service d'accessibilité de Google, utilise Nano pour créer des descriptions auditives d'objets pour les utilisateurs malvoyants et aveugles.
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash et 2.0 Flash-Lite sont disponibles via l'API Gemini de Google pour la création d'applications et de services, le tout avec des options gratuites. Mais les options gratuites imposent des limites d'utilisation et laissent de côté certaines fonctionnalités, comme la mise en cache du contexte et le traitement par lots .
Les modèles Gemini sont par ailleurs payants. Voici le prix de base, sans compter les modules complémentaires comme la mise en cache du contexte, en vigueur en septembre 2024 :
- Gemini 1.5 Pro : 1,25 $ par million de jetons d'entrée (pour les invites jusqu'à 128 000 jetons) ou 2,50 $ par million de jetons d'entrée (pour les invites de plus de 128 000 jetons) ; 5 $ par million de jetons de sortie (pour les invites jusqu'à 128 000 jetons) ou 10 $ par million de jetons de sortie (pour les invites de plus de 128 000 jetons)
- Gemini 1.5 Flash : 7,5 cents par million de jetons d'entrée (pour les invites jusqu'à 128 000 jetons), 15 cents par million de jetons d'entrée (pour les invites de plus de 128 000 jetons), 30 cents par million de jetons de sortie (pour les invites jusqu'à 128 000 jetons), 60 cents par million de jetons de sortie (pour les invites de plus de 128 000 jetons)
- Gemini 2.0 Flash : 10 centimes par million de jetons d'entrée, 40 centimes par million de jetons de sortie. Pour l'audio en particulier, il faut compter 70 centres par million de jetons d'entrée et 40 centres par million de jetons de sortie.
- Gemini 2.0 Flash-Lite : 7,5 cents par million de jetons d'entrée, 30 cents par million de jetons de sortie.
Les jetons sont des éléments de données brutes subdivisés, comme les syllabes « fan », « tas » et « tic » dans le mot « fantastique » ; 1 million de jetons équivaut à environ 700 000 mots. L'entrée fait référence aux jetons introduits dans le modèle, tandis que la sortie fait référence aux jetons générés par le modèle.
Le prix de la version 2.0 Pro n'a pas encore été annoncé et Nano est toujours en accès anticipé .
Project Astra est le projet de Google DeepMind visant à créer des applications et des « agents » basés sur l'IA pour une compréhension multimodale en temps réel. Dans des démonstrations, Google a montré comment le modèle d'IA peut traiter simultanément des vidéos et des fichiers audio en direct. Google a publié une version applicative de Project Astra auprès d'un petit nombre de testeurs de confiance en décembre, mais n'a pas prévu de diffusion plus large pour le moment.
L'entreprise aimerait intégrer le projet Astra dans une paire de lunettes intelligentes . Google a également donné un prototype de lunettes avec le projet Astra et des capacités de réalité augmentée à quelques testeurs de confiance en décembre. Cependant, il n'y a pas encore de produit clair à ce jour, et on ne sait pas quand Google sortira réellement quelque chose comme ça.
Le projet Astra n’est encore qu’un projet et non un produit. Cependant, les démonstrations d’Astra révèlent ce que Google aimerait que ses produits d’IA fassent à l’avenir.
C'est possible.
Apple a annoncé être en pourparlers pour utiliser Gemini et d'autres modèles tiers pour un certain nombre de fonctionnalités de sa suite Apple Intelligence . Après une présentation liminaire à la WWDC 2024, le vice-président senior d'Apple, Craig Federighi, a confirmé son intention de travailler avec des modèles , dont Gemini, mais il n'a pas divulgué de détails supplémentaires.
Cet article a été initialement publié le 16 février 2024 et est mis à jour régulièrement.
techcrunch