IBM Granite 3.2 utilise le raisonnement conditionnel, la prévision des séries chronologiques et la vision des documents pour s'attaquer aux cas d'utilisation d'entreprise difficiles

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. En savoir plus
Dans le sillage des débuts disruptifs de DeepSeek-R1 , les modèles de raisonnement ont fait fureur jusqu'à présent en 2025.
IBM rejoint désormais la fête avec le lancement aujourd'hui de sa famille de modèles de langage étendus (LLM) Granite 3.2. Contrairement à d'autres approches de raisonnement telles que DeepSeek-R1 ou o3 d'OpenAI, IBM intègre profondément le raisonnement dans ses principaux modèles open source Granite . Il s'agit d'une approche qu'IBM appelle raisonnement conditionnel, où le raisonnement par chaîne de pensée étape par étape (CoT) est une option au sein des modèles (au lieu d'être un modèle séparé).
Il s'agit d'une approche flexible dans laquelle le raisonnement peut être activé de manière conditionnelle avec un indicateur, ce qui permet aux utilisateurs de contrôler quand utiliser un traitement plus intensif. La nouvelle capacité de raisonnement s'appuie sur les gains de performances introduits par IBM avec la sortie des LLM Granite 3.1 en décembre 2024.
IBM lance également un nouveau modèle de vision dans la famille Granite 3.2, spécialement optimisé pour le traitement de documents. Ce modèle est particulièrement utile pour la numérisation de documents existants, un défi auquel de nombreuses grandes organisations sont confrontées.
Un autre défi de l'IA d'entreprise qu'IBM souhaite résoudre avec Granite 3.2 est la modélisation prédictive. L'apprentissage automatique (ML) est utilisé pour les prédictions depuis des décennies, mais il n'a pas l'interface en langage naturel et la facilité d'utilisation de l'IA de génération moderne. C'est là que les modèles de prévision de séries chronologiques Granite d'IBM entrent en jeu ; ils appliquent la technologie des transformateurs pour prédire les valeurs futures à partir de données temporelles.
« Le raisonnement n'est pas quelque chose qu'un modèle est, c'est quelque chose qu'un modèle fait », a déclaré à VentureBeat David Cox, vice-président des modèles d'IA chez IBM Research.
Même si les modèles de raisonnement ne manquent pas d’enthousiasme et de battage médiatique en 2025, le raisonnement pour lui-même n’apporte pas nécessairement de valeur aux utilisateurs d’entreprise.
La capacité de raisonner à de nombreux égards fait depuis longtemps partie de l'IA de génération. Le simple fait d'inviter un LLM à répondre par une approche étape par étape déclenche un résultat de raisonnement CoT de base. Le raisonnement moderne dans des modèles comme DeepSeek-R1 et maintenant Granite 3.2 va un peu plus loin en utilisant l'apprentissage par renforcement pour entraîner et activer les capacités de raisonnement.
Si les invites CoT peuvent être efficaces pour certaines tâches comme les mathématiques, les capacités de raisonnement de Granite 3.2 peuvent bénéficier à un plus large éventail d'applications d'entreprise. Cox a noté qu'en encourageant le modèle à passer plus de temps à réfléchir, les entreprises peuvent améliorer les processus de prise de décision complexes. Le raisonnement peut profiter aux tâches d'ingénierie logicielle, à la résolution des problèmes informatiques et à d'autres flux de travail d'agents où le modèle peut décomposer les problèmes, prendre de meilleures décisions et recommander des solutions plus éclairées.
IBM affirme également qu'avec le raisonnement activé, Granite 3.2 est capable de surpasser ses concurrents, notamment DeepSeek-R1, sur les tâches de suivi des instructions.
Bien que Granite 3.2 dispose de capacités de raisonnement avancées, Cox a souligné que toutes les requêtes ne nécessitent pas réellement plus de raisonnement. En fait, de nombreux types de requêtes courantes peuvent en réalité être impactés négativement par un raisonnement plus poussé.
Par exemple, pour une requête basée sur les connaissances, un modèle de raisonnement autonome comme DeepSeek-R1 peut passer jusqu'à 50 secondes sur un monologue interne pour répondre à une question de base comme « Où est Rome ? »
L'une des principales innovations de Granite 3.2 est l'introduction d'une fonction de réflexion conditionnelle, qui permet aux développeurs d'activer ou de désactiver de manière dynamique les capacités de raisonnement du modèle. Cette flexibilité permet aux utilisateurs de trouver un équilibre entre vitesse et profondeur d'analyse, en fonction de la tâche spécifique à accomplir.
Pour aller plus loin, les modèles Granite 3.2 bénéficient d'une méthode développée par l'unité commerciale Red Hat d'IBM qui utilise ce qu'on appelle un « filtre à particules » pour permettre des capacités de raisonnement plus flexibles.
Cette approche permet au modèle de contrôler et de gérer de manière dynamique plusieurs threads de raisonnement, en évaluant lesquels sont les plus prometteurs pour arriver au résultat final. Cela permet d'obtenir un processus de raisonnement plus dynamique et adaptatif, plutôt qu'un CoT linéaire. Cox a expliqué que cette technique de filtrage des particules offre aux entreprises encore plus de flexibilité dans la manière dont elles peuvent utiliser les capacités de raisonnement du modèle.
Dans l'approche du filtre à particules, de nombreux raisonnements se déroulent simultanément. Le filtre à particules élimine les approches les moins efficaces et se concentre sur celles qui donnent les meilleurs résultats. Ainsi, au lieu de se contenter d'un raisonnement CoT, il existe plusieurs approches pour résoudre un problème. Le modèle peut naviguer intelligemment dans des problèmes complexes, en se concentrant de manière sélective sur les raisonnements les plus prometteurs.
Les grandes organisations ont tendance à disposer de volumes de documents tout aussi importants, dont beaucoup ont été numérisés il y a des années et sont désormais archivés. Toutes ces données sont difficiles à exploiter avec les systèmes modernes.
Le nouveau modèle de vision Granite 3.2 est conçu pour aider à résoudre ce défi d'entreprise. Alors que de nombreux modèles multimodaux se concentrent sur la compréhension générale des images, les capacités de vision de Granite 3.2 sont conçues spécifiquement pour le traitement des documents, reflétant l'accent mis par IBM sur la résolution de problèmes d'entreprise concrets plutôt que sur la poursuite de scores de référence.
Le système cible ce que Cox décrit comme des « quantités irrationnelles de vieux documents numérisés » stockés dans les archives des entreprises, en particulier dans les institutions financières. Il s’agit de magasins de données opaques qui sont restés largement inexploités malgré leur valeur commerciale potentielle.
Pour les organisations disposant de plusieurs décennies de documents papier, la capacité de traiter intelligemment des documents contenant des graphiques, des figures et des tableaux représente un avantage opérationnel substantiel par rapport aux modèles multimodaux à usage général qui excellent dans la description des photos de vacances mais ont du mal avec les documents commerciaux structurés.
Sur les benchmarks d'entreprise tels que DocVQA et ChartQA, IBM Granite vision 3.2 affiche de bons résultats par rapport à ses concurrents.
L'élément techniquement le plus distinctif de cette version est peut-être les « petits mélangeurs temporels » (TTM) d'IBM, des modèles spécialisés basés sur des transformateurs conçus spécifiquement pour la prévision des séries chronologiques.
Cependant, la prévision des séries chronologiques, qui permet l’analyse et la modélisation prédictives, n’est pas une nouveauté. Cox a noté que pour diverses raisons, les modèles de séries chronologiques sont restés bloqués dans l’ancienne ère de l’apprentissage automatique (ML) et n’ont pas bénéficié de la même attention que les modèles d’IA de nouvelle génération, plus voyants.
Les modèles Granite TTM appliquent les innovations architecturales qui ont permis les avancées de LLM à un domaine de problèmes entièrement différent : la prévision des valeurs futures en fonction des modèles historiques. Cette capacité répond aux besoins critiques des entreprises en matière de prévisions financières, de planification de la maintenance des équipements et de détection des anomalies.
Le battage médiatique ne manque pas et les fournisseurs prétendent tous se surpasser les uns les autres sur une infinité de critères de référence du secteur.
Pour les décideurs d'entreprise, il peut être intéressant de prendre note des points de référence, mais ce n'est pas ce qui résout les problèmes. Cox a souligné qu'IBM adopte une approche « costume-cravate » en matière d'IA d'entreprise, cherchant à résoudre de vrais problèmes.
« Je pense que nous sommes en train de penser que nous pouvons avoir un modèle super intelligent qui fera tout ce que nous avons besoin de faire, mais pour le moment, nous n'en sommes même pas encore là », a déclaré Cox. « Notre stratégie consiste à créer des outils réels et pratiques en utilisant cette technologie très intéressante, et à y intégrer autant de fonctionnalités que possible qui facilitent le travail réel. »
Si vous souhaitez impressionner votre patron, VB Daily a tout ce qu'il vous faut. Nous vous donnons un aperçu de ce que font les entreprises avec l'IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de vous être abonné. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat