Les nouveaux modèles d'IA Phi-4 de Microsoft offrent de grandes performances dans de petits formats

Inscrivez-vous à nos newsletters quotidiennes et hebdomadaires pour recevoir les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. En savoir plus
Microsoft a présenté une nouvelle classe de modèles d’IA hautement efficaces qui traitent simultanément du texte, des images et de la parole tout en nécessitant beaucoup moins de puissance de calcul que les systèmes existants. Les nouveaux modèles Phi-4 , lancés aujourd’hui, représentent une avancée dans le développement de petits modèles de langage (SLM) qui offrent des capacités auparavant réservées à des systèmes d’IA beaucoup plus grands.
Phi-4-Multimodal , un modèle avec seulement 5,6 milliards de paramètres, et Phi-4-Mini , avec 3,8 milliards de paramètres, surpassent des concurrents de taille similaire et égalent ou dépassent même les performances de modèles deux fois plus grands sur certaines tâches, selon le rapport technique de Microsoft.
« Ces modèles sont conçus pour doter les développeurs de capacités d’IA avancées », a déclaré Weizhu Chen, vice-président de l’IA générative chez Microsoft. « Phi-4-multimodal, avec sa capacité à traiter simultanément la parole, la vision et le texte, ouvre de nouvelles possibilités pour créer des applications innovantes et sensibles au contexte. »
Cette prouesse technique intervient à un moment où les entreprises recherchent de plus en plus des modèles d’IA capables de fonctionner sur du matériel standard ou en « périphérie » (directement sur les appareils plutôt que dans des centres de données cloud) pour réduire les coûts et la latence tout en préservant la confidentialité des données.
Ce qui distingue Phi-4-Multimodal est sa nouvelle technique de « mélange de LoRA », lui permettant de gérer des entrées de texte, d'images et de parole au sein d'un seul modèle.
« En exploitant le mélange de LoRA, Phi-4-Multimodal étend les capacités multimodales tout en minimisant les interférences entre les modalités », indique le document de recherche . « Cette approche permet une intégration transparente et garantit des performances cohérentes pour les tâches impliquant du texte, des images et de la parole/de l'audio. »
L’innovation permet au modèle de conserver ses fortes capacités linguistiques tout en ajoutant la vision et la reconnaissance vocale sans la dégradation des performances qui se produit souvent lorsque les modèles sont adaptés à plusieurs types d’entrées.
Le modèle a obtenu la première place du classement Hugging Face OpenASR avec un taux d'erreur de 6,14 %, surpassant les systèmes de reconnaissance vocale spécialisés comme WhisperV3 . Il démontre également des performances compétitives sur des tâches de vision comme le raisonnement mathématique et scientifique avec des images.
Malgré sa taille compacte, le Phi-4-Mini fait preuve de capacités exceptionnelles dans les tâches textuelles. Microsoft indique que le modèle « surpasse les modèles de taille similaire et est à égalité avec des modèles deux fois plus grands » dans divers tests de compréhension du langage.
Les performances du modèle sur les tâches mathématiques et de codage sont particulièrement remarquables. Selon le document de recherche , « Phi-4-Mini se compose de 32 couches de transformateurs avec une taille d'état caché de 3 072 » et intègre l'attention de requête de groupe pour optimiser l'utilisation de la mémoire pour la génération de contextes longs.
Lors du test de référence mathématique GSM-8K , Phi-4-Mini a obtenu un score de 88,6 %, surpassant la plupart des modèles à 8 milliards de paramètres, tandis que lors du test de référence MATH, il a atteint 64 %, un score nettement supérieur à celui des concurrents de taille similaire.
« Pour le benchmark Math, le modèle surpasse les modèles de taille similaire avec des marges importantes, parfois de plus de 20 points. Il surpasse même les scores de modèles deux fois plus grands », note le rapport technique.
Capacity , un moteur de réponse IA qui aide les organisations à unifier divers ensembles de données, a déjà exploité la famille Phi pour améliorer l'efficacité et la précision de sa plateforme.
Steve Frederickson, responsable produit chez Capacity, a déclaré dans un communiqué : « Dès nos premières expériences, ce qui nous a vraiment impressionné avec le Phi, c'est sa précision remarquable et sa facilité de déploiement, même avant la personnalisation. Depuis, nous avons pu améliorer à la fois la précision et la fiabilité, tout en maintenant la rentabilité et l'évolutivité que nous apprécions depuis le début. »
Capacity a signalé une économie de coûts de 4,2 fois par rapport aux flux de travail concurrents tout en obtenant des résultats qualitatifs identiques ou supérieurs pour les tâches de prétraitement.
Pendant des années, le développement de l'IA a été guidé par une philosophie singulière : plus c'est gros, mieux c'est. Plus de paramètres, de modèles plus grands, des exigences de calcul plus importantes. Mais les modèles Phi-4 de Microsoft remettent en question cette hypothèse, prouvant que la puissance n'est pas seulement une question d'échelle, mais aussi d'efficacité.
Phi-4-Multimodal et Phi-4-Mini ne sont pas conçus pour les centres de données des géants de la technologie, mais pour le monde réel, où la puissance de calcul est limitée, les préoccupations en matière de confidentialité sont primordiales et l’IA doit fonctionner de manière transparente sans connexion constante au cloud. Ces modèles sont petits, mais ils ont du poids. Phi-4-Multimodal intègre la parole, la vision et le traitement de texte dans un seul système sans sacrifier la précision, tandis que Phi-4-Mini offre des performances mathématiques, de codage et de raisonnement comparables à celles de modèles deux fois plus grands.
Il ne s’agit pas seulement de rendre l’IA plus efficace, mais aussi de la rendre plus accessible. Microsoft a positionné Phi-4 pour une adoption généralisée, en le rendant disponible via Azure AI Foundry , Hugging Face et le catalogue d’API Nvidia . L’objectif est clair : une IA qui ne soit pas enfermée dans un matériel coûteux ou une infrastructure massive, mais qui puisse fonctionner sur des appareils standard, à la périphérie des réseaux et dans des secteurs où la puissance de calcul est rare.
Masaya Nishimaki, directeur de la société japonaise d’intelligence artificielle Headwaters Co., Ltd., constate l’impact de ses solutions de première main. « L’intelligence artificielle de pointe affiche des performances exceptionnelles même dans des environnements où les connexions réseau sont instables ou où la confidentialité est primordiale », a-t-il déclaré dans un communiqué . Cela signifie que l’IA peut fonctionner dans les usines, les hôpitaux, les véhicules autonomes, des endroits où l’intelligence en temps réel est nécessaire, mais où les modèles traditionnels basés sur le cloud ne sont pas à la hauteur.
Fondamentalement, Phi-4 représente un changement de mentalité. L’IA n’est pas seulement un outil pour ceux qui ont les plus gros serveurs et les plus gros moyens. C’est une capacité qui, si elle est bien conçue, peut fonctionner n’importe où, pour n’importe qui. La chose la plus révolutionnaire à propos de Phi-4 n’est pas ce qu’il peut faire, mais où il peut le faire.
Si vous souhaitez impressionner votre patron, VB Daily a tout ce qu'il vous faut. Nous vous donnons un aperçu de ce que font les entreprises avec l'IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de vous être abonné. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat