Xiaomi défie les géants de l’IA: Mimo arrive, le modèle open source qui excelle dans le raisonnement

Le panorama de l’intelligence artificielle générative devient de plus en plus encombrée et compétitive, mais Xiaomi ne semble pas du tout intimidé. En effet, la société chinoise a décidé de lancer le Glove Challenge en présentant MIMO, un nouveau grand modèle linguistique (LLM) qui promet de se démarquer pour une caractéristique très précise: les compétences de raisonnement.

Une décision ambitieuse, orchestrée par une équipe interne de nouvelle constitution, « l’équipe de base de Mode Model Xiaomi », qui marque l’entrée officielle du géant technologique dans l’arène open-source de l’IA avec un projet résolument intéressant.

Mimo est un « petit » modèle avec de grandes ambitions

À première vue, Mimo peut ne pas sembler révolutionnaire pour sa taille. Il s’agit d’un modèle de 7 milliards de paramètres, une taille considérable mais pas comparable aux vrais titans du secteur qui possèdent des dizaines ou des centaines de milliards de paramètres.

Cependant, c’est précisément ici que la particularité de la proposition de Xiaomi réside. La société déclare, en fait, que MIMO est capable de rivaliser avec des bras égaux, sinon dépassant, des modèles beaucoup plus importants, en particulier en ce qui concerne les tâches qui nécessitent un degré élevé de raisonnement logique-mathématique et dans la génération de code de programmation. Des noms à haute teneur tels que O1-MINI d’OpenAI et même un aperçu du modèle QWEN de 32 milliards de paramètres Alibaba sont mentionnés comme des termes de comparaison.

Obtenir des comptes pour le raisonnement si élevé à partir d’un modèle relativement compact n’est pas du tout simple. Xiaomi lui-même reconnaît que les résultats les plus impressionnants, en particulier ceux dérivant des techniques d’apprentissage pour le renforcement (apprentissage du renforcement – RL), proviennent généralement d’architectures beaucoup plus grandes. Ce qui est donc le« Ace dans la manche » de Xiaomi? Il semble résider dans la capacité de maximiser le potentiel intrinsèque du modèle de base de 7 milliards de paramètres.

Cela aurait été possible grâce aux stratégies ciblées et optimisées mises en œuvre à la fois pendant la phase de pré-formation (pré-formation) dans le raffinement ultérieur (post-formation). Un avantage collatéral non négatif d’un modèle plus rationalisé est sa plus grande convivialité potentielle: il pourrait être plus facilement adopté par les entreprises qui n’ont pas d’énormes grappes de GPU ou, à l’avenir, elles pourraient même être effectuées sur des appareils « Edge » avec des ressources limitées, telles que les smartphones ou autres gadgets.

Sous le capot: comment Mimo a-t-il été construit?

Mais comment les ingénieurs de Xiaomi ont-ils fait pour inculquer cette capacité de raisonnement dans leur modèle? L’approche est technique, mais nous essayons de la décomposer en plusieurs parties.

Phase 1: affiner les bases avec pré-formation

La fondation de Mimo réside dans un processus de pré-formation préalable profondément optimisé. Xiaomi souligne qu’il a travaillé intensément sur la gestion des données: améliorer le traitement des données brutes, améliorer les outils pour extraire du texte significatif et appliquer plusieurs niveaux de filtrage. L’objectif déclaré était d’augmenter la densité des modèles de raisonnement dans le matériel d’entraînement. Il ne fut donc pas de « repas » les données en vrac, mais de traiter soigneusement le matériel pédagogique du modèle.

Un ensemble de données spécialisé a été créé contenant environ 200 milliards de raisons de raisonnement « jeton » (les jetons sont les unités de base du langage pour une IA, comme des mots ou du code). Par la suite, une stratégie de «mélange de données» à trois étapes a été appliquée, entraînant progressivement le modèle sur un volume impressionnant de 25 billions de jetons totaux. Une charge d’apprentissage vraiment massive. De plus, une technique appelée prédiction à token multiple (MTP) a été utilisée, qui, selon Xiaomi, a non seulement amélioré les performances du modèle, mais contribue également à accélérer la génération de réponses pendant l’utilisation.

Phase 2: Compétences parfaites avec apprentissage du renforcement

Après la construction initiale, nous sommes passés à la phase de développement fin par l’apprentissage pour le renforcement (RL). Environ 130 000 problèmes de mathématiques et de programmation ont été soumis à MIMO. Un détail crucial est que ces problèmes ont été vérifiés pour la précision et la difficulté à utiliser des systèmes basés sur des règles, dans le but de s’assurer que le modèle a appris des exemples valides et corrects.

L’apprentissage du renforcement, cependant, peut présenter des défis avec des problèmes complexes où les réponses correctes (et donc les « récompenses » pour l’IA) sont rares (un phénomène appelé « récompenses dispersées« Ou récompenses dispersées). Pour contourner cet obstacle, l’équipe Xiaomi a mis en œuvre deux stratégies intelligentes. Le premier est un système appelé » Test Difficulté Recounward « , qui adapte vraisemblablement la récompense en fonction de la difficulté du problème résolu. La seconde est la » réchantillonnage des données facile « , une technique qui semble viser à maintenir l’entraînement RL stable par une révocation efficace révisée les plus simples.

Accélération du développement: l’importance de l’efficacité

La formation de ces modèles nécessite de très longues temps et une énorme puissance de calcul. Pour optimiser ce processus, Xiaomi a développé un instrument appelé « moteur Rolout sans couture » en interne. L’objectif est de réduire les temps morts des GPU pendant les cycles d’entraînement et de validation.

Les résultats déclarés sont remarquables: une accélération de 2 29x en formation et 1 96 fois en validation. Les temps d’optimisation sont fondamentaux dans le développement de l’IA. Ce moteur prend également en charge la technique de prédiction à plusieurs reprises dans le cadre VLLM populaire et, en général, rend l’inférence du système Xiaomi RL plus stable.

Une famille de modèles: les variantes du mime

Xiaomi n’a pas publié une seule version, mais une famille MIMO-7B entière, composée de quatre variantes:

  1. Mimo-7b-base: le modèle fondamental, le point de départ avec un fort potentiel de raisonnement déclaré.
  2. MIMO-7B -R-ZERO: Un modèle formé avec RL commençant directement à partir de la version de base.
  3. MIMO-7B-SFT: Une version créée via un tnet fin supervisé (formation supervisée montrant des exemples corrects).
  4. MIMO-7B-RL: Il semble que ce soit la version la plus performante. Il s’agit d’un modèle RL formé à partir de la version SFT et c’est ce que Xiaomi a utilisé pour des bancs comparatifs avec d’autres modèles tels que O1-MINI d’OpenAI.

À la preuve des faits: les résultats de la référence

Xiaomi a partagé une série de scores obtenus à partir de la variante MIMO-7B-RL (testé avec un réglage spécifique, température = 0,6). La référence n’est qu’une partie de l’image globale, mais fournit une indication intéressante sur les compétences du modèle:

  • Mathématiques:
    • MATH-500: atteint 95,8% de précision à la première tentative (passer @ 1) en une seule exécution. Un résultat résolument solide.
    • AIME 2024 (une compétition mathématique exigeante): moyenne de 68,2% passe @ 1 sur 32 exécutions.
    • AIME 2025: moyenne de 55,4% passe @ 1 sur 32 exécutions.
  • Génération de code:
    • LivecodeBench V5: 57,8% Pass @ 1 (moyenne de 8 exécutions).
    • LiveCodeBench V6: 49,3% PASS @ 1 (moyenne de 8 exécutions). Des scores qui semblent compétitifs.
  • Raisonnement général / Diverses tâches:
    • GPQA Diamond: 54,4% Pass @ 1 (moyenne de 8 exécutions).
    • SuperGPQA: 40,5% Pass @ 1 (exécution unique).
    • Drop (compréhension du texte, score F1): 78,7.
    • MMLU-PRO (connaissances larges, correspondance exacte): 58.6.
    • IF-EVAL (Suivez les instructions): 61,0 (moyenne de 8 exécutions).

L’analyse de ces nombres, en particulier les résultats en mathématiques, MIMO semble en fait très capable pour sa taille. Les performances de la programmation et des tâches générales semblent également compétitives dans le panorama actuel.

Où trouver et comment utiliser MIMO: l’importance de l’open source

La meilleure nouvelle pour les développeurs et les chercheurs est peut-être l’accessibilité. Xiaomi a réalisé toute la série de modèles MIMO-7B open source. Les modèles sont disponibles en téléchargement et à l’utilisation sur la plate-forme de visage étreint (à cette adresse). Pour ceux qui souhaitent approfondir les aspects techniques, la société a également publié un rapport complet et les points de contrôle du modèle sur GitHub.

Il est sans aucun doute positif de voir un autre grand nom de technologie contribuer activement à la communauté open source avec des outils potentiellement puissants. Maintenant, tout ce qui reste, c’est d’attendre et de voir comment la communauté des développeurs et des entreprises commencera à exploiter le mime dans le monde réel. Les locaux sont certainement intrigants.