Transcription, voix, image : Microsoft déploie ses modèles maison dans Foundry

Microsoft annonce la disponibilité de trois modèles génératifs développés en interne dans Microsoft Foundry : MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2. C’est la première fois que ces modèles sont accessibles à l’ensemble des développeurs et développeuses pour un usage commercial.

MAI-Transcribe-1, un modèle de transcription conçu pour les environnements difficiles

MAI-Transcribe-1 est le modèle le plus récent de la gamme. Il prend en charge la transcription de la parole vers le texte dans les 25 langues les plus utilisées dans les produits Microsoft, qui revendique la première place sur le benchmark FLEURS dans 11 de ces langues, tout en surpassant Whisper-large-v3 d’OpenAI sur les 14 autres. Microsoft met également en avant une vitesse de transcription en batch 2,5 fois supérieure à son offre Azure Fast existante.

Le modèle a été entraîné pour fonctionner dans des conditions dégradées : bruit ambiant, audio basse qualité, voix superposées. Il accepte les fichiers en MP3, WAV et FLAC. Mustafa Suleyman, CEO de Microsoft AI, décrit le coût GPU du modèle comme « deux fois inférieur à celui des autres modèles de pointe« , ce qu’il présente comme un avantage économique significatif pour l’entreprise. MAI-Transcribe-1 est déjà intégré à titre expérimental dans Copilot Voice et Teams pour la transcription conversationnelle.

MAI-Voice-1 et MAI-Image-2 complètent la gamme dans Foundry

Les deux autres modèles de la gamme sont également disponibles dans Foundry :

MAI-Voice-1 : qui peut générer 60 secondes d’audio en moins d’une seconde et permet de créer une voix personnalisée à partir de quelques secondes d’enregistrement. Microsoft indique que le modèle préserve l’identité vocale sur les contenus longs, avec un positionnement tarifaire présenté comme inférieur à la concurrence.
MAI-Image-2 : le modèle est désormais ouvert à l’usage commercial via l’API Foundry. Microsoft promet une génération au moins deux fois plus rapide que son prédécesseur, avec un déploiement progressif en cours dans Bing et PowerPoint.

Les tarifs des modèles MAI dans Foundry

MAI-Transcribe-1 : 0,36 $ par heure,
MAI-Voice-1 : 22 $ par million de caractères,
MAI-Image-2 : 5 $ par million de tokens en entrée texte, 33 $ par million de tokens en sortie image.

Une stratégie d’émancipation vis-à-vis d’OpenAI

Ce triple lancement s’inscrit dans une réorganisation engagée depuis plusieurs mois. En novembre 2025, Microsoft annonçait la création d’une équipe dédiée à la superintelligence pilotée par Mustafa Suleyman. Une renégociation du partenariat avec OpenAI a depuis offert à la firme la latitude nécessaire pour conduire ses travaux en parallèle. « C’est un plan que nous menions depuis longtemps », a déclaré Mustafa Suleyman à The Verge, ajoutant que la superintelligence constituait désormais « uniquement [son] objectif ».

Depuis le lancement de MAI-Image-1 en octobre 2025, la stratégie d’autonomie de Microsoft sur les modèles s’accélère progressivement. La firme distribue toujours les modèles d’OpenAI et d’Anthropic dans son écosystème, mais construit en parallèle sa propre couche de modèles fondamentaux.