Microsoft Foundry incorpora MAI-Transcribe-1, MAI-Voice-1 y MAI-Image- – Brain and code tech

Microsoft ha anunciado la vista previa pública de tres nuevos modelos en Microsoft Foundry: MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. Según la compañía, este lanzamiento supone otro paso en su objetivo de ofrecer una plataforma de IA y agentes lo más completa posible para desarrolladores, con acceso a modelos, herramientas, infraestructura, seguridad y fiabilidad para construir y escalar soluciones.

La novedad reúne capacidades de reconocimiento de voz, generación de voz y generación de imágenes dentro de Foundry. Microsoft señala además que estos modelos ya impulsan productos propios como Copilot, Bing, PowerPoint y Azure Speech, y que ahora pasan a estar disponibles exclusivamente en Foundry para desarrolladores.

Un paso más hacia una plataforma de IA más completa

Microsoft presenta este anuncio como una ampliación de su propuesta dentro de Foundry. En concreto, incorpora tres modelos en vista previa pública:

MAI-Transcribe-1, su modelo de primera generación para reconocimiento de voz.
MAI-Voice-1, un modelo de generación de voz de alta fidelidad.
MAI-Image-2, su modelo de texto a imagen de mayor capacidad hasta la fecha.

La compañía enmarca estos lanzamientos dentro de su visión de una plataforma integral para crear aplicaciones y agentes con IA.

MAI-Transcribe-1 y MAI-Voice-1: una base de audio para experiencias de voz de extremo a extremo

Microsoft sitúa la voz y el habla como una interfaz cada vez más relevante para la nueva generación de agentes de IA. En ese contexto, presenta MAI-Voice-1 y MAI-Transcribe-1 como una pila de audio de primera parte orientada a desarrolladores.

Qué destaca Microsoft de MAI-Voice-1

La compañía define MAI-Voice-1 como un modelo de generación de voz especialmente rápido. Según el texto original, es capaz de producir 60 segundos de audio expresivo en menos de un segundo con una sola GPU.

Microsoft lo presenta como uno de los sistemas de voz más eficientes disponibles actualmente.

Qué destaca Microsoft de MAI-Transcribe-1

En el caso de MAI-Transcribe-1, Microsoft destaca varios puntos:

Soporte para hasta 25 idiomas.
Fiabilidad orientada a empresa en distintos acentos, idiomas y condiciones de audio del mundo real.
Precisión competitiva frente a modelos líderes de transcripción.
Coste en GPU cercano a la mitad frente a alternativas líderes, según sus benchmarks.

La compañía subraya que esta eficiencia puede traducirse en precios más predecibles y escalables para entornos empresariales.

Casos de uso de MAI-Transcribe-1 y MAI-Voice-1

Microsoft plantea estos modelos para uso en producción en diferentes escenarios reales. Entre los casos de uso que menciona están:

IA conversacional y asistencia a agentes: transcripción en tiempo real para sistemas IVR, asistentes virtuales y flujos de trabajo de contact center.
Subtitulado en directo y accesibilidad: generación de subtítulos en tiempo real para eventos, reuniones empresariales y comunicaciones digitales.
Medios, subtitulado y archivado: automatización del subtitulado de vídeo, indexación de diálogos y transcripción.
Educación y plataformas de formación: transcripción de clases, módulos de aprendizaje y programas de certificación.
Insights de cliente y mercado: conversión de interacciones habladas en datos estructurados para analítica e inteligencia de negocio.

Además, Microsoft explica que estas capacidades ya se están utilizando en sus propios productos. Según el artículo:

MAI-Voice-1 impulsa las experiencias de voz expresiva en Copilot Audio Expressions y en funciones de pódcast.
MAI-Transcribe-1 se utiliza en las transcripciones de Voice Mode de Copilot y en la nueva función de dictado.

El texto añade que ambos modelos están disponibles a través de Azure Speech, donde los desarrolladores pueden combinar la calidad de los modelos MAI con la fiabilidad, escalabilidad y la galería de más de 700 voces del ecosistema Azure Speech.

Cómo empezar con MAI-Transcribe-1 y MAI-Voice-1

Microsoft propone dos vías principales para empezar a trabajar con estos modelos:

Experimentación

Los desarrolladores pueden probarlos en MAI Playground, hablando, grabando o subiendo audio para ver su funcionamiento.

Desarrollo e implementación

También pueden desplegar ambos modelos en Azure Speech. El artículo especifica estos precios de partida:

MAI-Transcribe-1: desde 0,36 USD por hora.
MAI-Voice-1: desde 22 USD por 1 millón de caracteres.

El texto también indica que quienes quieran crear voces personalizadas con MAI-Voice-1 pueden hacerlo mediante la función Personal Voice de Azure Speech, incluida la posibilidad de clonar una voz a partir de una muestra de audio de 10 segundos. Microsoft aclara que la creación de voces personalizadas requiere un proceso de aprobación coherente con sus políticas de IA responsable.

MAI-Image-2: generación de imágenes para flujos creativos y aplicaciones

En el apartado visual, Microsoft presenta MAI-Image-2 como su modelo de texto a imagen de mayor capacidad. La compañía sitúa las imágenes como un elemento central en la creación de experiencias creativas impulsadas por IA, desde herramientas de marketing hasta plataformas de contenido y agentes multimodales.

Según el texto, MAI-Image-2 se ha desarrollado en estrecha colaboración con fotógrafos, diseñadores y narradores visuales, y debutó entre las tres principales familias de modelos de texto a imagen en la clasificación de Arena.ai.

Qué capacidades resalta Microsoft en MAI-Image-2

Microsoft afirma que el modelo mejora en aspectos clave para flujos creativos reales, entre ellos:

generación de imágenes más naturales y fotorrealistas.
mejor renderizado del texto dentro de la imagen para infografías y diagramas.
mayor precisión en composiciones complejas, escenas detalladas y visuales cinematográficos.

Casos de uso de MAI-Image-2

El artículo recoge varios escenarios de uso para este modelo:

Ideación creativa y medios: exploración de direcciones visuales, estilos y composiciones en fases tempranas del proceso creativo.
Comunicación corporativa y branding interno: creación de visuales personalizados para campañas internas, materiales de formación y comunicaciones ejecutivas.
Visualización de producto y UX: generación de interfaces, flujos, entornos y escenarios conceptuales a partir de descripciones de texto.

Microsoft añade un ejemplo empresarial concreto: WPP figura entre los primeros socios que están construyendo con MAI-Image-2 a escala, utilizándolo para flujos de producción creativa que antes requerían un esfuerzo manual significativo.

El texto incluye además una valoración de Rob Reilly, Global Chief Creative Officer de WPP, quien describe MAI-Image-2 como una plataforma que responde a los matices de la dirección creativa y respeta el trabajo artesanal implicado en la creación de imágenes listas para campañas.

Implementación y acceso a MAI-Image-2

Microsoft indica que también está integrando MAI-Image-2 en productos propios como Copilot, Bing Image Creator y PowerPoint.

Para empezar a utilizarlo, la compañía plantea dos opciones:

Vista previa en MAI Playground

Los usuarios pueden previsualizar el modelo y compartir feedback con el equipo.

Despliegue en Foundry

MAI-Image-2 puede desplegarse vía API para construir aplicaciones y agentes. El artículo señala estos precios de partida:

5 USD por 1 millón de tokens de entrada de texto.
33 USD por 1 millón de tokens de salida de imagen.

Qué resume este anuncio

El anuncio de Microsoft Foundry reúne tres movimientos en una misma dirección:

Ampliar la oferta de modelos propios en audio e imagen.
Llevar a Foundry tecnologías que ya utiliza en productos como Copilot, Bing y PowerPoint.
Ofrecer a los desarrolladores herramientas para construir experiencias de voz, transcripción e imagen dentro de su propia plataforma.

Más que un lanzamiento aislado, el texto lo presenta como un nuevo avance dentro de la visión de Microsoft de una plataforma de IA completa para desarrollo y escalado de aplicaciones y agentes.

Fuente

Fuente
Naomi Moneypenny, “Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 in Microsoft Foundry”, Microsoft, 2 de abril de 2026.

Microsoft Foundry incorpora MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 como nuevos modelos de audio e imagen