Mixture of Experts (MoE) Explained: How Sparse Activation Powers AI at Scale

Los modelos de lenguaje grandes enfrentan un muro de ingeniería: más parámetros mejoran la calidad, pero cada parámetro añade coste de entrenamiento y latencia de inferencia. Mixture of Experts (MoE) rompe esta restricción activando solo una pequeña fracción del total de parámetros para cada token de entrada. DeepSeek-V3 almacena 671 mil millones de parámetros pero activa solo 37 mil millones por token. Eso es el 5,5% del modelo haciendo el 100% del trabajo en cada paso de inferencia. El resultado: rendimiento de nivel frontera a una fracción del coste de un modelo denso equivalente. Si construyes infraestructura de inferencia, evalúas modelos fundacionales o diseñas sistemas de IA, comprender la arquitectura MoE ya no es opcional. Es el paradigma de escalado dominante en 2025.
Qué Es Mixture of Experts (MoE)
Mixture of Experts es una arquitectura de red neuronal donde múltiples sub-redes especializadas, llamadas expertos, coexisten dentro de un solo modelo. Una función de enrutamiento aprendida decide qué expertos procesan cada entrada. El concepto se remonta a Jacobs et al. en 1991, pero se volvió práctico para la IA moderna cuando Shazeer et al. aplicaron gating disperso a los transformers en Google en 2017, demostrando que la computación condicional podía escalar.
En un transformer denso estándar, cada token de entrada pasa por cada parámetro en cada capa. En un transformer MoE, cada capa contiene múltiples redes feed-forward paralelas (los expertos) más un mecanismo de gating (el router). El router examina cada token y selecciona un pequeño subconjunto de expertos para procesarlo. Con 64 expertos y routing top-2, obtienes la especialización aprendida de 64 expertos al coste computacional de 2.
Esto importa porque las leyes de escalado demuestran que la calidad del modelo mejora con la cantidad de parámetros. MoE desacopla la capacidad total (todos los parámetros almacenados) del cómputo por token (parámetros activos por paso de inferencia). Puedes construir un modelo de 671B parámetros que funciona aproximadamente al coste de uno de 37B. Los modelos densos no pueden hacer esto. Cada parámetro se activa en cada token.
Cómo Funciona la Activación Dispersa
Una capa estándar de transformer consiste en un bloque de auto-atención seguido de una red feed-forward (FFN). En un transformer MoE, la FFN se reemplaza por N expertos FFN paralelos más una red de enrutamiento. Cuando un token llega a una capa MoE, ocurre la siguiente secuencia: la red de enrutamiento calcula una puntuación de routing para cada experto, se seleccionan los k expertos con mayor puntuación, cada experto seleccionado procesa el token de forma independiente, y las salidas se combinan mediante suma ponderada usando las puntuaciones de gating como pesos.
Matemáticamente, la función de gating toma el estado oculto h y produce G(h) = softmax(W_g * h). La función top-k pone a cero todos los valores excepto los k más altos. La salida final es y = suma de G_i(h) * E_i(h) para los k expertos seleccionados. Si activas 2 de 64 expertos, omites aproximadamente el 97% del cómputo de expertos. Dado que las capas FFN representan aproximadamente dos tercios de los FLOPs de un transformer, las capas FFN dispersas producen ahorros computacionales masivos.
La activación dispersa es fundamentalmente diferente de la poda o la destilación. La poda elimina permanentemente parámetros, reduciendo tanto la capacidad como el cómputo. La destilación entrena un modelo más pequeño para imitar a uno más grande. En MoE, todos los parámetros permanecen disponibles y pueden activarse cuando el router lo considere relevante. Esta computación condicional retiene la capacidad total de conocimiento del modelo mientras mantiene el coste de inferencia por token manejable. Un modelo MoE de 671B no sabe menos que un modelo denso de 671B. Simplemente accede a su conocimiento de forma selectiva.
La Red de Enrutamiento: Arquitectura del Router
El router es el componente más crítico de cualquier sistema MoE. Un router mal diseñado causa expert collapse: un modo de fallo donde la mayoría de los tokens se canalizan hacia un pequeño número de expertos populares mientras los expertos restantes reciben señal de entrenamiento insuficiente y se convierten efectivamente en peso muerto. Resolver este problema ha impulsado la mayor parte de la innovación arquitectónica en la investigación MoE durante los últimos cinco años.
Routing Top-K
El routing top-k es la estrategia estándar. Mixtral 8x7B usa top-2 entre 8 expertos. DeepSeek-V3 usa top-8 entre 256 expertos de grano fino. Un k más alto significa más cómputo por token pero potencialmente mejor calidad de salida; un k más bajo es más eficiente pero arriesga perder conocimiento relevante de expertos. La elección de k es un compromiso directo entre cómputo y calidad que varía según el caso de uso.
Pérdida de Balanceo de Carga
Sin intervención, los routers convergen naturalmente hacia enviar la mayoría de los tokens a unos pocos expertos que casualmente rinden ligeramente mejor al inicio del entrenamiento. El Switch Transformer de Google introdujo una pérdida auxiliar de balanceo de carga que penaliza la utilización desigual de expertos durante el entrenamiento. Este término de pérdida incentiva al router a distribuir tokens de manera más uniforme. DeepSeek-V3 adoptó un enfoque completamente diferente: una estrategia libre de pérdida auxiliar que aplica un término de sesgo dinámico a las puntuaciones de routing de expertos, ajustado en tiempo real según la utilización reciente. Esto evita la degradación de calidad que las pérdidas auxiliares agresivas pueden causar mientras mantiene la carga balanceada.
Capacidad de Expertos y Descarte de Tokens
En el entrenamiento y servicio distribuido, cada experto típicamente reside en una GPU o dispositivo diferente. Si un experto recibe demasiados tokens, se convierte en cuello de botella de todo el sistema. Muchas implementaciones establecen un factor de capacidad de expertos: los tokens que exceden este límite se descartan y se procesan mediante una conexión residual. DeepSeek-V3 evita este problema con un experto compartido que procesa cada token junto con los expertos enrutados, asegurando cero pérdida de información incluso cuando los expertos individuales alcanzan su capacidad.
Tipos de Arquitecturas MoE
No todas las implementaciones MoE son iguales. La arquitectura se ha ramificado en varias variantes distintas, cada una optimizando para diferentes restricciones.
MoE Estándar reemplaza cada capa FFN con una capa con gating de expertos. Mixtral 8x7B sigue este patrón: 8 expertos por capa MoE, routing top-2, implementación directa. Cada capa MoE es estructuralmente idéntica. Este enfoque es conceptualmente simple y bien comprendido.
MoE de Grano Fino utiliza muchos más expertos, pero más pequeños. DeepSeek-V3 emplea 256 expertos de grano fino con routing top-8 más un experto compartido por capa. Expertos más pequeños significan especialización más granular y mejor distribución de carga entre hardware. La contrapartida es una mayor complejidad de routing y sobrecarga de comunicación entre dispositivos.
MoE Top-1 (Switch Transformer) simplifica el routing a un solo experto por token. El Switch Transformer de Google (2022) demostró que el routing top-1 con balanceo de carga bien diseñado puede igualar el rendimiento top-2 mientras reduce el cómputo de expertos a la mitad. Esto simplificó los requisitos de ingeniería y probó que MoE podía escalar a modelos de un billón de parámetros.
MoE Híbrido-Denso intercala capas MoE con capas FFN densas estándar. No todas las capas necesitan ser dispersas. Algunas implementaciones aplican MoE cada dos capas o cada cuatro capas, reduciendo la sobrecarga de memoria mientras retienen la mayoría de la ventaja de capacidad. Esto es particularmente útil al desplegar en hardware con memoria limitada.
Modelos MoE Clave en 2025
DeepSeek-V3 es el modelo MoE abierto más ambicioso hasta la fecha. Tiene 671 mil millones de parámetros totales con 37 mil millones activos por token, usando 256 expertos de grano fino con routing top-8 más un experto compartido por capa MoE. Entrenado con 14,8 billones de tokens a un coste aproximado de 5,6 millones de dólares en horas de GPU H800, introdujo tres innovaciones clave: balanceo de carga libre de pérdida auxiliar, predicción multi-token como objetivo de entrenamiento y entrenamiento de precisión mixta FP8. El informe técnico de DeepSeek-V3 muestra rendimiento competitivo con modelos de clase GPT-4 a una fracción del coste estimado de entrenamiento.
Qwen3-235B de Alibaba Cloud tiene 235 mil millones de parámetros totales con aproximadamente 22 mil millones activos por token. Utiliza 128 expertos con routing top-8 y cuenta con un sistema de pensamiento dual: un modo extendido de cadena de pensamiento para razonamiento complejo y un modo rápido de respuesta directa para consultas simples. Con una ventana de contexto de 128K tokens y fuertes capacidades multilingües, Qwen3-235B demuestra que MoE puede alcanzar benchmarks competitivos de razonamiento mientras se mantiene desplegable en hardware más modesto de lo que requeriría un modelo denso equivalente.
Mixtral 8x7B de Mistral AI demostró que MoE era viable para código abierto a escala. Con 46,7 mil millones de parámetros totales y 12,9 mil millones activos por token, usa routing top-2 entre 8 expertos por capa. Mixtral igualó a Llama 2 70B en la mayoría de benchmarks con aproximadamente un quinto del cómputo de inferencia. Su simplicidad arquitectónica y licencia open-source sólida desencadenaron una ola de adopción de MoE en toda la industria.
Otros modelos notables incluyen el Switch Transformer de Google (pionero del routing top-1 a escala de un billón de parámetros), DBRX de Databricks (132B totales, 16 expertos, routing top-4), Grok-1 de xAI (314B MoE) y Snowflake Arctic (480B totales, 128 expertos). El patrón es claro: la mayoría de los modelos abiertos de escala frontera lanzados en 2024 y 2025 usan MoE.
Ventajas y Limitaciones
Las ventajas de MoE son sustanciales. La eficiencia de entrenamiento mejora drásticamente porque el paralelismo de expertos distribuye la computación entre GPUs de forma natural. El coste de inferencia se reduce porque solo una fracción de los parámetros se activa por token. La capacidad escala sin aumentos proporcionales de cómputo, que es la promesa fundamental. DeepSeek-V3 se entrenó a aproximadamente una décima parte del coste estimado de un modelo denso comparable.
Las limitaciones son igualmente reales. Los requisitos de memoria están vinculados al conteo total de parámetros, no al conteo de parámetros activos. Un modelo MoE de 671B necesita memoria para los 671B parámetros aunque solo 37B se activen por token. Esto hace que el despliegue en hardware de consumo sea impracticable para modelos MoE grandes sin técnicas de cuantización o descarga de expertos.
El colapso de expertos sigue siendo un desafío persistente de entrenamiento. Si el balanceo de carga falla, algunos expertos quedan sub-entrenados mientras otros se sobrecargan. La sobrecarga de comunicación en entornos distribuidos añade complejidad de ingeniería. Los modelos MoE también son más difíciles de ajustar finamente que los modelos densos porque las actualizaciones de gradiente deben propagarse correctamente a través del mecanismo de routing sin desestabilizar la especialización de los expertos.
MoE vs Modelos Densos
Por FLOP, MoE gana de forma convincente. Mixtral 8x7B iguala a Llama 2 70B con aproximadamente un quinto del cómputo de inferencia. DeepSeek-V3 alcanza calidad de frontera a una fracción del coste típico de entrenamiento. Empíricamente, los modelos MoE entregan 3-5x mejor rendimiento por dólar de cómputo comparado con equivalentes densos al mismo nivel de calidad.
Los modelos densos ganan en simplicidad. Un modelo denso de 7B cabe en una sola GPU de consumo. La misma calidad desde un modelo MoE podría requerir 46,7B de parámetros totales, necesitando memoria para todos ellos a pesar de que solo 12,9B se activan por token. Los modelos densos también tienen latencia uniforme y predecible, mientras que los modelos MoE pueden mostrar ligera variación dependiendo del paralelismo de expertos, patrones de routing de tokens y comunicación entre dispositivos.
El marco de decisión práctico es directo: si necesitas rendimiento de frontera y tienes la infraestructura para servir modelos grandes, MoE entrega más calidad por dólar. Si necesitas un modelo pequeño y fácil de desplegar para aplicaciones sensibles a la latencia, los modelos densos en el rango de 7B-13B siguen siendo la opción pragmática. La tendencia de 2025 es MoE para producción a gran escala y denso para despliegues edge o con recursos limitados.
MoE opera a nivel de modelo, optimizando cómo un solo modelo asigna su cómputo interno. Para la especialización a nivel de sistema donde diferentes tareas requieren diferentes herramientas, contextos y flujos de trabajo, la orquestación multi-agente aborda un problema complementario. Para una comparación directa de estos dos enfoques, consulta MoE vs sistemas multi-agente.
Preguntas Frecuentes
¿Qué es Mixture of Experts en IA?
Mixture of Experts (MoE) es una arquitectura de red neuronal que contiene múltiples sub-redes especializadas llamadas expertos. Una red de enrutamiento aprendida dirige cada token de entrada hacia un pequeño subconjunto de estos expertos, de modo que solo una fracción de los parámetros totales se activa durante cada paso de inferencia. Esto permite que modelos como DeepSeek-V3 (671B totales, 37B activos) alcancen una capacidad masiva a un coste computacional manejable. MoE es la arquitectura dominante detrás de la mayoría de los LLMs open-source de frontera lanzados en 2024 y 2025.
¿Cómo reduce la activación dispersa los costes de inferencia?
La activación dispersa significa que solo k de N expertos totales procesan cada token. Con los 256 expertos de DeepSeek-V3 y routing top-8, el modelo realiza aproximadamente 8/256 (3,1%) del cómputo total de expertos FFN comparado con un equivalente denso hipotético. Dado que las capas FFN representan aproximadamente el 66% de los FLOPs totales de un transformer, esto se traduce en ahorros sustanciales de inferencia. Mixtral 8x7B, por ejemplo, iguala la calidad de Llama 2 70B con aproximadamente un quinto del cómputo de inferencia.
¿Cuál es la diferencia entre modelos MoE y densos?
Los modelos densos activan cada parámetro para cada token de entrada, haciendo que el cómputo por token sea directamente proporcional al tamaño del modelo. Los modelos MoE activan solo un pequeño subconjunto de parámetros por token, desacoplando la capacidad del coste computacional. Un modelo MoE de 671B con 37B parámetros activos ofrece 671B de conocimiento aprendido a aproximadamente 37B de cómputo por token. La contrapartida es que MoE requiere memoria para todos los parámetros (no solo los activos) y añade complejidad de ingeniería a través de mecanismos de routing y requisitos de servicio distribuido.
Mira la Orquestación Multi-Agente en Acción
GuruSup ejecuta más de 800 agentes IA en producción con un 95% de resolución autónoma.
Reserva una Demo Gratis

