noticias
noticias·20 de abril de 2026·4 min·Bitcoin.com News

Nvidia Lanza Nemotron 3 Super, un Modelo de 120B de Inteligencia Artificial Abierto para Cargas Agentes

ETHUNI
Nvidia Lanza Nemotron 3 Super, un Modelo de 120B de Inteligencia Artificial Abierto para Cargas Agentes
Foto: Pixabay

Nvidia ha lanzado Nemotron 3 Super, un modelo de 120 mil millones de parámetros de inteligencia artificial abierto híbrido diseñado para reducir el costo de cómputo de ejecutar agentes de inteligencia artificial a gran escala. El modelo es el segundo en la familia Nemotron 3 de Nvidia, después de Nemotron 3 Nano de diciembre de 2025. Nvidia anunció el lanzamiento alrededor del 10 de marzo de 2026.

El modelo utiliza una estructura de fondo híbrida Mamba-Transformer a lo largo de 88 capas. Los bloques Mamba-2 manejan secuencias largas con eficiencia lineal en tiempo, mientras que las capas de atención de Transformer preservan la precisión de recordatorio. Esta combinación da al modelo soporte nativo para ventanas de contexto hasta un millón de tokens sin las penalizaciones de memoria típicas de diseños de atención puros.

Nvidia también ha implementado un sistema de enrutamiento LatentMoE que comprime las representaciones de tokens en un espacio de rango bajo antes de enviarlas a 512 expertos por capa, activando 22 a la vez. La empresa afirma que esto permite aproximadamente cuatro veces más expertos al mismo costo de inferencia en comparación con enfoques MoE estándar, y permite una especialización de tareas más fina, como separar la lógica de Python del manejo de SQL a nivel de experto. Las capas de predicción de múltiples tokens, utilizando dos cabezas de peso d, aceleran la generación de cadenas de pensamiento y permiten la codificación especulativa nativa. En tareas estructuradas, Nvidia informa un aumento de velocidad de generación de hasta tres veces.

El modelo se entrenó en 25 billones de tokens a lo largo de dos fases. La primera fase utilizó 20 billones de tokens de datos generales. La segunda fase utilizó 5 billones de tokens de alta calidad ajustados para rendimiento de referencia. Una fase de extensión final en 51 billones de tokens amplió el contexto nativo a un millón de tokens. El entrenamiento posterior incluyó ajuste de fine-tuning supervisado en aproximadamente 7 millones de muestras y aprendizaje por refuerzo a través de 21 entornos con más de 1,2 millones de iteraciones. En benchmarks, Nemotron 3 Super obtuvo 83,73 en MMLU-Pro, 90,21 en AIME25 y 60,47 en SWE-Bench utilizando OpenHands. En PinchBench, alcanzó un 85,6 por ciento, el puntaje más alto reportado entre modelos abiertos de su clase. En la evaluación de contexto largo, obtuvo 91,64 en RULER 1M.

En comparación con GPT-OSS-120B, Nemotron 3 Super entrega 2,2 veces más rendimiento a 8k de entrada y 64k de salida. Contra Qwen3.5-122B-A10B, ese número alcanza 7,5 veces. Nvidia también informa más de cinco veces el rendimiento y hasta dos veces la precisión sobre la generación anterior Nemotron Super. Nvidia entrenó el modelo de principio a fin en su formato de punto flotante de cuatro bits NVFP4, optimizado para GPUs Blackwell. En hardware B200, Nvidia afirma que la inferencia corre hasta cuatro veces más rápido en comparación con FP8 en H100 sin pérdida de precisión reportada. Los puntos de control cuantizados FP8 y NVFP4 retienen el 99,8 por ciento o más de precisión de precisión completa.

El modelo también alimenta al agente de investigación de inteligencia artificial Nvidia AI-Q, que alcanzó la posición número uno en el tablero de líderes de Deepresearch Bench. Nemotron 3 Super está completamente abierto bajo la licencia de modelo de Nemotron 3 de Nvidia. Los puntos de control en BF16, FP8 y NVFP4, junto con los datos de entrenamiento previo, las muestras de post-entrenamiento y los entornos de aprendizaje por refuerzo, están disponibles en Hugging Face. La inferencia se admite a través de Nvidia NIM, build.nvidia.com, Perplexity, Openrouter, Together AI, Google Cloud, AWS, Azure y Coreweave, con opciones en sitio a través de Dell Enterprise Hub y HPE. Los desarrolladores pueden acceder a recetas de entrenamiento, guías de fine-tuning y libros de cocina de inferencia a través de la plataforma NeMo utilizando vLLM, SGLang y TensorRT-LLM.

Compartir

Relacionados