Técnico

De las palabras a las acciones: el auge de los modelos de visión, lenguaje y acción en robótica

October 23rd, 2025

Octavio Deshays

Lead Machine Learning Engineer

1. Introducción

Hace solo unos años, la idea de decirle a un robot lo que debe hacer en un lenguaje sencillo —y hacer que comprenda, perciba su entorno y ejecute la tarea— parecía ciencia ficción. El viaje comenzó con Modelos lingüísticos de gran tamaño (LLMs), que transformaron nuestra capacidad de procesar y generar el lenguaje humano. Modelos de lenguaje visual Pronto llegaron los VLM, que fusionaron la percepción visual con la comprensión del lenguaje natural para que los sistemas de inteligencia artificial pudieran razonar conjuntamente sobre lo que ven y lo que se les dice. Sin embargo, para la robótica, la percepción y la conversación no eran suficientes: actuar en el mundo real requiere convertir los estímulos sensoriales y lingüísticos en comandos motores precisos y coordinados.

Aquí es donde Visión, lenguaje y acción Vienen los modelos (VLA). Los VLA no solo describen imágenes o siguen instrucciones, sino que generan directamente las acciones de los robots en tiempo real. Al combinar las capacidades de razonamiento de los VLM con las políticas de control para los sistemas físicos, los VLA unifican la percepción, la comprensión y la ejecución en un único canal. Esta integración permite que los robots de uso general puedan realizar diversas tareas, adaptarse a nuevos entornos y operar en diferentes plataformas robóticas sin tener que volver a capacitarse desde cero, lo que allana el camino para ejecutar tareas sin necesidad de hacer nada y acelerar los ciclos de desarrollo.

En este blog, exploraremos las arquitecturas que impulsan los sistemas VLA de última generación, empezando por el original Política de difusión y pasar a implementaciones a gran escala como Pi de Inteligencia Física y GR00T N1 de NVIDIA. También veremos cómo es Hugging Face Smolvla lleva estas capacidades a los laboratorios más pequeños y a las empresas emergentes, y la forma en que la biblioteca LeRobot hace posible que cualquier persona pueda entrenar, evaluar e implementar modelos de VLA. Por último, examinaremos Gemini Robotics 1.5, el último modelo de última generación para robótica. Este modelo integra un sistema de generación de planes para el mundo físico con un VLA para la ejecución del plan.

Al final, tendrás una idea clara de dónde se encuentra el campo y hacia dónde se dirige.

2. Arquitecturas basadas en difusión para VLA en robótica

El Política de difusión framework replantea el control de los robots como proceso de eliminación de ruido condicional en el espacio de acción. En lugar de predecir la siguiente acción directamente, el modelo comienza con una secuencia de acciones ruidosa y la refina de forma iterativa mediante un campo de gradiente aprendido, condicionado a las observaciones visuales recientes. Esto tiene varios beneficios prácticos: modela de forma natural distribuciones de acciones multimodales (capturando múltiples formas válidas de resolver una tarea), maneja salidas de alta dimensión al predecir secuencias de acción completas a la vez, y evita la inestabilidad de muchos métodos basados en la energía al eludir la necesidad de una normalización explícita.

En la práctica, la política de difusión se implementa con Basado en CNN o basado en transformadores redes de predicción de ruido, estas últimas particularmente eficaces para tareas que requieren cambios de acción rápidos y detallados. Utiliza control del horizonte en retroceso, donde el modelo predice una secuencia más larga de acciones futuras, pero solo ejecuta las primeras antes de volver a planificar, equilibrando la capacidad de respuesta con la coherencia temporal. Acondicionamiento visual se gestiona de manera eficiente codificando la observación una vez y reutilizando esa incrustación en las etapas de eliminación de ruido, lo que reduce la computación y permite la inferencia en tiempo real.

**Figura 1.***Arquitectura Pi: el VLM codifica la visión, el lenguaje y el estado; el experto en acciones que iguala el flujo emite comandos de alta frecuencia para varios tipos de robots.*

Pide Inteligencia Física se basa directamente en estos principios, sustituyendo los pasos de difusión discretos por coincidencia de flujo, una formulación de tiempo continuo que aprende un campo vectorial que mapea las acciones ruidosas y las convierte en acciones limpias. Este cambio permite tasas de control más altas (hasta 50 Hz), lo que lo hace especialmente eficaz para tareas diestras, como doblar ropa o ensamblar objetos. Como se muestra en Figura 1, Pi usa un red troncal de VLM previamente entrenada (por ejemplo, Paligemma) para procesar entradas RGB multicámara e instrucciones en lenguaje natural, junto con el estado propioceptivo del robot. Es experto en acción El módulo, un transformador entrenado con la adaptación de flujo, genera fragmentos de acción continua, que se pueden adaptar a una variedad de modalidades gracias al entrenamiento cruzado con datos de robots de un solo brazo, manipuladores de doble brazo y plataformas móviles. En experimentos, Pi ha demostrado ambas fuerte tiro cero generalización y adaptación rápida mediante el ajuste fino de conjuntos de datos de alta calidad para tareas específicas.

**Figura 2.***Arquitectura GR00T N1: el sistema 2 (VLM) codifica la visión, el lenguaje y el estado del robot; el sistema 1 (transformador de difusión) genera acciones motoras mediante la eliminación de ruido.*

Como puede verse en la figura 2, GR00T N1 de NVIDIA extiende estas ideas en un arquitectura de sistema dual. Sistema 2 es un VLM (Eagle-2) de alta capacidad que procesa las entradas de visión y lenguaje a 10 Hz, lo que genera una comprensión semántica de la tarea y el entorno. Esta comprensión se codifica en una matriz de fichas que se consume cuesta abajo. Sistema 1 — la capa de acción — es una Transformador de difusión entrenado con adaptación de flujo para generar comandos de motor de circuito cerrado a 120 Hz. Estos módulos son entrenados conjuntamente de principio a fin, lo que garantiza un estrecho acoplamiento entre el razonamiento de alto nivel y la actuación de bajo nivel. La formación del GR00T N1 aprovecha un pirámide de datos:

Los datos visuales y lingüísticos a escala web, además de los vídeos egocéntricos humanos, proporcionan antecedentes generales.
Los datos sintéticos de la simulación física y los modelos generativos amplían la cobertura y la variedad.
Las demostraciones de robots reales basan el modelo en la ejecución física.

El resultado es un modelo único que puede realizar manipulaciones condicionadas por el lenguaje en brazos robóticos, manos diestras y humanoides completos, lo que permite obtener resultados de última generación en los puntos de referencia de simulación y en despliegues prometedores en el mundo real.

3. SmolVLA y el ecosistema LeRobot

Si bien el Pi y el GR00T N1 superan los límites de escala y capacidad, Smolvla adopta un enfoque diferente: crea tecnología VLA asequible, eficiente y totalmente de código abierto. Desarrollado por Hugging Face, SmolVLA es un modelo compacto (aproximadamente 450 millones de parámetros) que funciona cómodamente en una sola GPU de consumo o incluso en una CPU, sin sacrificar las ventajas arquitectónicas de los VLA más grandes.

**Figura 3.**Arquitectura SmolVLA: el VLM compacto procesa la visión, el lenguaje y el estado; un experto en acciones ligero refina las acciones ruidosas utilizando conjuntos de datos comunitarios y un hardware LeRobot asequible.

El modelo conserva el Experto en acciones de igualación de flujo de VLM + diseño, pero con optimizaciones cuidadosas:

Estructura troncal SmolVLM-2 — un VLM de imágenes múltiples eficiente que utiliza SiGlip para codificación de visión y Small LM2 para la decodificación de idiomas, optimizada para un menor número de fichas por imagen mediante la mezcla de píxeles.
Omisión de capas — la computación se detiene en el punto medio de la VLM y utiliza funciones de capa intermedia que suelen ser más eficaces para las tareas de control, lo que reduce el tiempo de inferencia a la mitad.
Tokens visuales reducidos — solo 64 fichas por cuadro, lo que evita la creación de mosaicos de alta resolución para un procesamiento más rápido.
Inferencia asincrónica — desvincula la predicción de la percepción/acción de la ejecución de la acción, lo que permite al robot mantener una alta tasa de control incluso cuando la percepción es más lenta.
Atención intercalada en la acción, experto — alterna la atención cruzada (para condicionar las funciones del VLM) y la autoatención (para modelar las dependencias temporales entre las acciones), un diseño que demostró ser eficiente sin perder precisión.

Los datos de entrenamiento de SmolVLA también son notables: menos de 30 000 episodios, todos desde conjuntos de datos aportados por la comunidad recolectados en robots asequibles. Esto hace que las capacidades del modelo sean altamente reproducibles para laboratorios pequeños, educadores y aficionados, lo que contrasta claramente con las decenas de miles de horas de datos propios que contienen modelos como Pi y GR00T.

Además, el Le Robot La biblioteca de HuggingFace es el tejido conectivo que convierte a SmolVLA de un artefacto de investigación en una herramienta útil. A través de API de LeRobot y Repositorio GitHub, puedes:

Cargue modelos previamente entrenados como SmolVLA con un solo comando.
Ajústelos con los datos de su propio robot, con adaptadores de conjuntos de datos integrados.
Evalúe las políticas en simulación o en hardware sin reescribir el ciclo de entrenamiento principal.
Comparta públicamente modelos entrenados, beneficiándose de un ecosistema común de experimentos reproducibles.

En resumen, SmolVLA plus LeRobot representan un punto de entrada de baja barrera hacia la investigación y el despliegue de VLA: los mismos conceptos arquitectónicos que impulsan los programas de investigación multimillonarios, ahora disponibles para cualquier persona con un presupuesto de procesamiento modesto.

4. Agentic Robotics: un paso más allá con Gemini Robotics 1.5

Si bien Pi y GR00T N1 integran el razonamiento y la acción en arquitecturas unificadas, Gemini Robotics 1.5 de Google DeepMind adopta un enfoque fundamentalmente diferente: separar el razonamiento de alto nivel del control de bajo nivel mediante un sistema de agencia de modelo dual. Esta decisión arquitectónica aborda un desafío fundamental de la robótica: las tareas complejas y de varios pasos requieren tanto una planificación abstracta (como comprender las reglas de reciclaje o empacar una maleta) como una ejecución motora precisa, capacidades que son difíciles de optimizar en un solo modelo.

**Figura 4.**Arquitectura de agencia de Gemini Robotics 1.5: el GR-ER 1.5 gestiona el razonamiento de alto nivel y la invocación de herramientas, mientras que el GR 1.5 traduce las instrucciones en acciones a través de trazas de pensamiento, lo que permite el control entre encarnaciones entre diferentes robots.

El sistema consta de dos modelos especializados que funcionan en conjunto:

Gemini Robotics-ER 1.5 funciona como orquestador de alto nivel. Este modelo es excelente en cuanto a la comprensión espacial, la planificación de tareas y la estimación del progreso, y puede utilizar de forma nativa herramientas externas como la Búsqueda de Google para recopilar la información necesaria para completar las tareas. Por ejemplo, cuando se le pide que clasifique los objetos en contenedores de reciclaje según las directrices locales, el orquestador busca las reglas pertinentes, comprende el panorama actual y divide la tarea en pasos ejecutables. Por ejemplo, puede transformar una instrucción general como «clasificar la basura en las papeleras de reciclaje» en un conjunto de pasos específicos, como «recoger la lata roja», «poner la lata roja en la papelera negra», etc. Logra un rendimiento de vanguardia en 15 puntos de referencia de razonamiento incorporados y demuestra una gran capacidad para señalar tareas complejas, detectar el éxito y comprender el espacio desde múltiples puntos de vista.

Gemini Robotics 1.5, el componente VLA toma el conjunto de tareas y las procesa para que el robot pueda ejecutarlas. Para ello, introduce una función innovadora: pensamiento encarnado. A diferencia de los VLA tradicionales, que asignan directamente instrucciones a acciones, este VLA para pensar intercala las acciones con un proceso de razonamiento interno de varios niveles expresado en lenguaje natural, lo que permite al robot «pensar antes de actuar». Cuando el VLA recibe una instrucción del orquestador (como «coge el jersey azul»), genera un monólogo interno de movimientos primitivos expresados en lenguaje natural (como «mueve la pinza hacia la izquierda» o «cierra la pinza») antes de ejecutarlos. Este proceso de pensamiento ayuda al modelo a descomponer las instrucciones en segmentos más cortos que corresponden a unos segundos de movimiento del robot cada uno, y también hace que el comportamiento del robot sea más interpretable para el usuario. El resultado no solo es un mejor rendimiento de las tareas en tareas de varios pasos, sino también transparencia: los usuarios pueden ver el proceso de razonamiento a nivel de movimiento del VLA en tiempo real, lo que mejora la confianza y la capacidad de depuración.

Una segunda innovación importante es Transferencia de movimiento (MT), lo que permite que el modelo aprenda a través de modalidades robóticas heterogéneas. Gracias a una arquitectura y una receta de entrenamiento novedosas, el GR 1.5 puede controlar varios robots (incluida la plataforma bimanual ALOHA, el Franka de dos brazos y el humanoide Apollo) sin necesidad de un entrenamiento posterior específico para cada robot, e incluso demuestra que la transferencia de habilidades entre diferentes plataformas es nula. Las tareas que solo se entrenan en ALOHA pueden ejecutarse correctamente en el humanoide Apollo y viceversa, lo que reduce drásticamente la carga de datos para las nuevas plataformas de robots.

**Figura 5:** gracias a la innovación Motion Transfer, Gemini Robotic 1.5 puede funcionar con varios robots diferentes.

La separación arquitectónica demuestra su valor en tareas de largo plazo. En las evaluaciones en las que se comparó el sistema agencial del GR 1.5 con los parámetros de referencia en los que se utilizaban como orquestadores VLM estándar, como Gemini 2.5 Flash, el agente del GR 1.5 obtuvo casi el doble de puntuación de progreso en tareas complejas, con mejoras particularmente notables en la planificación de las tareas. El análisis de fallos reveló que los errores de planificación disminuyeron del 25,5% al 9% cuando se utilizó GR-ER 1.5 como orquestador, lo que subraya la importancia fundamental del razonamiento incorporado especializado para agentes físicos confiables.

Diferencias clave con Pi y GR00T N1:

Separación explícita de razonamiento y acción en lugar de un estrecho acoplamiento en un solo sistema
Uso de herramientas a nivel de orquestación, lo que permite a los robots buscar en la web, acceder a las API o llamar a funciones personalizadas a mitad de una tarea
‍Huellas del pensamiento en lenguaje natural que hacen que el proceso de toma de decisiones del robot sea interpretable
Aprendizaje interinstitucional que transfiere habilidades entre formas de robots radicalmente diferentes sin necesidad de volver a capacitarlos

Esta filosofía de diseño de modelo dual refleja una visión pragmática: la robótica de uso general requiere una comprensión sofisticada del mundo y un control motor sólido, pero es mejor desarrollar estas capacidades como componentes especializados que colaboren en lugar de competir por la capacidad de representación dentro de un solo modelo.

5. Conclusión

El recorrido desde la política de difusión hasta los sistemas VLA de última generación actuales revela un campo que converge rápidamente hacia la robótica de uso general. Lo que comenzó como un enfoque novedoso para la generación de acciones mediante modelos de eliminación de ruido ha evolucionado hasta convertirse en sistemas completos capaces de percibir, razonar y actuar en entornos complejos del mundo real.

Podemos extraer puntos clave de cada uno de los modelos y arquitecturas que vimos:

Política de difusión: Fue pionera en la generación de acciones como eliminación iterativa de ruido, lo que permitió distribuciones multimodales y coherencia temporal al reducir el control del horizonte.
Pi: Logra un control de 50 Hz con la adaptación del flujo, lo que demuestra una sólida generalización entre las distintas encarnaciones a través de un diseño experto en acciones y troncales de VLM unificado.
GR00T N1: Impulsa la escalabilidad con una arquitectura de doble sistema y aprovecha una pirámide de datos desde la escala web hasta las demostraciones reales.
Smolvla: Demuestre que las capacidades de VLA son accesibles a pequeña escala, se ejecutan en hardware de consumo y se capacitan con menos de 30 000 episodios con LeRobot.
Gemini Robotics 1.5: Separa el razonamiento de la ejecución, lo que permite el uso de herramientas, la búsqueda en la web y la toma de decisiones interpretables; logra una transferencia de habilidades sin esfuerzo entre encarnaciones radicalmente diferentes mediante Motion Transfer.

Cada sistema hace diferentes concesiones entre la integración, la escala y la especialización, pero todos comparten bases comunes: los pilares del lenguaje de la visión, la generación de acciones basadas en la difusión o el flujo y la capacitación en múltiples encarnaciones. A medida que estos enfoques maduran y convergen, asistimos al surgimiento de robots verdaderamente de uso general: sistemas que pueden percibir su entorno, razonar sobre tareas complejas y ejecutar manipulaciones diestras en diversas plataformas. El camino a seguir es claro: datos más completos e interinstitucionales, mejores arquitecturas para combinar el razonamiento y el control, y marcos abiertos que hagan que estas capacidades sean accesibles para toda la comunidad robótica.

De las palabras a las acciones: el auge de los modelos de visión, lenguaje y acción en robótica

1. Introducción

2. Arquitecturas basadas en difusión para VLA en robótica

3. SmolVLA y el ecosistema LeRobot

4. Agentic Robotics: un paso más allá con Gemini Robotics 1.5

Diferencias clave con Pi y GR00T N1:

5. Conclusión

News, Insights & Impact

Protocolo de contexto modelo: potencie a sus agentes con MCP

Explorando — Nvidia CuOpt

Explorando NVIDIA Isaac GR00T

Génesis: redefiniendo las simulaciones de robótica y física

Cada viaje de IA comienza con una conversación