Técnico

Generación de activos 3D para entornos de robótica gemela digital

December 4th, 2025

Santiago Ferreiros

Tech Lead

Introducción

En este blog exploramos cómo los modelos generativos modernos y las herramientas de simulación están cambiando la forma en que construimos gemelos digitales para la robótica. En lugar de modelar manualmente cada objeto, nos basamos en una combinación de procesos de generación rápida de imágenes, reconstrucción de 2D a 3D y composición de escenas. Al utilizar técnicas como la reconstrucción 3D a partir de imágenes con SAM 3D, combinadas con NVIDIA Omniverse e Isaac Sim para ensamblar y simular entornos completos, podemos convertir descripciones simples y fotografías de referencia en bibliotecas grandes y diversas de recursos 3D. Esta canalización sintética de datos permite llenar sitios de trabajo complejos en cuestión de días en lugar de meses, a la vez que permite que la transición de la simulación a la realidad sea lo más fluida y fiable posible.

Por qué los gemelos digitales realistas siguen siendo difíciles

Los gemelos digitales dependen en gran medida de la calidad y la diversidad de sus activos. Los objetos 3D necesitan una geometría, materiales, iluminación y física plausibles para aproximarse a los entornos desordenados e imperfectos en los que realmente operan los robots. Sin embargo, en muchos proyectos de robótica, las simulaciones acaban pareciendo salas de exposición: diseños idealizados, texturas perfectamente limpias, un puñado de modelos CAD repetidos y casi nada de desorden ni actividad humana.

*Escena sintética de almacén (izquierda), modelada y renderizada a partir del gemelo digital, comparada con una foto real de almacén (derecha).*

Por otro lado, recopilar datos reales a escala es caro, complejo desde el punto de vista logístico y, a veces, inseguro. Filmar cerca de maquinaria pesada, escenificar situaciones de riesgo o pedir a los operarios que repitan casos extremos poco comunes no suele ser una opción. Incluso cuando consigues capturar esos datos, la anotación se convierte en un cuello de botella.

Los datos sintéticos abordan parte de esta brecha, especialmente cuando se combinan con motores como Isaac Sim, que pueden renderizar entornos realistas y producir automáticamente anotaciones como cuadros delimitadores, máscaras de segmentación o mapas de profundidad. Sin embargo, hay una cuestión que con frecuencia permanece poco explorada: ¿De dónde provienen todos los objetos de esas escenas sintéticas y cómo podemos hacer que sean lo suficientemente variados como para que importen?

Desde bibliotecas CAD estáticas hasta activos sintéticos generativos

La respuesta tradicional es sencilla pero lenta: un artista o ingeniero 3D modela todos los activos a mano, normalmente a partir de archivos CAD o arte conceptual. Luego, esos activos se importan al simulador, se ajustan, se reutilizan y se expanden gradualmente. Cuando necesitas un cono de tráfico ligeramente diferente, un palé más dañado o un nuevo tipo de barrera, puedes dedicar más tiempo a modelar o comprometer y reutilizar lo que ya tienes.

La IA generativa permite un enfoque diferente. En lugar de esculpir cada detalle manualmente, podemos partir de descripciones de texto o fotografías de referencia, generar imágenes que representen los objetos que nos interesan y, a continuación, reconstruir esos objetos en 3D. SAM 3D nos permite «convertir» objetos segmentados de imágenes en mallas, mientras que Nvidia Omniverse Isaac Sim proporciona la columna vertebral en la que esas mallas pasan a formar parte de entornos completos, con iluminación y física.

El resultado es un proceso en el que la unidad de trabajo ya no es «construir este activo desde cero» sino «describir el objeto, generar algunas imágenes y dejar que la pila de reconstrucción y simulación se encargue del resto».

Paso 1: Generar imágenes de referencia diversas

Por lo general, el proceso comienza con un lenguaje natural que describe los objetos y escenarios que necesitamos, como»Un cono sucio y ligeramente deformado, una barrera de seguridad con cinta reflectante bajo la luz solar intensa, un trabajador con un casco amarillo y un chaleco naranja, una pila de palés a la sombra de una máquina, y así sucesivamente». Estas descripciones se incorporan a modelos de texto e imágenes que producen imágenes candidatas.

Una idea práctica que surge rápidamente es que tratar de colocar demasiados objetos diferentes en una sola imagen tiende a diluir los detalles. Los trabajadores, los conos y las herramientas se convierten en pequeños elementos en segundo plano, lo que no es ideal para una reconstrucción posterior. Es más efectivo generar imágenes en las que cada objeto de interés ocupe la mayor parte del encuadre y se vea desde un ángulo claro.

Una vez que tenemos algunas imágenes base buenas para una clase de objetos, repetimos. Modificamos las instrucciones para cambiar las texturas, los niveles de desgaste, las condiciones de iluminación o los ángulos de visión, buscando variaciones del mismo concepto y generando ejemplos en contextos ligeramente diferentes. El objetivo es obtener un pequeño conjunto de imágenes diversas y de alta calidad para cada tipo de activo.

Estas imágenes aún no forman parte del gemelo digital, pero forman un rico catálogo visual del que se pueden derivar recursos 3D. A continuación se muestran algunos ejemplos.

Imagen rápida 1: Una fotografía realista de un único y nuevo cono naranja de seguridad vial de pie sobre asfalto limpio. El cono es vibrante y limpio, con un cuello blanco reflectante impecable. El fondo es una carretera pavimentada borrosa a plena luz del día.

Imagen rápida 2: Una fotografía macro de un solo cono naranja de seguridad vial colocado sobre tierra áspera. La superficie de plástico está rayada, sucia y descolorida por la exposición al sol. El cuello blanco reflectante que rodea la parte central muestra grietas, peladuras y mugre. Concéntrese con nitidez en la textura del cono, con un fondo de construcción borroso.

Mensaje: «Basándote en la 'imagen real' de la izquierda, genera una representación fotorrealista del barril de tráfico donde parece nuevo. El plástico naranja debe ser brillante e impecable, con bandas reflectantes blancas limpias y nítidas y una base de goma negra impecable, que elimine por completo todos los arañazos, la suciedad y el desgaste originales, manteniendo el fondo y la iluminación idénticos».

Imagen rápida 1: Una fotografía mediana detallada de primer plano de un obrero de la construcción, similar a la de image_6.png, que opera activamente un martillo neumático pesado. Lleva un casco blanco, gafas de sol, un chaleco de seguridad de alta visibilidad de color amarillo brillante sobre una camisa azul, jeans oscuros de trabajo y guantes. El polvo y la suciedad se amontonan alrededor de sus botas y el martillo neumático perfora mientras rompe el suelo. El fondo es una obra borrosa con montones de tierra y conos de tráfico, pero la atención se centra claramente en el obrero y su herramienta. Iluminación de la hora dorada.

Paso 2: De píxeles a mallas con SAM 3D

El siguiente paso es transformar esas imágenes en geometría 3D que un simulador pueda entender. Aquí es donde entra SAM 3D. Partiendo de la idea de segmentar objetos arbitrarios en una imagen, SAM 3D nos permite seleccionar una región de interés y reconstruir la malla 3D correspondiente.

Ejemplo de un flujo de trabajo de reconstrucción de 2D a 3D con SAM 3D. El objeto de la izquierda se segmenta a partir de la imagen de entrada y SAM 3D genera la malla 3D correspondiente que se muestra a la derecha, que luego se puede refinar y preparar para la simulación.

El flujo de trabajo es conceptualmente simple. Cargamos una de las imágenes generadas, indicamos el objeto que nos interesa y dejamos que SAM 3D deduzca una forma 3D. La salida suele ser una malla en un formato como .pliegue para objetos genéricos. Para entidades más complejas, como figuras humanas, la reconstrucción puede incluir información más rica, por ejemplo codificada en .GLB archivos que contienen datos geométricos y de materiales básicos juntos.

Repetimos este proceso para varias imágenes y variaciones de la misma categoría, conos en diferentes estados, barreras con diferentes colores, trabajadores con diferentes equipos. No todas las reconstrucciones serán perfectas; parte del trabajo consiste en inspeccionar visualmente los resultados, descartar las mallas claramente inutilizables y conservar aquellas que capten la esencia del objeto con suficiente fidelidad para las tareas de simulación y percepción. A continuación se muestran algunos ejemplos representativos.

Vídeo 1:https://aidemos.meta.com/segment-anything/gallery/?template_id=832850682964027

Vídeo 2:https://aidemos.meta.com/segment-anything/recents/?template_id=198023664608999

Vídeo 3:https://aidemos.meta.com/segment-anything/gallery/?template_id=2722125464791925

Vídeo 4:https://aidemos.meta.com/segment-anything/gallery/?template_id=822533564022314

Para las figuras humanas, un requisito importante es que el cuerpo no esté recortado ni muy ocluido en la imagen. De hecho, esto es deseable para cualquier tipo de objeto, ya que la visibilidad total ayuda al modelo de reconstrucción a deducir una forma global coherente que luego puede refinarse o arreglarse si es necesario. Aunque el resultado siga siendo un cuerpo rígido en esta fase, ya es útil para muchas tareas de visión artificial, como la detección de peatones o la supervisión de la seguridad.

1: https://aidemos.meta.com/segment-anything/recents/?template_id=743084848135291
2: https://aidemos.meta.com/segment-anything/gallery/?template_id=3281647291993341

Paso 3: Limpiar y preparar los activos para la simulación

Las mallas producidas por modelos de reconstrucción son un punto de partida sólido, pero requieren un poco de procesamiento posterior antes de usarse en un simulador. Aquí es donde se utilizan herramientas de modelado 3D como Licuadora entra en juego. La técnica de limpieza habitual incluye comprobar y ajustar la escala para que los objetos tengan dimensiones realistas, alinear la orientación y definir un punto de pivote sensato (por ejemplo, en la base de un cono) y simplificar o corregir la topología problemática. Los pequeños defectos que son irrelevantes en una imagen modelizada pueden convertirse en importantes cuando intervienen la física y las colisiones.

Durante esta fase también estandarizamos los formatos. Como Omniverse e Isaac Sim se basan en el USD como representación básica, convertimos las mallas limpias en activos en USD y, cuando es útil, definimos variantes que codifican diferentes opciones de apariencia o configuración. Esto sienta las bases para crear instancias y ensamblar escenas de manera eficiente más adelante.

El activo 3D reconstruido se cargó en Blender para su limpieza y preparación antes de exportarlo a USD.

Al final de este paso, tenemos una biblioteca de activos seleccionada y lista para la simulación: no es perfecta, pero es coherente, se escala correctamente y es compatible con el resto de la pila doble digital.

Paso 4: Crear escenas sintéticas en Omniverse e Isaac Sim

Con una biblioteca de activos en USD, pasamos a Nvidia Omniverse Isaac Sim para construir entornos reales. Las cámaras, las luces, los planos del suelo y las estructuras más grandes definen el escenario básico, y los conos, barreras, herramientas y trabajadores generados llenan ese escenario.

Si ya tienes guiones que controlan la colocación de objetos, el movimiento de la cámara y la generación de anotaciones en Isaac Sim, esos guiones no necesitan cambiar drásticamente. La principal diferencia es que, en lugar de instanciar un puñado de primitivas genéricas, ahora se crea una instancia de un catálogo diverso de objetos realistas. Las posiciones, las orientaciones, las texturas y la iluminación se pueden aleatorizar para producir cientos o miles de vistas únicas.

Como Isaac Sim está perfectamente integrado con las capacidades físicas y de renderizado de Omniverse, puedes decidir hasta dónde llevar el realismo. En algunos casos prácticos, bastará con que la carrocería se comporte de forma rígida y que los materiales sean aproximados, pero puedes invertir en propiedades físicas más detalladas, mejores sombreadores o configuraciones de iluminación más sofisticadas. La clave es que el proceso se escale. Una vez definidos los recursos, la creación de un nuevo conjunto de datos pasa a ser más una cuestión de parametrizar la escena que de ajustar manualmente cada toma.

El resultado es un gran conjunto de imágenes sintéticas, junto con anotaciones de alta calidad, que reflejan mejor la variabilidad y el desorden de los sitios de trabajo reales en comparación con las simulaciones limpias tradicionales.

*Escenario real de un sitio de construcción utilizado como referencia para generar homólogos sintéticos en Omniverse Isaac Sim.*

Personas y seguridad

Una de las aplicaciones más convincentes de este enfoque es el modelado de la presencia y el comportamiento humanos en torno a las máquinas. Para los sistemas críticos y de seguridad, es esencial reconocer a las personas que se encuentran en diferentes posiciones, con diferentes equipos y, a veces, en situaciones que no cumplen con las normas.

Al generar imágenes de trabajadores con ropa, tipos de cuerpo y equipo de protección personal variados, reconstruirlas con SAM 3D y llevarlas a Isaac Sim, podemos crear escenas en las que las personas aparecen en zonas seguras, en áreas fronterizas y en lugares donde claramente no deberían estar. También podemos representar cascos faltantes, cuerpos parcialmente visibles, oclusiones detrás de obstáculos y otras condiciones difíciles.

Grabar estas situaciones en el mundo real sería arriesgado y cuestionable desde el punto de vista ético, y sintetizarlas en un entorno virtual controlado es más seguro y flexible. Los modelos entrenados con estos conjuntos de datos están mejor preparados para detectar a los peatones, hacer cumplir las normas de seguridad y generalizar la diversidad visual que muestran los operadores reales.

Escena de una obra de construcción con maquinaria y trabajadores, que representa los tipos de interacciones entre humanos y máquinas que los datos sintéticos pueden modelar de forma segura en la simulación.

Ventajas y desventajas de las tuberías sintéticas generativas

Pasar de la creación de activos totalmente manual a una canalización sintética generativa aporta beneficios claros, pero también algunas consideraciones que los equipos deben tener en cuenta.

En el lado positivo, la ganancia más obvia es la velocidad. Generar una familia de activos a partir de descripciones de texto e imágenes es mucho más rápido que modelar cada uno desde cero, especialmente cuando se requieren variaciones en la textura, el desgaste o pequeños cambios en la geometría. El proceso también ofrece una diversidad mucho mayor: al modificar las instrucciones y los ajustes de reconstrucción, es posible explorar un amplio abanico de apariencias y condiciones, incluidas situaciones poco frecuentes o adversas que son difíciles de captar con una cámara.

Otra ventaja es la reutilización. Una vez establecidos los pasos que van desde la descripción hasta el activo en USD, se puede aplicar el mismo proceso a nuevos dominios, almacenes en lugar de obras en construcción o campos agrícolas, sin tener que reinventar el flujo de trabajo. La pila de modelos generativos, SAM 3D, Geometry Cleanup y Omniverse/Isaac Sim actúan como un motor general para el contenido sintético.

Por otro lado, hay compensaciones. Las mallas reconstruidas no suelen ser tan precisas como los modelos hechos a mano, especialmente en el caso de componentes de alta ingeniería en los que la geometría exacta es importante. Para muchas tareas de percepción, esto es aceptable, pero es importante tener en cuenta las limitaciones. Además, las propiedades físicas y de los materiales no se deducen mágicamente, sino que es necesario configurarlas, ya sea en la herramienta de modelado o en Omniverse, para que se comporten de forma realista durante la simulación. Por último, confiar únicamente en datos sintéticos puede introducir sesgos relacionados con los propios modelos generativos, por lo que sigue siendo fundamental validar el rendimiento con datos reales y, cuando sea posible, mezclar muestras sintéticas y reales.

Diseño para una transferencia fluida de SIM a real

El objetivo de todo este trabajo no es simplemente generar hermosas representaciones, sino entrenar modelos y desarrollar estrategias de control que se transfieran a sistemas reales. Para lograrlo, se requiere prestar una atención deliberada a la alineación entre la simulación y la realidad.

A nivel visual, los elementos intrínsecos de la cámara, los campos de visión y las posiciones de montaje en la simulación deben coincidir lo más posible con los de los robots físicos. Las condiciones de iluminación en las escenas sintéticas deben abarcar el rango que se observa durante el despliegue: sol brillante, días nublados, iluminación artificial, sombras y deslumbramiento. Las escalas y ubicaciones de los objetos deben reflejar las restricciones y diseños reales.

A nivel de datos, normalmente es mejor combinar muestras sintéticas y reales. Los datos sintéticos proporcionan cobertura y diversidad, mientras que las grabaciones reales sustentan el modelo en la distribución real de las texturas, el ruido y las imperfecciones. Al evaluar los modelos en un conjunto separado de imágenes del mundo real, rastrear las detecciones no detectadas de peatones, los errores de localización de objetos y las falsas alarmas en situaciones de seguridad, se obtiene información útil para mejorar tanto el proceso de generación sintética como la configuración de la formación.

Cuando este ciclo funciona bien, la canalización generativa de activos se convierte en una palanca poderosa: permite a los equipos avanzar rápidamente en el diseño del entorno y la lógica de seguridad, al tiempo que mantienen el objetivo final firmemente vinculado al rendimiento en el mundo real.

Lo que viene a continuación

No es difícil imaginar un flujo de trabajo futuro cercano en el que el propietario de un producto especifique, en lenguaje natural, el tipo de sitio que quiere modelar, su tamaño, topología, maquinaria, patrones de tráfico y reglas de seguridad, y un agente de inteligencia artificial organice toda la cadena: diseñando indicaciones, generando imágenes, reconstruyendo activos, limpiando la geometría, ensamblando escenas en Omniverse y lanzando la generación de conjuntos de datos sintéticos en Isaac Sim. Los expertos humanos se centrarían en definir los objetivos, las restricciones y los criterios de evaluación, en lugar de colocar conos y barreras manualmente.

En Marvik, ya estamos trabajando en esta intersección de la IA generativa, los gemelos digitales y la robótica, ayudando a los equipos a utilizar datos sintéticos para acelerar el desarrollo y mejorar la seguridad de las máquinas que operan en entornos complejos. Si está estudiando cómo entrenar robots en mundos virtuales realistas antes de enviarlos al campo, estaremos encantados de hablar con usted.

Generación de activos 3D para entornos de robótica gemela digital

Introducción

Por qué los gemelos digitales realistas siguen siendo difíciles

Desde bibliotecas CAD estáticas hasta activos sintéticos generativos

Paso 1: Generar imágenes de referencia diversas

Paso 2: De píxeles a mallas con SAM 3D

Paso 3: Limpiar y preparar los activos para la simulación

Paso 4: Crear escenas sintéticas en Omniverse e Isaac Sim

Personas y seguridad

Ventajas y desventajas de las tuberías sintéticas generativas

Diseño para una transferencia fluida de SIM a real

Lo que viene a continuación

News, Insights & Impact

Protocolo de contexto modelo: potencie a sus agentes con MCP

Explorando — Nvidia CuOpt

Explorando NVIDIA Isaac GR00T

Génesis: redefiniendo las simulaciones de robótica y física

Cada viaje de IA comienza con una conversación