Técnico

Geração de ativos 3D para ambientes digitais de robótica gêmea

Compartilhar

Introdução

Neste blog, exploramos como os modelos generativos modernos e as ferramentas de simulação estão mudando a forma como construímos gêmeos digitais para robótica. Em vez de modelar manualmente cada objeto, contamos com uma combinação de geração imediata de imagens, reconstrução de 2D a 3D e pipelines de composição de cenas. Usando técnicas como reconstrução 3D a partir de imagens com SAM 3D, combinadas com NVIDIA Omniverse e Isaac Sim para montar e simular ambientes inteiros, podemos transformar descrições simples e fotos de referência em bibliotecas grandes e diversas de ativos 3D. Esse pipeline de dados sintético possibilita preencher locais de trabalho complexos em dias, em vez de meses, mantendo a transição do simulador para o real o mais suave e confiável possível.

Por que gêmeos digitais realistas ainda são difíceis

Os gêmeos digitais dependem fortemente da qualidade e da diversidade de seus ativos. Objetos 3D precisam de geometria, materiais, iluminação e física plausíveis para se aproximar dos ambientes confusos e imperfeitos em que os robôs realmente operam. Em muitos projetos de robótica, no entanto, as simulações acabam parecendo showrooms: layouts idealizados, texturas perfeitamente limpas, um punhado de modelos CAD repetidos e quase nenhuma desordem ou atividade humana.

Cena sintética do armazém (à esquerda), modelada e renderizada a partir do gêmeo digital, em comparação com uma foto real do armazém (à direita).

Por outro lado, coletar dados reais em grande escala é caro, logisticamente complexo e, às vezes, inseguro. Filmar perto de máquinas pesadas, encenar situações de risco ou pedir aos operadores que repitam casos extremos raros geralmente não é uma opção. Mesmo quando você consegue capturar esses dados, a anotação se torna um gargalo.

Os dados sintéticos resolvem parte dessa lacuna, especialmente quando combinados com mecanismos como o Isaac Sim, que podem renderizar ambientes realistas e produzir anotações automaticamente, como caixas delimitadoras, máscaras de segmentação ou mapas de profundidade. Mas há uma questão que muitas vezes permanece pouco explorada: de onde vêm todos os objetos nessas cenas sintéticas e como podemos torná-los variados o suficiente para serem importantes?

De bibliotecas CAD estáticas a ativos sintéticos generativos

A resposta tradicional é direta, mas lenta: um artista ou engenheiro 3D modela cada ativo manualmente, geralmente a partir de arquivos CAD ou arte conceitual. Esses ativos são então importados para o simulador, ajustados, reutilizados e expandidos gradualmente. Quando você precisa de um cone de tráfego ligeiramente diferente, de um palete mais danificado ou de um novo tipo de barreira, você passa mais tempo modelando ou compromete e reutiliza o que já tem.

A IA generativa permite uma abordagem diferente. Em vez de esculpir cada detalhe manualmente, podemos começar com descrições de texto ou fotos de referência, gerar imagens que retratam os objetos que nos interessam e depois reconstruir esses objetos em 3D. MESMO 3D nos dá uma maneira de “transformar” objetos segmentados de imagens em malhas, enquanto o Nvidia Omniverse Isaac Sim fornece a espinha dorsal em que essas malhas se tornam parte de ambientes completos, completos com iluminação e física.

O resultado é um pipeline em que a unidade de trabalho não é mais “construir esse ativo do zero”, mas “descrever o objeto, gerar algumas imagens e deixar que a pilha de reconstrução e simulação faça o resto”.

Etapa 1 — Gerando diversas imagens de referência

O pipeline geralmente começa com uma linguagem natural descrevendo os objetos e cenários de que precisamos, como”Um cone sujo e levemente deformado, uma barreira de segurança com fita refletora sob forte luz solar, um trabalhador usando um capacete amarelo e um colete laranja, uma pilha de paletes à sombra de uma máquina, e assim por diante”. Essas descrições alimentam modelos de texto para imagem que produzem imagens candidatas.

Uma visão prática que surge rapidamente é que tentar colocar muitos objetos diferentes em uma única imagem tende a diluir os detalhes. Trabalhadores, cones e ferramentas se tornam pequenos elementos em segundo plano, o que não é ideal para reconstruções posteriores. É mais eficaz gerar imagens em que cada objeto de interesse ocupa a maior parte do quadro e é visto de um ângulo claro.

Quando temos algumas boas imagens base para uma classe de objetos, iteramos. Ajustamos as instruções para alterar texturas, níveis de desgaste, condições de iluminação ou ângulos de visão, solicitando variações do mesmo conceito e gerando exemplos em contextos ligeiramente diferentes. O objetivo é acabar com um pequeno conjunto de imagens diversas e de alta qualidade para cada tipo de ativo.

Essas imagens ainda não fazem parte do gêmeo digital, mas formam um rico catálogo visual do qual os ativos 3D podem ser derivados. Alguns exemplos são mostrados abaixo.

Imagem imediata 1: Uma fotografia realista de um único e novo cone laranja de segurança de trânsito em pé sobre asfalto limpo. O cone é vibrante e limpo, com um colar refletivo branco imaculado. O fundo é uma estrada pavimentada desfocada sob a luz do dia.

Imagem imediata 2: Uma fotografia macro de um único cone laranja de segurança de trânsito sobre terra áspera. A superfície de plástico está arranhada, suja e desbotada devido à exposição ao sol. A gola branca refletiva ao redor do meio mostra rachaduras, descamação e sujeira. Foco nítido na textura do cone, fundo de construção desfocado.

Aviso: “Com base na 'imagem real' à esquerda, gere uma representação fotorrealista do barril de trânsito, onde ele parece novo. O plástico laranja deve ser brilhante e sem falhas, com faixas refletivas brancas limpas e nítidas e uma base de borracha preta imaculada, removendo completamente todos os arranhões, sujeira e desgaste originais, mantendo o fundo e a iluminação idênticos.”

Imagem imediata 1: Uma fotografia média detalhada em close-up de um trabalhador da construção civil, semelhante à do image_6.png, operando ativamente uma britadeira pesada. Ele usa um capacete branco, óculos escuros, um colete de segurança amarelo brilhante de alta visibilidade sobre uma camisa azul, jeans de trabalho escuros e luvas. Poeira e sujeira se espalham ao redor de suas botas e a britadeira morde ao romper o chão. O fundo é um canteiro de obras desfocado com pilhas de terra e cones de trânsito, mas o foco é nítido no trabalhador e em sua ferramenta. Iluminação da hora dourada.

Passo 2 — De pixels a malhas com o SAM 3D

A próxima etapa é transformar essas imagens em geometria 3D que um simulador possa entender. É aqui que entra o SAM 3D. Com base na ideia de segmentar objetos arbitrários em uma imagem, o SAM 3D nos permite selecionar uma região de interesse e reconstruir uma malha 3D correspondente.

Exemplo de um fluxo de trabalho de reconstrução de 2D para 3D usando o SAM 3D. O objeto à esquerda é segmentado a partir da imagem de entrada, e o SAM 3D gera uma malha 3D correspondente mostrada à direita, que pode então ser refinada e preparada para simulação.

O fluxo de trabalho é conceitualmente simples. Carregamos uma das imagens geradas, indicamos o objeto que nos interessa e permitimos que o SAM 3D deduza uma forma 3D. A saída geralmente é uma malha em um formato como .ply para objetos genéricos. Para entidades mais complexas, como figuras humanas, a reconstrução pode incluir informações mais ricas, por exemplo, codificadas em .GLB arquivos que transportam dados de geometria e materiais básicos juntos.

Repetimos esse processo para várias imagens e variações da mesma categoria, cones em estados diferentes, barreiras com cores diferentes, trabalhadores com equipamentos diferentes. Nem toda reconstrução será perfeita; parte do trabalho consiste em inspecionar visualmente os resultados, descartar malhas claramente inutilizáveis e manter aquelas que capturam a essência do objeto com fidelidade suficiente para tarefas de simulação e percepção. Abaixo estão alguns exemplos representativos.

Vídeo 1:https://aidemos.meta.com/segment-anything/gallery/?template_id=832850682964027 

Vídeo 2:https://aidemos.meta.com/segment-anything/recents/?template_id=198023664608999

Vídeo 3:https://aidemos.meta.com/segment-anything/gallery/?template_id=2722125464791925 

Vídeo 4:https://aidemos.meta.com/segment-anything/gallery/?template_id=822533564022314

Para figuras humanas, um requisito importante é que o corpo não seja recortado ou fortemente ocluído na imagem. Na verdade, isso é desejável para qualquer tipo de objeto, pois a visibilidade total ajuda o modelo de reconstrução a inferir uma forma geral coerente que pode ser posteriormente refinada ou manipulada, se necessário. Mesmo que o resultado ainda seja um corpo rígido nesse estágio, ele já é útil para muitas cargas de trabalho de visão computacional, como detecção de pedestres ou monitoramento de segurança.

1: https://aidemos.meta.com/segment-anything/recents/?template_id=743084848135291  
2: https://aidemos.meta.com/segment-anything/gallery/?template_id=3281647291993341

Etapa 3 — Limpeza e preparação de ativos para simulação

As malhas produzidas por modelos de reconstrução são um forte ponto de partida, mas requerem algum pós-processamento antes de serem usadas em um simulador. É aqui que as ferramentas de modelagem 3D, como Liquidificador entra em jogo. O passe de limpeza típico inclui verificar e ajustar a escala para que os objetos tenham dimensões realistas, alinhar a orientação e definir um ponto de articulação sensato (por exemplo, na base de um cone) e simplificar ou corrigir a topologia problemática. Pequenos defeitos irrelevantes em uma imagem renderizada podem se tornar significativos quando a física e as colisões estão envolvidas.

Durante essa fase, também padronizamos os formatos. Como o Omniverse e o Isaac Sim são criados com base no USD como representação central, convertemos malhas limpas em ativos em USD e, quando úteis, definimos variantes que codificam diferentes opções de aparência ou configuração. Isso estabelece as bases para a instanciação e a montagem eficiente da cena posteriormente.

Ativo 3D reconstruído carregado no Blender para limpeza e preparação antes da exportação para USD.

No final desta etapa, temos uma biblioteca de ativos selecionada e pronta para simulação: não perfeita, mas consistente, dimensionada corretamente e compatível com o restante da pilha digital dupla.

Passo 4 — Construindo cenas sintéticas no Omniverse e no Isaac Sim

Com uma biblioteca de ativos em USD, migramos para o Nvidia Omniverse Isaac Sim para construir ambientes reais. Câmeras, luzes, planos terrestres e estruturas maiores definem o estágio básico e cones, barreiras, ferramentas e trabalhadores gerados preenchem esse estágio.

Se você já tem scripts que controlam o posicionamento de objetos, o movimento da câmera e a geração de anotações no Isaac Sim, esses scripts não precisam mudar drasticamente. A principal diferença é que, em vez de instanciar um punhado de primitivas genéricas, agora você instancia um catálogo diversificado de objetos realistas. Posições, orientações, texturas e iluminação podem ser aleatórias para produzir centenas ou milhares de vistas exclusivas.

Como o Isaac Sim está totalmente integrado aos recursos de física e renderização do Omniverse, você pode decidir até onde levar o realismo. Para alguns casos de uso, um comportamento corporal rígido simples e materiais aproximados são suficientes, mas você pode investir em propriedades físicas mais detalhadas, melhores sombreadores ou configurações de iluminação mais ricas. A chave é que o pipeline escale. Uma vez definidos os ativos, criar um novo conjunto de dados se torna mais uma questão de parametrizar a cena do que de ajustar manualmente cada foto.

O resultado é um grande conjunto de imagens sintéticas, combinadas com anotações de alta qualidade, que refletem melhor a variabilidade e a desordem de locais de trabalho reais em comparação com as simulações tradicionais e claras.

Cenário de canteiro de obras do mundo real usado como referência para gerar contrapartes sintéticas no Omniverse Isaac Sim.

Pessoas e segurança

Uma das aplicações mais convincentes dessa abordagem é a modelagem da presença e do comportamento humano em torno de máquinas. Para sistemas críticos e de segurança, é essencial reconhecer pessoas em posições diferentes, com equipamentos diferentes e, às vezes, em situações não compatíveis.

Ao gerar imagens de trabalhadores com roupas, tipos de corpo e equipamentos de proteção individual variados, reconstruindo-os com o SAM 3D e trazendo-os para Isaac Sim, podemos criar cenas em que as pessoas aparecem em zonas seguras, em áreas limítrofes e em lugares onde claramente não deveriam estar. Também podemos representar capacetes perdidos, corpos parcialmente visíveis, oclusões atrás de obstáculos e outras condições desafiadoras.

Registrar essas situações no mundo real seria arriscado e eticamente questionável. Sintetizá-las em um ambiente virtual controlado é mais seguro e flexível. Os modelos treinados nesses conjuntos de dados estão mais bem preparados para detectar pedestres, aplicar regras de segurança e generalizar a diversidade visual que os operadores reais exibem.

Cena de canteiro de obras com máquinas e trabalhadores, representando os tipos de interações homem-máquina que dados sintéticos podem modelar com segurança na simulação.

Vantagens e desvantagens de tubulações sintéticas generativas

Passar da criação totalmente manual de ativos para um pipeline sintético generativo traz benefícios claros, mas também algumas considerações que as equipes precisam ter em mente.

Do lado positivo, o ganho mais óbvio é a velocidade. Gerar uma família de ativos a partir de descrições de texto e imagens é significativamente mais rápido do que modelar cada um do zero, especialmente quando são necessárias variações na textura, no desgaste ou pequenas alterações na geometria. O pipeline também oferece uma diversidade muito maior. Ao ajustar as instruções e as configurações de reconstrução, é possível explorar um amplo espaço de aparências e condições, incluindo situações raras ou adversas que são difíceis de capturar pela câmera.

Outra vantagem é a reutilização. Depois que as etapas da descrição até o ativo em USD estiverem em vigor, o mesmo processo poderá ser aplicado a novos domínios, armazéns em vez de canteiros de obras ou campos agrícolas, sem reinventar o fluxo de trabalho. A pilha de modelos generativos, SAM 3D, limpeza de geometria e Omniverse/Isaac Sim atua como um mecanismo geral para conteúdo sintético.

Por outro lado, existem vantagens e desvantagens. As malhas reconstruídas geralmente não são tão precisas quanto os modelos feitos à mão, especialmente para componentes altamente projetados, onde a geometria exata é importante. Para muitas tarefas de percepção, isso é aceitável, mas é importante estar ciente das limitações. Além disso, as propriedades físicas e materiais não são inferidas magicamente, elas precisam ser configuradas, seja na ferramenta de modelagem ou dentro do Omniverse, para se comportarem de forma realista sob simulação. Por fim, confiar apenas em dados sintéticos pode introduzir preconceitos vinculados aos próprios modelos generativos, portanto, continua sendo fundamental validar o desempenho em dados reais e, quando possível, misturar amostras sintéticas e reais.

Projetado para uma transferência suave de sim para real

O objetivo de todo esse trabalho não é simplesmente gerar belas renderizações, mas treinar modelos e desenvolver estratégias de controle que sejam transferidas para sistemas reais. Conseguir isso requer atenção deliberada ao alinhamento entre o simulador e o real.

No nível visual, os elementos intrínsecos da câmera, os campos de visão e as posições de montagem na simulação devem corresponder tanto quanto possível aos dos robôs físicos. As condições de iluminação em cenas sintéticas devem abranger a faixa vista na implantação: sol forte, dias nublados, iluminação artificial, sombras e brilho. As escalas e posicionamentos dos objetos devem refletir as restrições e os layouts reais.

No nível dos dados, geralmente é melhor combinar amostras sintéticas e reais. Os dados sintéticos oferecem cobertura e diversidade, enquanto as gravações reais ancoram o modelo na verdadeira distribuição de texturas, ruídos e imperfeições. Ao avaliar modelos em um conjunto separado de imagens reais, rastrear detecções perdidas de pedestres, erros de localização de objetos e alarmes falsos em cenários de segurança, você obtém feedback acionável para melhorar o pipeline de geração sintética e a configuração do treinamento.

Quando esse ciclo funciona bem, o pipeline de ativos generativos se torna uma alavanca poderosa: ele permite que as equipes repitam rapidamente o design do ambiente e a lógica de segurança, mantendo o objetivo final firmemente vinculado ao desempenho no mundo real.

O que vem a seguir

Não é difícil imaginar um fluxo de trabalho no futuro próximo em que um proprietário de produto especifique, em linguagem natural, o tipo de site que deseja modelar, seu tamanho, topologia, maquinário, padrões de tráfego e regras de segurança, e um agente de IA orquestra toda a cadeia: projetando solicitações, gerando imagens, reconstruindo ativos, limpando a geometria, montando cenas no Omniverse e lançando a geração de conjuntos de dados sintéticos no Isaac Sim. Especialistas humanos se concentrariam em definir objetivos, restrições e critérios de avaliação, em vez de colocar cones e barreiras manualmente.

Na Marvik, já estamos trabalhando nessa interseção de IA generativa, gêmeos digitais e robótica, ajudando equipes a usar dados sintéticos para acelerar o desenvolvimento e melhorar a segurança de máquinas que operam em ambientes complexos. Se você estiver explorando como treinar robôs em mundos virtuais realistas antes de enviá-los para o campo, ficaremos felizes em conversar.

Toda jornada de IA começa com uma conversa

Vamos conversar
Vamos conversar