Técnico

Das palavras às ações: a ascensão dos modelos de visão-linguagem-ação na robótica

Compartilhar

1. Introdução

Apenas alguns anos atrás, a ideia de dizer a um robô o que fazer em linguagem simples — e fazer com que ele entendesse, percebesse o ambiente e execute a tarefa — parecia ficção científica. A jornada começou com Modelos de linguagem grandes (LLMs), que transformou nossa capacidade de processar e gerar linguagem humana. Modelos de linguagem de visão (VLMs) logo se seguiram, fundindo a percepção visual com a compreensão da linguagem natural para que os sistemas de IA pudessem raciocinar em conjunto sobre o que veem e o que lhes dizem. No entanto, para a robótica, a percepção e a conversação não eram suficientes — atuar no mundo real exige a conversão de entradas sensoriais e de linguagem em comandos motores precisos e coordenados.

Aqui é onde Visão-Linguagem-Ação Os modelos (VLA) entram. Os VLAs não descrevem apenas imagens ou seguem instruções — eles geram diretamente ações de robôs em tempo real. Ao combinar as habilidades de raciocínio dos VLMs com as políticas de controle para sistemas físicos, os VLAs unificam a percepção, a compreensão e a execução em um único pipeline. Essa integração permite que robôs de uso geral possam lidar com diversas tarefas, se adaptar a novos ambientes e operar em diferentes plataformas de robôs sem precisar se retreinar do zero, abrindo caminho para a execução imediata de tarefas e ciclos de desenvolvimento mais rápidos.

Neste blog, exploraremos as arquiteturas que estão impulsionando os sistemas VLA de última geração, começando com o original Política de difusão e migrando para implementações em grande escala, como Pi da Inteligência Física e GR00T N1 da NVIDIA. Também veremos como Hugging Face é Smol VLA traz esses recursos para laboratórios e startups menores, e como a biblioteca LeroRobot possibilita que qualquer pessoa treine, avalie e implante modelos de VLA. Finalmente, examinaremos Gemini Robotics 1.5, o mais recente modelo de última geração para robótica. Esse modelo integra um sistema de geração de planos para o mundo físico com um VLA para execução do plano.

Ao final, você terá uma visão clara de onde o campo está — e para onde ele está indo.

2. Arquiteturas baseadas em difusão para VLA em robótica

O Política de difusão a estrutura reformula o controle do robô como um processo de eliminação de ruído condicional no espaço de ação. Em vez de prever a próxima ação diretamente, o modelo começa com uma sequência de ação ruidosa e a refina iterativamente usando um campo de gradiente aprendido, condicionado a observações visuais recentes. Isso tem vários benefícios práticos: ele modela naturalmente distribuições de ação multimodais (capturando várias formas válidas de resolver uma tarefa), manipula saídas de alta dimensão prevendo sequências de ação inteiras de uma só vez e evita a instabilidade de muitos métodos baseados em energia, evitando a necessidade de normalização explícita.

Na prática, a Política de Difusão é implementada com Baseado na CNN ou baseado em transformador redes de previsão de ruído, esta última particularmente eficaz para tarefas que exigem mudanças de ação rápidas e refinadas. Ele usa controle de horizonte recuado, em que o modelo prevê uma sequência mais longa de ações futuras, mas executa apenas as primeiras antes do replanejamento, equilibrando a capacidade de resposta com a consistência temporal. Condicionamento visual é tratado de forma eficiente codificando a observação uma vez e reutilizando essa incorporação em etapas de eliminação de ruído, reduzindo a computação e permitindo a inferência em tempo real.

Figura 1.Arquitetura Pi: o VLM codifica visão, linguagem e estado; o especialista em ações de correspondência de fluxo emite comandos de alta frequência para vários tipos de robôs.

Pi de Physical Intelligence baseia-se diretamente nesses princípios, substituindo etapas discretas de difusão por correspondência de fluxo, uma formulação de tempo contínuo que aprende um campo vetorial mapeando ações ruidosas em direção a ações limpas. Essa mudança permite taxas de controle mais altas (até 50 Hz), tornando-o particularmente eficaz para tarefas ágeis, como dobrar roupas ou montar objetos. Conforme mostrado em Figura 1, Piusa um backbone VLM pré-treinado (por exemplo, Paligemma) para processar entradas RGB de várias câmeras e instruções de linguagem natural, junto com o estado proprioceptivo do robô. É especialista em ação o módulo — um transformador treinado com correspondência de fluxo — gera blocos de ação contínua, que podem ser adaptados a uma variedade de modalidades graças ao treinamento cruzado com dados de robôs de braço único, manipuladores de braço duplo e plataformas móveis. Em experimentos, Pidemonstrou que ambos forte tiro zero generalização e adaptação rápida por meio do ajuste fino em conjuntos de dados específicos de tarefas de alta qualidade.

Figura 2.Arquitetura GR00T N1: O Sistema 2 (VLM) codifica a visão, a linguagem e o estado do robô; o Sistema 1 (Transformador de Difusão) gera ações motoras por meio da redução de ruído.

Como pode ser visto na Figura 2, GR00T N1 da NVIDIA estende essas ideias em um arquitetura de sistema duplo. Sistema 2 é um VLM de alta capacidade (Eagle-2) que processa entradas de visão e linguagem a 10 Hz, formando uma compreensão semântica da tarefa e do ambiente. Esse entendimento é codificado em uma matriz de tokens que é consumida ladeira abaixo. Sistema 1 — a camada de ação — é uma Transformador de difusão treinado com correspondência de fluxo para gerar comandos de motor de circuito fechado a 120 Hz. Esses módulos são treinado em conjunto de ponta a ponta, garantindo um acoplamento estreito entre raciocínio de alto nível e atuação de baixo nível. O treinamento do GR00T N1 aproveita um pirâmide de dados:

  1. Dados visuais e de linguagem em escala web, além de vídeos humanos egocêntricos, fornecem antecedentes gerais.
  2. Dados sintéticos de simulação física e modelos generativos expandem a cobertura e a variedade.
  3. Demonstrações de robôs reais fundamentam o modelo na execução física.

O resultado é um modelo único que pode realizar manipulação condicionada pela linguagem em braços de robôs, mãos hábeis e humanóides completos, alcançando resultados de última geração em benchmarks de simulação e implantações promissoras no mundo real.

3. SmolVLA e o ecossistema LeRobot

Enquanto o Pie o GR00T N1 ultrapassam os limites de escala e capacidade, Smol VLA adota uma abordagem diferente: faça a tecnologia VLA acessível, eficiente e totalmente de código aberto. Desenvolvido pela Hugging Face, o SmolVLA é um modelo compacto (~ 450 milhões de parâmetros) que funciona confortavelmente em uma única GPU de consumo ou até mesmo em uma CPU, sem sacrificar os benefícios arquitetônicos de VLAs maiores.

Figura 3.Arquitetura SmolVLA: o VLM compacto processa visão, linguagem e estado; o especialista em ações leves refina ações ruidosas usando conjuntos de dados comunitários e hardware acessível da LeroRobot.

O modelo mantém o Especialista em ações de correspondência de fluxo em VLM + design, mas com otimizações cuidadosas:

  • Espinha dorsal do SmolVLM-2 — um VLM eficiente de várias imagens usando SiGlip para codificação de visão e Pequeno/LM2 para decodificação de linguagem, otimizado para menos tokens por imagem via reprodução aleatória de pixels.
  • Ignorando camadas — a computação para na metade do VLM, usando recursos de camada intermediária que geralmente são mais eficazes para tarefas de controle, reduzindo o tempo de inferência pela metade.
  • Tokens visuais reduzidos — apenas 64 tokens por quadro, evitando ladrilhos de alta resolução para um processamento mais rápido.
  • Inferência assíncrona — dissocia a percepção/previsão de ação da execução da ação, permitindo que o robô mantenha uma alta taxa de controle mesmo quando a percepção é mais lenta.
  • Atenção intercalada no especialista em ação — alterna a atenção cruzada (para condicionar os recursos do VLM) e a autoatenção (para modelar dependências temporais entre as ações), um design que se mostrou eficiente sem perder a precisão.

Os dados de treinamento do SmolVLA também são notáveis: menos de 30.000 episódios, tudo de conjuntos de dados contribuídos pela comunidade coletados em robôs acessíveis. Isso torna os recursos do modelo altamente reproduzíveis para pequenos laboratórios, educadores e entusiastas — um contraste nítido com as dezenas de milhares de horas de dados proprietários por trás de modelos como o Pi e o GR00T.

Além disso, o Robô Leo A biblioteca da HuggingFace é o tecido conjuntivo que transforma o SmolVLA de um artefato de pesquisa em uma ferramenta utilizável. Através API da LeroRobot e Repositório do GitHub, você pode:

  • Carregue modelos pré-treinados, como o SmolVLA, com um único comando.
  • Ajuste-os nos dados do seu próprio robô, com adaptadores de conjunto de dados integrados.
  • Avalie as políticas em simulação ou em hardware sem reescrever o ciclo de treinamento principal.
  • Compartilhe modelos treinados publicamente, beneficiando-se de um ecossistema comum de experimentos reproduzíveis.

Em resumo, o SmolVLA mais o LeRobot representam um ponto de entrada de baixa barreira na pesquisa e implantação de VLA — os mesmos conceitos arquitetônicos que impulsionam programas de pesquisa multimilionários, agora disponíveis para qualquer pessoa com um orçamento computacional modesto.

4. Agentic Robotics: dando um passo adiante com o Gemini Robotics 1.5

Enquanto Pie GR00T N1 integram raciocínio e ação em arquiteturas unificadas, Robótica Gemini 1.5 do Google DeepMind adota uma abordagem fundamentalmente diferente: separando o raciocínio de alto nível do controle de baixo nível por meio de um sistema agente de modelo duplo. Essa decisão arquitetônica aborda um desafio crítico em robótica: tarefas complexas de várias etapas exigem planejamento abstrato (como entender as regras de reciclagem ou arrumar uma mala) e execução precisa do motor, recursos difíceis de otimizar em um único modelo.

Figura 4.Arquitetura agente Gemini Robotics 1.5: o GR-ER 1.5 lida com raciocínio de alto nível e chamada de ferramentas, enquanto o GR 1.5 traduz instruções em ações por meio de traços de pensamento, permitindo o controle cruzado entre diferentes robôs.

O sistema consiste em dois modelos especializados que funcionam em conjunto:

Gemini Robotics-ER 1.5 funciona como orquestrador de alto nível. Esse modelo é excelente em compreensão espacial, planejamento de tarefas, estimativa de progresso e pode chamar nativamente ferramentas externas, como a Pesquisa do Google, para reunir as informações necessárias para a conclusão da tarefa. Por exemplo, quando solicitado a classificar objetos em lixeiras com base nas diretrizes locais, o orquestrador busca regras relevantes, entende a cena atual e divide a tarefa em etapas executáveis. Por exemplo, ele pode transformar uma instrução geral como “classificar o lixo nas lixeiras” em um conjunto de etapas específicas, como “pegar a lata vermelha”, “colocar a lata vermelha na lixeira preta” etc. Ele alcança desempenho de última geração em 15 benchmarks de raciocínio incorporado e demonstra fortes capacidades em tarefas complexas de apontamento, detecção de sucesso e compreensão espacial de múltiplas visualizações.

Robótica Gemini 1.5, o componente VLA pega o conjunto de tarefas e as processa para que o robô possa executá-las. Para fazer isso, ele apresenta um recurso inovador: pensamento incorporado. Ao contrário dos VLAs tradicionais que mapeiam diretamente instruções para ações, esse VLA pensante intercala ações com um processo de raciocínio interno de vários níveis expresso em linguagem natural, permitindo que o robô “pense antes de agir”. Quando o VLA recebe uma instrução do orquestrador (como “pegue o suéter azul”), ele gera um monólogo interno de movimentos primitivos expressos em linguagem natural (como “mover a pinça para a esquerda” ou “fechar a pinça”) antes de executá-los. Esse processo de raciocínio ajuda o modelo a decompor as instruções em segmentos mais curtos que correspondem a alguns segundos de movimento do robô cada, além de tornar o comportamento do robô mais interpretável para o usuário. O resultado não é apenas um melhor desempenho de tarefas em tarefas de várias etapas, mas também transparência: os usuários podem ver o processo de raciocínio em nível de movimento do VLA em tempo real, aumentando a confiança e a capacidade de depuração.

Uma segunda grande inovação é Transferência de movimento (MT), que permite que o modelo aprenda entre modalidades heterogêneas de robôs. Por meio de uma nova arquitetura e receita de treinamento, o GR 1.5 pode controlar vários robôs — incluindo a plataforma bimanual ALOHA, o Bi-arm Franka e o humanóide Apollo — sem pós-treinamento específico para robôs, e até mesmo demonstra uma transferência de habilidades zero entre diferentes plataformas. Tarefas treinadas somente no ALOHA podem ser executadas com sucesso no humanóide Apollo e vice-versa, reduzindo drasticamente a carga de dados para novas plataformas de robôs.

Figura 5: graças à inovação do Motion Transfer, o Gemini Robotic 1.5 pode funcionar em vários robôs diferentes.

A separação arquitetônica prova seu valor em tarefas de longo horizonte. Em avaliações comparando o sistema agente do GR 1.5 com as linhas de base usando VLMs prontas para uso, como o Gemini 2.5 Flash, como orquestradores, o Agente GR 1.5 alcançou quase o dobro da pontuação de progresso em tarefas complexas, com melhorias particularmente fortes no planejamento de tarefas. A análise de falhas revelou que os erros de planejamento diminuíram de 25,5% para 9% ao usar o GR-ER 1.5 como orquestrador, ressaltando a importância crítica do raciocínio corporificado especializado para agentes físicos confiáveis.

Principais diferenças entre o Pi e o GR00T N1:

  • Separação explícita de raciocínio e ação, em vez de um acoplamento rígido em um único sistema
  • Uso da ferramenta no nível de orquestração, permitindo que robôs pesquisem na web, acessem APIs ou chamem funções personalizadas no meio da tarefa
  • Traços de pensamento em linguagem natural que tornam o processo de tomada de decisão do robô interpretável
  • Aprendizagem interdisciplinar que transfere habilidades entre formas de robôs radicalmente diferentes sem necessidade de retreinamento

Essa filosofia de design de modelo duplo reflete uma visão pragmática: a robótica de uso geral requer tanto uma compreensão sofisticada do mundo quanto um controle motor robusto, mas esses recursos podem ser melhor desenvolvidos como componentes especializados que colaboram em vez de competir pela capacidade representacional em um único modelo.

5. Conclusão

A jornada da Política de Difusão até os sistemas VLA de última geração de hoje revela um campo que converge rapidamente para a robótica de uso geral. O que começou como uma nova abordagem para a geração de ações por meio de modelos de eliminação de ruído evoluiu para sistemas completos capazes de perceber, raciocinar e agir em ambientes complexos do mundo real.

Podemos extrair pontos-chave de cada um dos modelos e arquiteturas que vimos:

  • Política de difusão: Foi pioneira na geração de ações como redução de ruído iterativa, permitindo distribuições multimodais e consistência temporal por meio do controle de horizonte recuado.
  • Pi: Alcança o controle de 50 Hz com correspondência de fluxo, demonstrando uma forte generalização entre modalidades por meio do backbone VLM unificado e do design especializado em ação.
  • GR00T N1: impulsiona a escala com a arquitetura de sistema duplo, aproveitando uma pirâmide de dados da escala da web para demonstrações reais.
  • Smol VLA: prove que os recursos do VLA são acessíveis em pequena escala, executados em hardware de consumo e treinando com menos de 30 mil episódios usando o LeroRobot.
  • Robótica Gemini 1.5: separa o raciocínio da execução, permitindo o uso de ferramentas, a pesquisa na web e a tomada de decisões interpretável; alcança a transferência zero de habilidades em modalidades radicalmente diferentes por meio da transferência de movimento.

Cada sistema faz diferentes compensações entre integração, escala e especialização, mas todos compartilham fundamentos comuns: estrutura da linguagem de visão, difusão ou geração de ação baseada em fluxo e treinamento em várias modalidades. À medida que essas abordagens amadurecem e convergem, estamos testemunhando o surgimento de robôs verdadeiramente de uso geral — sistemas que podem perceber seu ambiente, raciocinar sobre tarefas complexas e executar manipulações hábeis em diversas plataformas. O caminho a seguir é claro: dados mais ricos entre incorporações, arquiteturas melhores para combinar raciocínio e controle e estruturas abertas que tornam esses recursos acessíveis a toda a comunidade robótica.

Toda jornada de IA começa com uma conversa

Vamos conversar
Vamos conversar