Robótica e automação

OTA v2: permitindo a melhoria contínua dos sistemas de IA

Principais insights

Estendeu a base de OTA e telemetria para uma plataforma completa de ciclo de vida de ML, permitindo o retreinamento do modelo, a validação do sistema e a resposta estruturada a incidentes para melhoria contínua em escala de frota.

Sobre o cliente

Líder global em equipamentos compactos e pesados, focada na integração de tecnologias avançadas para aprimorar a experiência do operador, a inteligência da máquina e o desempenho da frota.

O desafio

Depois de estabelecer uma base OTA e de ponta a nuvem pronta para produção, o próximo desafio foi permitir a melhoria contínua dos sistemas de IA implantados.

Embora a plataforma estivesse estável e operacional, o escalonamento exigia:

  • Validação de ponta a ponta em dispositivos reais em condições semelhantes às de produção
  • Rastreabilidade total em fluxos de trabalho e implantações OTA
  • Análise estruturada de telemetria e inferência
  • Fluxos de trabalho confiáveis de reciclagem de modelos usando dados do mundo real
  • Uma estrutura clara de resposta a incidentes para o comportamento orientado pelo LLM

Sem esses recursos, o sistema corria o risco de permanecer implantável, mas não continuamente aprimorável.

A abordagem de Marvik

Nós nos concentramos na evolução pragmática em vez de na engenharia excessiva, com base na arquitetura existente para introduzir recursos operacionais e de ciclo de vida essenciais de ML.

Nossa abordagem incluiu:

  • Orquestração e rastreabilidade OTA: Introduziu o rastreamento persistente do estado, o registro de auditoria e o acesso baseado em funções para garantir visibilidade total em todas as implantações.
  • Validação de ponta a ponta: Executou testes em dispositivos reais sob conectividade restrita (VPN, redes intermitentes) para validar os fluxos OTA e a integridade dos dados.
  • Capacitação de reciclagem de modelos: Dados estruturados de telemetria e voz em conjuntos de dados versionados e prontos para treinamento, permitindo a melhoria contínua dos componentes STT e LLM.
  • Monitoramento e resposta a incidentes: Modos de falha, níveis de severidade e runbooks operacionais definidos do LLM para oferecer suporte ao comportamento confiável do sistema na produção.

Essa fase garantiu que o sistema evoluísse de uma infraestrutura estável para uma plataforma de IA em constante melhoria.

Os resultados e o impacto

  • Rastreabilidade total em fluxos de trabalho OTA e atualizações de frota.
  • Contratos de dados de ponta a ponta validados entre ambientes de borda e nuvem.
  • Estabeleceu canais estruturados para transformar dados de inferência e áudio em conjuntos de dados de reciclagem.
  • Introduziu o rastreamento de versões e a visibilidade de desempenho em componentes LLM e RAG.
  • Entregou uma estratégia documentada de resposta a incidentes alinhada com as equipes operacionais.

A plataforma agora está posicionada não apenas para implantar modelos de IA, mas para monitorá-los, avaliá-los e melhorá-los sistematicamente ao longo do tempo

Por que isso importa

Em sistemas de IA de produção, a implantação é apenas o ponto de partida. O valor a longo prazo depende da capacidade de monitorar, avaliar e melhorar continuamente os modelos em condições reais.

Ao permitir fluxos de trabalho estruturados de reciclagem, observabilidade e governança operacional, essa plataforma evoluiu de um sistema implantável para um ecossistema de IA continuamente aprimorado em escala de frota.

Toda jornada de IA começa com uma conversa

Vamos conversar
Vamos conversar