Robótica y automatización

OTA v2: Permitir la mejora continua de los sistemas de IA

Perspectivas clave

Amplió la base de la OTA y la telemetría hasta convertirla en una plataforma de ciclo de vida de aprendizaje automático completa, lo que permitió el reentrenamiento de los modelos, la validación del sistema y la respuesta estructurada a los incidentes para una mejora continua a escala de flota.

Acerca del cliente

Líder mundial en equipos compactos y pesados, centrado en la integración de tecnologías avanzadas para mejorar la experiencia del operador, la inteligencia de las máquinas y el rendimiento de la flota.

El desafío

Tras establecer una base OTA y de extremo a nube lista para la producción, el siguiente desafío fue permitir la mejora continua de los sistemas de IA implementados.

Si bien la plataforma era estable y operativa, la escalabilidad requería:

  • Validación de extremo a extremo en dispositivos reales en condiciones similares a las de producción
  • Trazabilidad total en todos los flujos de trabajo e implementaciones de OTA
  • Telemetría estructurada y análisis de inferencia
  • Flujos de trabajo confiables de reentrenamiento de modelos con datos del mundo real
  • Un marco claro de respuesta a incidentes para el comportamiento impulsado por la LLM

Sin estas capacidades, el sistema corría el riesgo de seguir siendo desplegable pero no mejorable de forma continua.

El enfoque de Marvik

Nos centramos en la evolución pragmática en lugar de en la ingeniería excesiva, basándonos en la arquitectura existente para introducir las capacidades operativas y del ciclo de vida del aprendizaje automático esenciales.

Nuestro enfoque incluyó:

  • Orquestación y trazabilidad de OTA: Introdujo el seguimiento persistente del estado, el registro de auditorías y el acceso basado en roles para garantizar una visibilidad total en todas las implementaciones.
  • Validación de extremo a extremo: Ejecuté pruebas en dispositivos reales con conectividad restringida (VPN, redes intermitentes) para validar los flujos OTA y la integridad de los datos.
  • Habilitación de reentrenamiento de modelos: Estructuró los datos de voz y telemetría en conjuntos de datos versionados y listos para la capacitación, lo que permitió la mejora continua de los componentes de STT y LLM.
  • Supervisión y respuesta a incidentes: Se definieron los modos de falla, los niveles de gravedad y los libros de ejecución operativos de LLM para respaldar un comportamiento confiable del sistema en producción.

Esta fase aseguró que el sistema evolucionara de una infraestructura estable a una plataforma de IA que mejoraba continuamente.

Los resultados y el impacto

  • Trazabilidad total en los flujos de trabajo de OTA y las actualizaciones de flota.
  • Contratos de datos de extremo a extremo validados entre entornos perimetrales y de nube.
  • Se establecieron canalizaciones estructuradas para transformar los datos de audio e inferencia en conjuntos de datos de reentrenamiento.
  • Introdujo el seguimiento de versiones y la visibilidad del rendimiento en los componentes de LLM y RAG.
  • Entregué una estrategia de respuesta a incidentes documentada alineada con los equipos operativos.

La plataforma ahora está posicionada no solo para implementar modelos de IA, sino también para monitorearlos, evaluarlos y mejorarlos sistemáticamente a lo largo del tiempo

Por qué es importante

En los sistemas de IA de producción, la implementación es solo el punto de partida. El valor a largo plazo depende de la capacidad de supervisar, evaluar y mejorar continuamente los modelos en condiciones reales.

Al permitir los flujos de trabajo estructurados de reentrenamiento, la observabilidad y la gobernanza operativa, esta plataforma pasó de ser un sistema desplegable a un ecosistema de IA que mejora continuamente a escala de flota.

Cada viaje de IA comienza con una conversación

Hablemos
Hablemos