Escuche este artículo |
Para los expertos en robótica, hay un desafío que sobresale por encima de todos los demás: la generalización: la capacidad de crear máquinas que puedan adaptarse a cualquier entorno o condición. Desde la década de 1970, el campo ha evolucionado desde la escritura de programas sofisticados hasta el uso del aprendizaje profundo, enseñando a los robots a aprender directamente del comportamiento humano. Pero persiste un obstáculo crítico: la calidad de los datos. Para mejorar, los robots necesitan encontrar escenarios que superen los límites de sus capacidades, operando al límite de su dominio. Este proceso tradicionalmente requiere supervisión humana, en la que los operadores desafían cuidadosamente a los robots para ampliar sus capacidades. A medida que los robots se vuelven más sofisticados, este enfoque práctico enfrenta un problema de escala: la demanda de datos de entrenamiento de alta calidad supera con creces la capacidad humana para proporcionarlos.
Un equipo de investigadores del MIT CSAIL ha desarrollado un enfoque para el entrenamiento de robots que podría acelerar significativamente el despliegue de máquinas inteligentes y adaptables en entornos del mundo actual. El nuevo sistema, denominado “LucidSim”, utiliza avances recientes en IA generativa y simuladores de física para crear entornos de entrenamiento virtuales diversos y realistas, ayudando a los robots a lograr un rendimiento de nivel experto en tareas difíciles sin datos del mundo actual.
LucidSim combina la simulación física con modelos generativos de IA, abordando uno de los desafíos más persistentes en robótica: transferir habilidades aprendidas en simulación al mundo actual.
«Un desafío elementary en el aprendizaje de robots ha sido durante mucho tiempo la ‘brecha entre simulación y realidad’: la disparidad entre entornos de entrenamiento simulados y el complejo e impredecible mundo actual», dijo Ge Yang, asociado postdoctoral del MIT CSAIL, investigador principal de LucidSim. «Los enfoques anteriores a menudo se basaban en sensores de profundidad, lo que simplificaba el problema pero pasaba por alto complejidades cruciales del mundo actual».
El sistema multifacético es una combinación de diferentes tecnologías. Básicamente, LucidSim utiliza grandes modelos de lenguaje para generar varias descripciones estructuradas de entornos. Estas descripciones luego se transforman en imágenes utilizando modelos generativos. Para garantizar que estas imágenes reflejen la física del mundo actual, se utiliza un simulador de física subyacente para guiar el proceso de generación.
Relacionado: Cómo Agility Robotics cerró la brecha Sim2Real para Digit
Nacimiento de una thought: de los burritos a los avances
La inspiración para LucidSim surgió de un lugar inesperado: una conversación afuera de Beantown Taqueria en Cambridge, MA.
”Queríamos enseñar a los robots equipados con visión cómo mejorar utilizando la retroalimentación humana. Pero luego nos dimos cuenta de que, para empezar, no teníamos una política basada puramente en la visión”, dijo Alan Yu, estudiante universitario en el MIT y codirector de LucidSim. “Seguimos hablando de ello mientras caminábamos por la calle, y luego nos detuvimos afuera de la taquería durante aproximadamente media hora. Ahí es donde tuvimos nuestro momento”.
Para elaborar sus datos, el equipo generó imágenes realistas extrayendo mapas de profundidad, que proporcionan información geométrica, y máscaras semánticas, que etiquetan diferentes partes de una imagen, de la escena simulada. Sin embargo, rápidamente se dieron cuenta de que con un management estricto sobre la composición del contenido de la imagen, el modelo produciría imágenes similares que no eran diferentes entre sí usando el mismo mensaje. Entonces, idearon una manera de obtener diversos mensajes de texto de ChatGPT.
Sin embargo, este enfoque sólo dio como resultado una única imagen. Para crear vídeos breves y coherentes que sirvan como pequeñas «experiencias» para el robotic, los científicos incorporaron algo de magia de imágenes en otra técnica novedosa que creó el equipo, llamada «Goals In Movement (DIM)». El sistema calcula los movimientos de cada píxel entre fotogramas para deformar una única imagen generada en un vídeo corto de varios fotogramas. Goals In Movement hace esto considerando la geometría 3D de la escena y los cambios relativos en la perspectiva del robotic.
«Superamos a la aleatorización de dominios, un método desarrollado en 2017 que aplica colores y patrones aleatorios a los objetos del entorno, que todavía se considera el método de referencia en estos días», cube Yu. “Si bien esta técnica genera datos diversos, carece de realismo. LucidSim aborda problemas tanto de diversidad como de realismo. Es emocionante que incluso sin ver el mundo actual durante el entrenamiento, el robotic pueda reconocer y sortear obstáculos en entornos reales”.
El equipo está particularmente entusiasmado con el potencial de aplicar LucidSim a dominios fuera de la locomoción cuadrúpeda y el parkour, su principal banco de pruebas. Un ejemplo es la manipulación móvil, en la que un robotic móvil tiene la tarea de manipular objetos en un área abierta y, además, la percepción del colour es elementary.
«Hoy en día, estos robots todavía aprenden de demostraciones del mundo actual», dijo Yang. “Aunque recopilar demostraciones es fácil, escalar una configuración de teleoperación de robotic del mundo actual a much de habilidades es un desafío porque un humano tiene que configurar físicamente cada escena. Esperamos que esto sea más fácil y, por lo tanto, cualitativamente más escalable, trasladando la recopilación de datos a un entorno digital”.

Los investigadores del MIT utilizaron un cuadrúpedo Unitree Robotics Go1. | Crédito: MIT CSAIL
El equipo puso a prueba LucidSim frente a una alternativa, donde un maestro experto demuestra la habilidad para que el robotic aprenda. Los resultados fueron sorprendentes: los robots entrenados por el experto tuvieron dificultades, teniendo éxito sólo el 15 por ciento de las veces, e incluso cuadriplicando la cantidad de datos de entrenamiento de expertos apenas logró lograr la meta. Pero cuando los robots recopilaron sus propios datos de entrenamiento a través de LucidSim, la historia cambió drásticamente. Simplemente duplicar el tamaño del conjunto de datos catapultó las tasas de éxito al 88%.
«Y darle a nuestro robotic más datos de manera monótona mejora su rendimiento; eventualmente, el estudiante se convierte en experto», dijo Yang.
«Uno de los principales desafíos en la transferencia de simulación an actual para la robótica es lograr realismo visible en entornos simulados», dijo Shuran Tune, profesor asistente de Ingeniería Eléctrica de la Universidad de Stanford, que no participó en la investigación. “El marco LucidSim proporciona una solución elegante mediante el uso de modelos generativos para crear datos visuales diversos y altamente realistas para cualquier simulación. Este trabajo podría acelerar significativamente el despliegue de robots entrenados en entornos virtuales para tareas del mundo actual”.
Desde las calles de Cambridge hasta la vanguardia de la investigación en robótica, LucidSim está allanando el camino hacia una nueva generación de máquinas inteligentes y adaptables, que aprenden a navegar en nuestro complejo mundo sin siquiera poner un pie en él.
Yu y Yang escribieron el papel con cuatro afiliados de CSAIL: el posdoctorado en ingeniería mecánica Ran Choi; el investigador universitario Yajvan Ravan; John Leonard, Profesor Samuel C. Collins de Ingeniería Mecánica y Oceánica en el Departamento de Ingeniería Mecánica del MIT; y el profesor asociado del MIT Phillip Isola.
Nota del editor: Este artículo fue republicado desde MIT CSAIL