Investigadores del Instituto Tecnológico de Massachusetts (MIT) desarrollaron DAAAM (acrónimo de Describe Anything, Anywhere, Anytime, at Any Moment), un sistema de memoria para robots que les permite recordar entornos complejos, recuperar información en lenguaje natural y responder en tiempo real preguntas como dónde quedó un objeto, un avance que busca acercar la forma en que las máquinas razonan sobre el espacio y el tiempo a la manera en que lo hacen los humanos, según el portal especializado en ciencia y tecnología TechXplore.
En las pruebas comparativas, DAAAM fue entre 21% y 53% más preciso que otros métodos. El sistema también acelera el procesamiento al punto de multiplicar por diez la velocidad de cómputo al describir varios objetos en paralelo a partir de imágenes seleccionadas.
El trabajo fue presentado recientemente en la Conference on Computer Vision and Pattern Recognition y publicado en el servidor de prepublicaciones científicas arXiv. La investigación estuvo a cargo de Nicolas Gorlo, estudiante de posgrado del MIT, junto con Lukas Schmid, ex científico investigador del MIT y hoy profesor en la Universidad de Tecnología de Núremberg en Alemania, bajo la dirección de Luca Carlone.
Carlone, profesor asociado del Departamento de Aeronáutica y Astronáutica del MIT, investigador principal del Laboratory for Information and Decision Systems y director del MIT SPARK Laboratory, explicó que el objetivo es que los robots compartan con las personas una misma lógica de comprensión del entorno.
“Si queremos que los robots trabajen codo a codo con los humanos e interactúen mejor con ellos, deben hablar el mismo idioma. El robot debe ser capaz de razonar sobre el tiempo y el espacio de la misma manera que los humanos. Eso es, en esencia, lo que hace nuestro método. Convierte un mapa tradicional en un mapa basado en lenguaje que es más fácil para el robot de pensar y consultar usando lenguaje”, explicó.
Un mapa que describe lo que ve
El problema que intenta resolver esta investigación aparece con claridad en escenarios industriales. Para ilustrarlo, el portal describió el caso de una trabajadora de una fábrica que puede recordar en qué contenedor dejó la noche anterior una pieza parcialmente ensamblada y volver directamente a buscarla, pero un robot que opere a su lado suele tener dificultades para construir y consultar ese mismo tipo de memoria.
El nuevo marco combina dos campos que hasta ahora avanzaban por carriles distintos: la visión por computadora y el mapeo robótico. Los modelos multimodales de visión son capaces de entender y describir objetos dentro de una escena, aunque suelen procesar una anotación por vez, mientras que los sistemas de mapeo robótico generan mapas tridimensionales de espacios completos, como un departamento o un campus universitario, pero normalmente carecen de descripciones detalladas o requieren demasiado cálculo.
A medida que el robot recorre un entorno, el sistema adjunta descripciones detalladas a los objetos que detecta. De acuerdo con el portal, eso le permite, por ejemplo, registrar que un edificio del campus del MIT es el Stata Center y que tiene un determinado tipo de arquitectura, o que en un estacionamiento para bicicletas hay cinco bicicletas y que la bicicleta roja tiene una rueda pinchada. Esa información queda almacenada en una representación basada en mapas tridimensionales, organizada espacialmente por regiones, lo que le permite al robot recordar que esa bicicleta roja está junto al Stata Center.
El profesor explicó que la intención es diseñar “un nuevo tipo de memoria, una memoria espaciotemporal, que permita a un robot impulsado por IA recordar interacciones reales y observaciones de sensores”. Y añadió: “Como ChatGPT, pero anclado en el mundo real y capaz de responder cualquier pregunta sobre el entorno, como ‘¿Dónde dejé mi billetera?’”.
Anotar rápido para actuar en tiempo real
Uno de los límites de las técnicas previas era su lentitud. Los sistemas capaces de capturar descripciones detalladas suelen necesitar algunos segundos para anotar apenas unos pocos objetos, un ritmo insuficiente para un robot que puede encontrar cientos de elementos durante pocos minutos de exploración.
Para resolver ese cuello de botella, DAAAM agrupa objetos cercanos mientras el robot avanza y utiliza un método de optimización para elegir fotogramas clave: imágenes con la vista más clara de varios objetos. Eso permite describir varios elementos a la vez y acelerar el procesamiento.
Gorlo explicó que el sistema anota cada objeto una sola vez, lo que hace posible su funcionamiento en entornos de gran escala y en tiempo real. “Anotamos cada objeto solo una vez, por lo que nuestro marco puede funcionar en entornos muy grandes en tiempo real. Y al agrupar objetos en regiones, puede responder una amplia gama de consultas sobre objetos y ubicaciones en el entorno”.
Una vez construida esa memoria espacial, el reto pasa a ser la recuperación eficiente de la información dentro de una base de datos muy extensa de objetos y descripciones. Para eso, los investigadores usaron un modelo de lenguaje de gran tamaño que recurre a distintas herramientas de búsqueda y recuperación de datos, una estrategia pensada para reducir las alucinaciones.
Ese mecanismo le permite al sistema responder una consulta con precisión en apenas unos segundos. Si una persona le pregunta al robot por una escultura vista cerca de un edificio del campus, DAAAM puede activar una búsqueda semántica basada en la palabra “escultura” o usar otra herramienta enfocada en la ubicación del edificio.
El trabajo demuestra que un sistema de inteligencia artificial puede acercarse a recordar dónde quedó un objeto, siempre que esa memoria esté vinculada a observaciones reales, mapas tridimensionales y lenguaje natural. En la práctica, eso podría permitir que una trabajadora le pida a un asistente robótico que busque “el componente que empezamos a ensamblar anoche”.
Fábricas, realidad aumentada y tareas cotidianas
Además de su uso potencial en robótica, el método podría aplicarse a sistemas de realidad aumentada para asistir a técnicos de mantenimiento en la detección de anomalías o ayudar a viajeros y peatones a orientarse, detalló el portal.
El equipo también quiere ampliar DAAAM para que pueda registrar eventos relevantes ocurridos en el entorno e incorporar niveles de confianza en sus respuestas. El estudiante dijo: “En última instancia, queremos tener robots que puedan ayudar con cualquier tipo de tarea. Con este marco, estamos tratando de crear las bases para habilitar un agente generalista que pueda hacer cualquier cosa que se le pida”.

