
Este enfoque utiliza un modelo lingüístico avanzado para generar datos de entrenamiento sintéticos y tomar decisiones basadas en entradas lingüísticas.
Aunque no supera los métodos tradicionales basados en la visión, tiene la ventaja de requerir menos recursos y de ser fácilmente adaptable a diferentes actividades y entornos. Un ejemplo práctico es un robot doméstico encargado de llevar la ropa sucia al piso inferior, hasta la lavadora situada en el sótano.
Para ejecutar esta tarea, el robot debe combinar las instrucciones lingüísticas con sus observaciones visuales, decidiendo los pasos necesarios para completar la actividad. Actualmente, la mayoría de los sistemas de inteligencia artificial se basa en modelos de aprendizaje automático específicamente diseñados, que requieren una cantidad significativa de expertise y esfuerzo humano para ser desarrollados.
Estos modelos, que se basan en representaciones visuales para tomar decisiones de navegación, necesitan una enorme cantidad de datos visuales para el entrenamiento, a menudo difíciles de obtener. Para abordar estos desafíos, los investigadores han desarrollado un método que convierte las representaciones visuales en descripciones lingüísticas, que luego se insertan en un modelo lingüístico amplio capaz de gestionar todo el proceso de navegación multi-paso. A diferencia de los métodos tradicionales que utilizan directamente las características visuales del entorno, este nuevo enfoque crea subtítulos textuales que describen la perspectiva del robot.
Un modelo lingüístico avanzado utiliza estos subtítulos para predecir las acciones que el robot debería emprender en función de las instrucciones lingüísticas proporcionadas por el usuario. El enfoque basado exclusivamente en representaciones lingüísticas permite generar una gran cantidad de datos sintéticos para el entrenamiento, utilizando el modelo lingüístico amplio.
Aunque no alcanza el rendimiento de los métodos basados en características visuales, este sistema es particularmente útil en escenarios donde los datos visuales para el entrenamiento son escasos.
Los investigadores han descubierto que combinando entradas lingüísticas con señales visuales se obtiene una mejora del rendimiento en la navegación. Otra ventaja de este método es su simplicidad: dado que todas las entradas pueden ser codificadas como lenguaje, es posible generar trayectorias que resultan comprensibles para los seres humanos.
Según Bowen Pan, estudiante de posgrado en Ingeniería Eléctrica e Informática en el MIT y autor principal del estudio, “el uso exclusivo del lenguaje como representación perceptiva simplifica el enfoque y permite una mayor comprensión por parte de los seres humanos”. El equipo también ha explorado la integración de este modelo en el contexto de la navegación basada en visión y lenguaje, utilizando descripciones textuales de las observaciones visuales del robot, combinadas con instrucciones lingüísticas. Este enfoque ofrece numerosas ventajas: en primer lugar, requiere menos recursos computacionales en comparación con los datos visuales complejos, permitiendo una rápida generación de datos sintéticos para el entrenamiento; además, cierra la brecha entre entornos simulados y aplicaciones en el mundo real, gracias a la mayor facilidad para distinguir entre descripciones lingüísticas simuladas y reales; hace más comprensibles para los seres humanos las razones de posibles fallos, gracias al uso de descripciones narrativas. Sin embargo, una desventaja reside en la pérdida parcial de la información que podría ser capturada mediante modelos basados en la visión, como la relativa a la profundidad.
Los resultados obtenidos muestran mejoras significativas en la capacidad de los sistemas híbridos que combinan métodos basados en lenguaje y visión, sugiriendo una ventaja potencial de la información lingüística sobre la puramente visual. Los autores tienen la intención de continuar sus investigaciones centrándose en mejoras del rendimiento a través de la creación de sistemas de captioning orientados a la navegación y en la exploración de las capacidades espaciales de los modelos lingüísticos aplicados a la navegación basada en el lenguaje.






