Robots guiados por inteligencia artificial: un nuevo modelo de instrucciones los hará mucho más eficientes

Investigadores del MIT y del MIT-IBM Watson AI Lab han desarrollado un innovador sistema ‍de navegación AI que transforma los datos visuales en descripciones lingüísticas, facilitando la ejecución de tareas complejas por parte de los robots.

Este enfoque utiliza un modelo lingüístico avanzado⁣ para generar datos de ‌entrenamiento sintéticos y tomar decisiones basadas en entradas lingüísticas.

Aunque no supera los métodos tradicionales basados en la visión, tiene la ventaja de requerir menos recursos y de ser fácilmente adaptable a diferentes actividades y entornos. Un ejemplo práctico es un robot doméstico encargado de‍ llevar la ‌ropa sucia al piso inferior, hasta la lavadora situada en el ‍sótano.

Para ejecutar esta tarea, el robot debe combinar ‍las instrucciones lingüísticas con sus observaciones visuales, decidiendo los pasos necesarios para completar ⁣la actividad. Actualmente, la mayoría de los sistemas de inteligencia artificial se basa en modelos de aprendizaje⁢ automático específicamente diseñados, que requieren una cantidad significativa de expertise y esfuerzo‌ humano para ser desarrollados.

Estos modelos, que se basan en representaciones visuales para tomar decisiones de navegación, necesitan una enorme cantidad de datos visuales para el entrenamiento,⁤ a menudo difíciles⁢ de obtener. ⁤ Para abordar estos desafíos, los investigadores han desarrollado un ‌método que convierte las representaciones visuales ‍en descripciones lingüísticas, que luego se insertan en un modelo lingüístico ⁢amplio capaz de gestionar todo el proceso de navegación multi-paso. A diferencia de los métodos tradicionales que utilizan directamente las características visuales del entorno, este nuevo enfoque crea subtítulos textuales que describen la‍ perspectiva del robot.

Un⁣ modelo lingüístico avanzado utiliza estos subtítulos para predecir las acciones que el robot‍ debería‍ emprender en función de las instrucciones lingüísticas proporcionadas por ⁣el usuario. ‍ El enfoque ⁤basado exclusivamente en representaciones lingüísticas permite generar⁣ una gran cantidad de datos sintéticos para el entrenamiento, utilizando el modelo lingüístico amplio.

Aunque no alcanza el rendimiento de⁣ los métodos basados en características visuales, este sistema es particularmente útil en‌ escenarios donde‌ los datos visuales para el entrenamiento son escasos.

Los ‌investigadores han descubierto que combinando entradas lingüísticas‌ con señales visuales se obtiene una⁤ mejora del rendimiento ⁣en la navegación. Otra ventaja de⁤ este método es su simplicidad: dado que todas las entradas pueden ser codificadas como lenguaje, es posible generar trayectorias que resultan comprensibles para los seres humanos.

Según Bowen Pan, estudiante de posgrado en⁤ Ingeniería Eléctrica e Informática en el MIT y autor principal del estudio, “el uso exclusivo del lenguaje como representación perceptiva⁢ simplifica el⁣ enfoque y‌ permite una mayor comprensión por parte de⁣ los seres humanos”. El equipo también ha explorado⁣ la integración de este modelo en el contexto de la navegación basada en visión y lenguaje, utilizando descripciones textuales de las observaciones visuales del robot, combinadas con instrucciones lingüísticas. Este enfoque ofrece ‌numerosas ventajas: en primer lugar, requiere menos recursos computacionales ⁢en comparación con los datos visuales complejos, permitiendo una rápida generación de datos sintéticos para el‍ entrenamiento; además, cierra la brecha entre entornos simulados y aplicaciones en ‌el ‌mundo real, ‌gracias a la mayor facilidad para distinguir entre descripciones lingüísticas simuladas y ‌reales; hace más ⁢comprensibles ⁣para los seres humanos las razones ‌de posibles fallos, gracias al uso de descripciones narrativas.‍ Sin embargo, una desventaja reside ⁣en la pérdida parcial de la información que ‍podría ser capturada mediante modelos⁤ basados en la⁣ visión, como la relativa a la profundidad.

Los resultados obtenidos muestran mejoras significativas en la capacidad de los ⁢sistemas híbridos que combinan⁤ métodos ‌basados en lenguaje y visión, sugiriendo una ventaja potencial de la información lingüística sobre la puramente visual. ⁤ Los ⁢autores tienen ⁣la intención de ⁣continuar sus investigaciones centrándose en mejoras del rendimiento a través de la creación de sistemas de captioning orientados a ‍la navegación y en la exploración de las capacidades espaciales de los modelos lingüísticos aplicados a la navegación basada en el ‌lenguaje.

¡Sigue nuestro feed!

Robots guiados por inteligencia artificial: un nuevo modelo de instrucciones los hará mucho más eficientes

Una inusual luna negra surgirá con la conclusión de 2024

La Nebulosa Running Chicken: la nueva imagen de una maravilla del cielo

Tiempo: ¿Agosto se desploma por completo? No es exactamente así

La era perdida de los Neandertales: un sitio arqueológico revela la historia

Laura Pérez

Relacionado Publicaciones

Una inusual luna negra surgirá con la conclusión de 2024

La Nebulosa Running Chicken: la nueva imagen de una maravilla del cielo

Groenlandia: el deshielo climático revela Camp Century, la ciudad secreta de la Guerra Fría

La era perdida de los Neandertales: un sitio arqueológico revela la historia

Turismo en Monte Nerone: esquí, caminatas con raquetas de nieve y excursiones en las Marcas

Viaje a Málaga: desde los fenicios hasta Picasso, arte e historia y un clima ideal

Tiempo: avanza el frío en Europa, qué esperar

Robots guiados por inteligencia artificial: un nuevo modelo de instrucciones los hará mucho más eficientes

LEGGI ANCHE

Tiempo: ¿Agosto se desploma por completo? No es exactamente así

La era perdida de los Neandertales: un sitio arqueológico revela la historia

Relacionado Publicaciones