Возвращаемся к хайтеку. Инженеры из Калифорнийского университета в Беркли создали уникальную технологию RoVi-Aug, которая открывает перед роботами новые горизонты автономного обучения. В основе этого метода лежит принцип обучения модели выявлять и использовать причинно-следственные связи между действиями робота и выполняемыми задачами.
Система генерирует синтетические данные, адаптируясь к различным типам роботов и углам обзора камер, что значительно снижает потребность в сборе реальных данных и упрощает процесс обучения. Благодаря этому роботы могут быстрее адаптироваться к новым задачам, а их успешность выполнения возрастает на 30%.
Увеличение количества данных, доступных для обучения роботов, играет ключевую роль в освоении универсальных навыков. Однако, объемы информации, используемые для обучения, значительно меньше по сравнению с огромными датасетами, применяемыми в передовых моделях искусственного интеллекта для задач компьютерного зрения и обработки естественного языка. Сбор разнообразных и релевантных данных из реального мира для обучения и адаптации роботов представляет собой длительный и трудоемкий процесс.
Существует несколько подходов к решению этой проблемы. Проект Open-X Embodiment объединяет информацию с 60 роботов, позволяя им учиться друг у друга. Однако этот метод имеет существенный недостаток: в данных содержится слишком много информации о конкретных роботах, а углы обзора камеры ограничены. В результате устройства запоминают лишь ограниченный набор сведений и испытывают трудности с новыми задачами, если им демонстрируют примеры с роботами другого типа или меняют положение камеры.
Другой алгоритм, Mirage, адаптирует неизвестных роботов с помощью «перекрестной окраски», делая их похожими на модели из обучающей выборки. Однако Mirage не поддерживает тонкую настройку, а значительные изменения камеры могут сбить алгоритм с толку.
Исследователи из Калифорнийского университета в Беркли представили метод RoVi-Aug, который направлен на преодоление этих ограничений. В отличие от традиционных подходов, которые объединяют данные различных роботов, RoVi-Aug фокусируется на обучении моделей пониманию взаимосвязи между действиями робота и выполняемыми задачами.
Новая архитектура генерирует синтетические визуальные демонстрации, варьирующиеся по типу робота и углу обзора камеры, что значительно повышает универсальность процесса обучения. Технология состоит из двух компонентов:
1. Модуль дополнения данных о роботе (Ro-Aug) создает демонстрации с различными роботизированными системами.
2. Модуль дополнения данных о точке зрения (Vi-Aug) имитирует демонстрации с разных ракурсов камеры.
Сочетание этих модулей создает более разнообразный датасет для обучения роботов, позволяя им тренироваться на большем количестве сценариев. В результате устройства становятся более гибкими и могут переносить свои навыки между различными задачами и моделями.
При этом значительно сокращается необходимость в сборе больших объемов данных из реального мира.
В отличие от таких методов, как Mirage, RoVi-Aug не требует знания матриц камер и поддерживает тонкую настройку модели, что значительно повышает производительность в сложных задачах. RoVi-Aug также помогает обучать модели для нескольких роботов и задач, используя как исходные, так и дополненные данные.
RoVi-Aug требует доработки в нескольких направлениях. Необходимо повысить устойчивость к изменениям окружения, улучшить качество синтетических данных, унифицировать модели для разных роботов и устранить искажения. Перспективным является расширение метода на более сложные манипуляторы, такие как многопалые руки.