
В нескольких словах
Google активно развивает направление робототехники, используя возможности искусственного интеллекта Gemini для создания роботов, способных выполнять сложные задачи и взаимодействовать с окружающим миром на уровне человека. Основной акцент делается на разработку универсальных, интерактивных и умелых роботов, способных к обучению и адаптации в различных ситуациях.
«Следующим большим скачком человечества станут человекоподобные роботы»
— утверждает Рев Лебаредиан, вице-президент Omniverse и технологий симуляции в IT-гиганте Nvidia. Трамплин для этого скачка, прогнозируемого как один из прорывных достижений ближайших лет, уже здесь, и Google только что присоединилась к гонке, объявив о Gemini Robotics, разработке своей модели искусственного интеллекта (ИИ) для машин, как промышленных, так и человекоподобных роботов, и предоставила ее крупным игрокам отрасли, таким как Apptronik, Agile Robots, Agility Robots, Boston Dynamics и Enchanted Tools, для тестирования.
Роботы до сих пор были сочлененными механизмами, «слепыми и глупыми», как Лебаредиан описывает старые модели, предназначенными для выполнения повторяющихся задач, но неспособными учиться, развиваться в незнакомых сценариях и действовать соответственно.
По словам Денниса Хонга, основателя RoMeLa, «будущее за роботами, которые могут выполнять все, что может сделать человек». Но чтобы действовать как человек, им нужен мозг, который позволит им понимать, учиться, воспринимать и действовать. И этот разум — это ИИ, основанный на больших языковых моделях (LLM), искусственный интеллект, способный развивать машины до их высшего выражения: андроидов, роботов с внешностью и поведением, аналогичными человеческим, способных действовать в мире, разработанном для людей.
Роботы с искусственным интеллектом от Google еще не демонстрируют в лабораторных испытаниях такие сложные навыки, как Figure 01, прототип, наиболее близкий к гуманоиду, который предвосхищала научная фантастика и который поддерживается Open AI, Nvidia и Джеффом Безосом, основателем Amazon.
Но оснащенные Gemini Robotics значительно приблизились к этому после смены курса, принятого в 2024 году. «В прошлом году, — объясняет Каролина Парада, директор по инженерии в Google DeepMind Robotics, — мы решили принять новый вызов и сосредоточиться на обучении роботов выполнению сложных задач тонкой манипуляции, таких как те, которые мы выполняем, завязывая шнурки, на основе данных из реального мира и моделирования для обучения».
В результате этого вызова появился Gemini Robotics, модель ИИ, предназначенная для разработки роботов общего назначения (человекоподобных). «Для этого необходимо, чтобы они были действительно полезными, чтобы они понимали вас, чтобы они понимали мир вокруг вас, а затем, чтобы они могли действовать безопасно, интерактивно и умело», — уточняет Парада.
Robotic Transformer 2 (RT-2), модель, которая использует ИИ от Google для переноса зрения и языка в действие (VLA). Google DeepMind
Лабораторные испытания, где роботы по голосовым командам собирают и хранят предметы в специальных контейнерах, описанных только по цвету и меняющих свое местоположение, могут показаться простыми, но для робота это очень сложно. В этом смысле Каниша Рао, коллега Парады в DeepMind, отмечает, что роботы «хорошо работают в сценариях, которые они уже испытывали, но терпят неудачу в незнакомых».
Таким образом, по словам Рао, во время испытаний машины подвергались ситуациям, когда объекты, которые они должны идентифицировать и манипулировать, меняют цвет, окружающая среда меняется, и ИИ отвечает на команды о действиях, невиданных ранее для машины, или об объектах, о которых она не знала, например, забросить игрушечный баскетбольный мяч в корзину, не зная ранее, что это за спорт.
Чтобы достичь этих навыков, по словам Парады, ИИ робота должен понимать естественный язык, «понимать физический мир очень подробно», и, по словам Викаса Синдхвани, научного исследователя в команде робототехники Google DeepMind, действовать безопасно посредством «оценок свойств сцены и последствий выполнения определенного действия».
Путь к безопасности все еще открыт. Синдхвани утверждает, что им удалось добиться того, чтобы роботы имели широкое «понимание» этой концепции на основе как реальных, так и смоделированных данных, которыми питается их ИИ, но они продолжают корректировать, чтобы «обеспечить все более интерактивные и совместные задачи» без рисков и выполнить три закона Айзека Азимова: робот не должен причинять вред человеку действием или бездействием; он должен подчиняться приказам человека, если это не противоречит первому закону; и он должен защищать свое собственное существование, если это не противоречит первому или второму закону.
Больше информации
«Следующим большим шагом является разработка гуманоидов, и мы очень близки к этому»
Глобальная концепция нового шага Google в роботизации — это перенос того, что было достигнуто в цифровом мире, с разработкой все более сложных агентов (помощников) в физическую среду. «В DeepMind мы добились прогресса в том, как наши модели Gemini решают сложные проблемы посредством мультимодального рассуждения на основе текстов, изображений, аудио и видео. Однако до сих пор эти навыки в значительной степени ограничивались цифровой сферой. Чтобы ИИ был полезен для людей в физической сфере, он должен демонстрировать «embodied reasoning», человеческую способность понимать мир вокруг нас и реагировать на него», — объясняет Парада.
Две модели ИИ от Google для роботизации — это VLA (зрение-язык-действие), построенная на основе Gemini 2.0 и в которую были включены физические действия, и ER (embodied reasoning), обладающая навыками рассуждения.
Эти инструменты — путь к реальной пользе, которую Парада резюмирует: «Модели ИИ для робототехники должны обладать тремя основными качествами: они должны быть общими, то есть способными адаптироваться к различным ситуациям; они должны быть интерактивными, что означает, что они могут понимать и быстро реагировать на инструкции или изменения в своей среде; и они должны быть умелыми, что означает, что они могут делать то, что люди обычно могут делать руками и пальцами, например, тщательно манипулировать объектами».