谷歌DeepMind推离线GeminiOn-Device,实现机器人本地视觉-语言-动作一体化

摘要

该模型采用视觉-语言-动作(VLA)基础架构,为双臂机器人量身定制,能够解析自然语言指令并驱动机械臂执行折叠衣物、装配等复杂操作,并且通过50至100次示范即可快速学习新任务。

本地部署可以规避网络延迟与中断风险,尤其适用于对实时性和稳定性要求极高的医疗操作、灾难救援及工厂自动化场景,确保任务持续可靠执行。

模型最初在Aloha机器人系统上训练,后成功移植到Franka Emika FR3双臂机器人及Apptronik Apollo人形机器人,并在未知物体与新环境下展现出出色泛化能力。

谷歌同时推出了Gemini Robotics SDK,开发者可借助MuJoCo模拟器结合少量示范对模型进行微调。目前该SDK与On-Device模型仅向受信任测试者提供,产业化应用处于私有预览阶段。该离线模型基于Gemini 2.0架构,尚未集成最新Gemini 2.5特性,但已与英伟达(NVIDIA)Isaac GR00T、OpenAI RT-2等同级竞品形成正面竞争。

谷歌(Google)DeepMind日前发布离线机器人AI模型Gemini Robotics On-Device,可在机器人本地直接运行,无需云端连接即可同时完成视觉识别、语言理解与动作执行,实时响应人类指令。

该模型采用视觉-语言-动作(VLA)基础架构,为双臂机器人量身定制,能解析自然语言指令并驱动机械臂执行折叠衣物、装配等复杂操作,通过50至100次示范即可快速学习新任务。

本地部署优势在于规避网络延迟与中断风险,尤其适用于对实时性和稳定性要求极高的医疗操作、灾难救援及工厂自动化场景,确保任务持续可靠执行。

图片

 

模型最初在Aloha机器人系统上训练,后成功移植到Franka Emika FR3双臂机器人及Apptronik Apollo人形机器人,并在未知物体与新环境下展现出出色泛化能力。

谷歌同时推出Gemini Robotics SDK,开发者可借助MuJoCo模拟器结合少量示范对模型进行微调。目前该SDK与On-Device模型仅向受信任测试者提供,产业化应用处于私有预览阶段。

该离线模型基于Gemini 2.0架构,尚未集成最新Gemini 2.5特性,但已与英伟达(NVIDIA)Isaac GR00T、OpenAI RT-2等同级竞品形成正面竞争。

热门文章

相关推荐

站点推荐

98IP
98IP提供全球8000万优质住宅IP代理,支持Http和Socks5协议,确保100%高质量IP。
98TG
98TG全球网址导航社交流量生态圈 · 为全球跨境电商提供精准社交媒体一站式引流推广。
TG-NEWS
最新的Telegent咨询,各种TG问题都可以在这里找到你想要的答案。

热门标签

换一批