英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?
收藏者
0
被浏览
59

5 个回答

我有点懒 LV

发表于 4 天前

先说结论:我认为英伟达开源 GR00T N1 这件事,短期来看可能不会引起颠覆性的变革,但从长远角度观察,其影响将是深远且具有战略意义的。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-1.jpg

开源价值:这次开源的核心价值在于极大地降低了机器人研发的门槛和成本。GR00T N1 已经具备了相当程度的通用能力,例如物体抓取、搬运、装配等,这就像是给机器人行业提供了一个预训练好的“大脑”。对于那些希望在特定领域应用机器人的企业或研究机构来说,他们不再需要从零开始构建机器人的基本运动和感知能力,而是可以直接基于 GR00T N1 进行微调,专注于开发更贴合自身业务需求的特定功能,比如咖啡拉花或者更复杂的工业装配流程。
这种模式的转变,我认为最直接的影响就是加速了机器人应用场景的落地和普及。以前,开发一个能够执行稍微复杂任务的机器人,需要投入大量的时间和资源进行基础模型的训练。现在有了 GR00T N1,这个过程被大大缩短了。我们可以预见到,未来将会有更多创新性的机器人应用涌现出来,它们可能出现在我们生活的方方面面,例如在物流、医疗、服务等行业发挥更大的作用。
此外,GR00T N1 采用的“快慢双系统”架构也很有启发性。这种设计思路模拟了人类的直觉反应和逻辑思考,使得机器人既能快速响应指令,又能进行复杂的环境理解和任务规划。我认为这种架构对于提升机器人的智能化水平至关重要,也为未来的机器人模型设计提供了一个很有价值的参考方向。


存在的不足:当然,我们也要看到,GR00T N1 仍然是一个基础模型,要让它真正服务于各种复杂的现实场景,还需要大量的微调和适配工作。同时,如何有效地利用和管理这些开源模型,以及如何保障机器人在实际应用中的安全性和可靠性,也是未来需要认真思考和解决的问题。
最后,我认为英伟达开源 GR00T N1 的举动,可能会像当年的安卓系统一样,构建一个更加开放和繁荣的机器人生态。更多的开发者和企业能够参与到机器人技术的创新中来,共同推动整个行业的进步。这对于激发独立思考和创新活力,无疑具有重要的意义。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-3.jpg

总结一下:说了这么多,总结一下,英伟达开源 GR00T N1 是机器人领域一个值得关注的里程碑事件。它降低了研发门槛,有望加速应用落地,并为未来的机器人技术发展指明了新的方向。虽然短期内可能不会带来立竿见影的变革,但其长远影响值得我们期待。

附:
开源地址:
https://github.com/NVIDIA/Isaac-GR00T?tab=readme-ov-file

普夏城冬 LV

发表于 4 天前

完整名:GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
开源:https://github.com/NVIDIA/Isaac-GR00T
链接:https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T%20N1%20Whitepaper.pdf

虽然和论文没什么区别,不过pdf 名是白皮书,应该上类似于Cosmos,是 nv 希望保持行业地位,推动自己的解决方案/标准,花式卖卡
最重要即图 2 和图 3。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-1.jpg


英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-2.jpg

从图 2 看,和前段时间看的 Go-1 结构类似,都是用了 VLM+Diffusion Denoise,不过细看的话对 Diffusion 的使用方式差别还是挺大的。π0、go-1 是给 VLM 的 Transformer 增加了一个 Expert 用于Diffusion 噪声预测,N1 是用了额外的 DiT Model,VLM 生成的 token 用 cross-Attention 注入 DiT 中,通过迭代去噪得到 action-tokens,这其实更像自动驾驶中很多paper的做法。
模型设计
官方宣称是一个 VLA (Vision-Language-Action) 模型,用于在不同数据源上训练的人形机器人。
状态和动作编码器
使用 MLP 将 不同机器人形态之间状态和动作维度 映射到 Diffusion 的 共享embedding。
系统 2:VLM
GR00T N1使用 NVIDIA 自家的 Eagle-2 来编码视觉和语言输入(Eagle-2 基于 SmolLM2 LLM 和 SigLIP-2 图像编码器 进行微调)
- 图像分辨率 224x224,经过 pixel shuffle,每帧有 64 个图像 token.
- 文本与图像 token 一起通过 Eagle-2 VLM 的 LLM 组件进行编码.
- 在训练期间,任务的文本描述以及图像以 VLM 使用的聊天格式传递给 VLM.
- 实验发现,使用中间层而不是最终层LLM的 Embedding 可以获得更快的推理速度和更高的下游策略成功率,在GR00T-N1 -2B,使用第12层的表示。
系统 1:DiT Model
是标准 DiT 的变体,由交替的交叉注意力 (cross-attention) 和自注意力 (self-attention) 组成。
- 自注意力模块处理噪声动作标记嵌入和状态嵌入。
- 交叉注意力模块将 VLM 输出的视觉-语言标记token 注入到 DiT 中,用于引导生成的条件。
- 在 最后一个 DiT Block 后,有一个动作解码器(Action Decoder),也是一个 MLP,用于预测最终的动作。
动作以块 (chunks) 的形式处理,在实现中,块的大小 H 设置为 16。
- 使用 flow matching 进行训练,最近几篇用到了 Diffusion 的 VLA 类的工作都用的 Flow matching,这里就不赘述细节了。
- 推理时使用欧拉法迭代更新预测latents, 推理 steps 设为 4。
- Diffusion Transformer Module (系统 1):模型使用 DiT (Diffusion Transformer) 的变体 来建模动作。
  - DiT 是一个包含通过自适应层归一化进行去噪步条件设定的 Transformer.
  - 如图 3 所示,DiT 由交替的交叉注意力 (cross-attention) 和自注意力 (self-attention) 模块组成.
  - 自注意力模块处理噪声动作标记嵌入和状态嵌入,而交叉注意力模块允许模型以 VLM 输出的视觉-语言标记嵌入为条件.
  - 在最后一个 DiT 模块之后,模型应用一个特定形态的动作解码器 (Action Decoder),这是一个 MLP,用于预测最终的动作.


数据
待更新

训练

超级赛亚人 LV

发表于 4 天前

吹得差不多得了,对行业没有任何影响。但凡真看了发布会,你能不对跟老黄上台的那个机器人失望吗?

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-1.jpg

另外老黄 ppt 中的这张图,从 Pre-training scaling 到 Post-training scaling 再到Test-time scaling 总结得没问题。
但现在已经是大模型的Test-time scaling 时代了,但离横坐标最右边的Physical AGI搁哪儿呢?
边都没看到,还离得太远太远了。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-2.jpg

这个发展阶段过于超前,人形机器人这个赛道,我觉得大概率到头来只是一场泡沫。
(这里再放上我写的一篇经典深度分析文章“人形机器人,一场泡沫”)
董不懂在摸鱼:深度分析:人形机器人,一场泡沫?
稚晖君创业项目「智元机器人」发布首个通用具身基座大模型GO-1,有哪些技术亮点?对机器人产业有何影响?现在所谓的“具身智能(Embodied AI)”人形机器人非常火热,但本质上并不是后面的“智能”两个字,而是前面的“具身”两个字。
——所以这就从硬件层面决定了实现physical AGI非常难。
大家常问的问题是为什么春晚跳舞灵活的机器人,却做不好端茶倒水这些简单动作?即各种人形机器人,为什么基本上只能做一些特定的任务?
原因很简单,机器人robotics通过learning学习的方法训练,来在特定场景environment中完成特定任务task时,大多数情况下就会经常过拟合overfit到某个或者某类任务上,这里涉及到Robotics learning很核心的一个概念,——Generalization,即泛化性。
泛化能力是指robotics能够将从训练数据中学到的知识应用到新场景或未见过的任务的能力。在robotics learning领域,尤其是在模仿学习(Imitation Learning)和强化学习(Reinforcement Learning)中,泛化能力generalization往往是最重要的瓶颈。
你能看到的大多数机器人,可以在特定场景下完成特定的任务,但泛化能力差,所以你把跳舞的机器人送去端茶倒水,这种未学习过的任务必然会失败。这跟需要完成的任务难易无关。专门学习端茶倒水的机器人,大概率是很难参加春晚跳舞的。
这是因为机器人通常在有限的数据集dataset上进行training训练,这些dataset可能不涵盖所有现实场景。当遇到新任务时,机器人无法迁移之前学习的模式。
大模型时代最著名的VLA(Vision-Language-Action Model)google 机器人 RT-1/2系列,(RT-1和RT-2的技术架构如下图所示),用了大量机器人真实操作数据、基于transformer架构训练出来,尽管泛化性进步了很多,但测评的泛化性值其实也不高,只能停留在学术论文中。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-3.jpg


RT-1系列

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-4.jpg


RT-2系列

泛化性差的情况很好理解,举个很简单的例子,如果机器人只学过在干净的厨房里抓取苹果,它可能无法在杂乱的桌面上完成相同任务。这是因为它依赖特定的环境和条件,而新场景可能有不同的光线、物体位置或干扰等。
造成robotics泛化能力不足的原因很多,比如数据分布本身的局限性,robotics通常在有限的训练数据集上学习,而且训练的模型常常出现overfitting过拟合问题。
此外还有其他原因比如robotics硬件和结构差异,导致无法迁移控制能力,等等等等,
——这就是我常说的physical AGI难于登天。。
这就注定了人形机器人这个赛道,我觉得大概率到头来只是一场泡沫。

大宋提辖鲁 LV

发表于 4 天前

应该说是已经开源了。

  • 技术报告:https://research.nvidia.com/publication/2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots
  • 代码:https://github.com/NVIDIA/Isaac-GR00T/
  • 模型:https://huggingface.co/nvidia/GR00T-N1-2B
GR00T N1是全球首个开放的人形机器人基础模型,它可以让机器人能够理解人类世界、遵循语言指令并执行多样化任务。
英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-1.jpg


https://www.zhihu.com/video/1885616111195756446
GR00T N1 是一个视觉-语言-动作(VLA)模型,采用双系统架构。视觉-语言模块(系统2)通过视觉和语言指令解读环境,使机器人能够推理环境和指令,并规划正确的动作。DiT(diffusion transformer)模块(系统1)是一个动作生成模型,可以生成连续动作以控制机器人的运动,将系统 2 制定的动作计划转化为精确、连续的机器人运动。两个模块紧密耦合,并端到端联合训练。 GR00T N1的训练使用真实机器人轨迹、人类视频和合成生成的数据集的混合数据来训练。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-2.jpg


英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-3.jpg

GR00T N1模型参数只有2B,本质上就是采用一个小的VLM模型(Eagle-2,基于SmolLM2 LLM 和SigLIP-2微调)和DiT模型来联合训练。VLM接受人类语言指令以及环境图片,提取的特征通过cross-attention送入DiT中作为条件,DiT的条件还包括机器人的状态,根据这些条件,DiT可以生成动作来控制机器人的下一步运动。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-4.jpg


虽然GR00T N1比之前的方法要好不少,但是看这个成功率我觉得还是远远不够,所以只能是一个偏向研究的工作,不过确实开了具身智能的一个好头。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-5.jpg

pxwwwd LV

发表于 4 天前

GR00T N1全称是通用人形机器人基础模型(Generalist Humanoid Robot Foundation Model),这个开源模型具备很强的任务泛化能力,可一套权重支持多种机器人形态(跨机体,cross-embodiment)和任务。例如,在无需为每个新任务从零训练的情况下,它已经掌握了常见操作技能:单臂或双臂抓取物体、搬运、装配,以及双手之间传递物品等​。。它还能执行复杂的多步骤任务,理解长上下文指令,将一系列基本技能组合来完成人类日常活动中的高阶任务​。
简单来说,你不用从头训练,它已经是一个具备基本能力的机器人,但如果你要让它做特定的工作,比如咖啡拉花,那你得在这个基础进行微调。
Github:GitHub - NVIDIA/Isaac-GR00T: NVIDIA Isaac GR00T N1 is the world's first open foundation model for generalized humanoid robot reasoning and skills.
HuggingFace:https://huggingface.co/nvidia/GR00T-N1-2B
首先恭喜宇树成为Nvidia的合作伙伴。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-1.jpg

GR00T N1是一个双系统的机器人模型,你看它的流程图分为两个处理系统。


其中系统1是快速反应的动作控制模型,类似于人的直觉和反射,用于将高层指令实时翻译为机器人连续的运动控制;
系统2则是慢速推理的决策模型,内置视觉-语言Transformer模型,负责理解环境和指令并规划高层行动方案​。
这种架构使GR00T N1能够一方面具备逻辑推理能力,另一方面确保动作控制的精细与及时。模型接受多模态输入(例如摄像头视觉、自然语言命令等),输出机器人操作序列,从而让机器人执行各类操纵任务​。
这个框架跟sonnet-3.7很像,有快慢两种思考方式,对于不同的反应采取不同的分配比例。
数据来自两部分,真人数据和模拟环境数据,后者是由NVIDIA Omniverse和Cosmos共同完成的,跟自动驾驶的模拟数据来源如出一辙。

英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-3.jpg


英伟达拿出开源通用机器人模型 GR00T N1,对行业有什么影响?-4.jpg

这个库的目标用户是:

  • 利用预训练的基础模型进行机器人控制。
  • 在小型自定义数据集上进行微调。
  • 使用最少量的数据将模型适应特定的机器人任务。
  • 部署模型进行推理。
使用流程:

  • 用户需要收集机器人演示的数据集,格式为 (视频, 状态, 动作) 三元组。
  • 将演示数据转换为 LeRobot 兼容的数据模式。
  • 该仓库提供了配置不同机器人形态训练的示例。
  • 该仓库提供了便捷的脚本来微调预训练的 GR00T N1 模型和运行推理。
  • 用户将 Gr00tPolicy 连接到机器人控制器,以在其目标硬件上执行动作。
Here is the general procedure to use GR00T N1:
Assuming the user has already collected a dataset of robot demonstrations in the form of (video, state, action) triplets.
User will first convert the demonstration data into the LeRobot compatible data schema (more info in getting_started/LeRobot_compatible_data_schema.md), which is compatible with the upstream Huggingface LeRobot.
Our repo provides examples to configure different configurations for training with different robot embodiments.
Our repo provides convenient scripts to finetune the pre-trained GR00T N1 model on user's data, and run inference.
User will connect the Gr00tPolicy to the robot controller to execute actions on their target hardware.

您需要登录后才可以回帖 登录 | 立即注册