News

新闻中心

时间:2025-04-30

1、引言:什么是具身智能?


你有没有想过,AI 不再只是待在屏幕里回答问题、写代码,而是真真正正地走进现实世界,像人一样感知、决策、行动?


想象在一个智能仓库,机器人自主规划路径,把包裹从货架上取下来打包发货。再想象一下家里的扫地机器人,未来可能不只是扫地,而是能帮你收拾房间、洗碗、开窗通风。这一系列动作的背后就是具身智能(Embodied AI),它的核心就是:让 AI 拥有身体,拥有“行动的智能”,具备理解环境、感知人类指令、完成一连串操作的能力。


具体而言,具身智能是人工智能、机器人学、认知科学的交叉领域, 主要研究如何使机器人具备类似人类的感知、规划、决策和行为能力[1]。不同于传统的纯计算智能(如语言模型或图像识别),具身智能强调“身体”与环境的感知与互动,使用物理实体来感知和建模环境, 根据任务目标和实体能力进行规划和决策, 最后使用实体的运动能力来完成任务[2],赋予了AI在现实场景中执行任务的能力。


具身智能的应用场景极其广泛,在以下领域中都有它的身影:


  • 工业自动化:机械臂完成精准抓取、装配、焊接等任务,提高生产效率。
  • 家庭服务:服务机器人实现清扫、送物、协助老人等功能,改善生活质量。
  • 医疗辅助:手术机器人、康复机器人帮助医生完成复杂操作或患者康复训练。
  • 探索与救援:自主机器人进入危险区域执行探测、救援任务。
  • 教育与娱乐:教育机器人辅助教学,陪伴机器人提供情感交互。


从“脑力型AI”(如ChatGPT、Copilot)走向“动手型AI”(如智能机械臂、家庭机器人),这是人工智能发展的必经之路。毕竟,真正聪明的 AI,不该只是“懂”,更应该能“做”。未来,随着硬件成本降低、算法进步和数据积累,具身智能将成为智能时代的核心驱动力。


图 1 具身智能可应用于多种形态的机器人
来源:https://arxiv.org/pdf/2407.06886.pdf


2、具身智能研发的挑战


尽管具身智能前景广阔,但具身智能的研发仍面临诸多挑战,让机器人高效学习新技能的道路并不平坦。现实中的具身智能远比想象中更复杂,特别是在控制机械臂这样的典型任务上,哪怕是“开个门”,对研发人员来说都是“灾难三连”:


1、搭建场景:在仿真环境中搭建物理场景,定义门的物理属性、初始状态

2、设计动作:精心设计如何移动机械臂,如何抓门、门往哪开

3、写训练代码:编写奖励函数,调节超参数,通过强化学习方法进行大量训练调优


上面每一个环节都高度依赖人工干预,开发周期长,效率低。更麻烦的是:每训练一个新技能,就像从头造一辆车。比如你希望机器人学会“关窗”或“递杯子”,就得重写仿真环境、重新配置动作参数,甚至连训练逻辑都得重做。总结下来,具身智能的研发过程有三座大山横在前面:


  • 高人力成本:每个新技能的开发都需要专业团队投入数周甚至数月时间,涉及仿真设计、动作规划、算法调试等多个领域。
  • 低通用性:为特定任务设计的环境、动作和奖励函数难以复用到其他任务。
  • 扩展性差:当任务复杂度增加(如从单一抓取到多物体协作),开发难度呈指数级上升,难以快速迭代。


所以现实中很多具身智能研究,只能聚焦于几个固定任务,很难做到快速拓展。


3、使用大语言模型,打造“智能技能生成器”


近年来大语言模型(Large Language Model,LLM)以其强大的语言理解、知识推理和代码生成能力,在多个领域展现出革命性潜力[3]。面对上一节中提到的挑战,我们思考:能不能把“自然语言+通用智能”的强大能力,用在具身智能开发上?是否有可能利用AI自身的智能,自动化技能开发流程,从而大幅降低成本、提升效率?


为此,我们参考了多个使用LLM的优秀开源方案[4],并将其与具身智能的开发流程相结合。最终我们推出了:沐曦具身智能仿真生成系统,实现从任务描述到技能学习的端到端自动化。


具体而言,我们使用具备强大语言理解与通用知识推理能力的 LLM,结合具身智能中机械臂任务的特性,设计了一系列高质量的提示词 Prompt 模板,让它能够自主生成新技能任务,理解任务需求,将自然语言任务描述转化为可执行的仿真任务,生成任务所需的全部内容,实现了机械臂技能开发流程的高度自动化。


简单来说,它有点像一个“具身任务魔法师”——你告诉它要完成什么任务,它就能自动生成整套执行方案,从场景到动作,从奖励函数到仿真环境,全都一步到位,彻底改变了具身智能技能开发的范式。


本系统能够自动完成以下任务:



上面整个过程中不再需要你手动写 MuJoCo仿真平台所需的场景XML配置、设置各种配置参数、调整代码逻辑。你只需要告诉LLM场景中有哪些可操作的物体,系统就能自动生成多个机械臂操作不同物体的任务,输出每个任务完整的训练配置,然后调用 MuJoCo 引擎启动仿真,机械臂就开始一一学习这些技能,是不是有点“AI 的魔法感”?


为了便于演示,本系统以厨房场景来展示整个的自动化执行流程,其场景如下图2所示。


图 2 厨房虚拟场景样例图


本系统整个流程可以总结为两个阶段:任务生成阶段和任务执行阶段,具体内容如图3所示。


图 3 沐曦具身智能仿真生成系统框架


3.1 任务生成阶段


在任务生成阶段,本系统会通过精心设计的提示词,多次调用大语言模型,逐步生成新技能任务描述、任务对应的仿真环境配置、机械臂执行任务的操作步骤、仿真环境中物体初始配置参数等信息。每个步骤的具体作用如下:


技能任务描述生成LLM根据场景中多个不同物体的属性信息,生成多个机械臂操作物体的任务信息描述。任务描述中包含:任务名、任务详细描述、机械臂操作的物体名称、机械臂与物体交互的关节名等。针对厨房场景,其生成的部分样例如下:



仿真环境配置生成LLM根据生成的任务描述信息、不同物体的属性信息,生成物体在仿真环境中的多项配置信息,包括:物体名称、物体的空间位置、是否可移动等。LLM以YAML格式返回生成的配置信息。针对打开微波炉门任务,其生成样例如下:



任务操作步骤生成LLM根据生成的任务描述信息、不同物体的属性信息、机械臂具备的元动作函数列表、可从仿真环境中获取状态信息的函数列表,生成机械臂完成该任务所需执行的一系列操作步骤。对于每个步骤,LLM需要判断该操作的类型,包括:{元动作、强化学习动作}。若为元动作,则生成机械臂执行的元动作序列,若为强化学习动作,则生成使用强化学习算法训练学习该技能所需奖励函数Python逻辑代码。针对打开滑动柜门任务,其生成的工作步骤样例如下:



物体初始状态生成LLM根据生成的任务描述信息、不同物体的属性信息,生成该物体在仿真环境初始化时,各关节角度的默认值。如:开滑动柜门任务中,门的关节应初始化为关闭状态(0表示关闭,1表示开启),其生成样例如下:



3.2 任务执行阶段


在任务生成阶段完成多项生成任务后,本系统即可根据LLM生成环境配置信息、操作步骤信息、关节角度值,调用MuJoCo仿真引擎构建虚拟环境,按生成步骤控制机械臂运动,执行任务并完成强化学习训练。其中,包括执行元动作,或调用强化学习算法进行训练与推理。最终系统将整个任务的操作过程通过仿真引擎渲染保存为视频,如下图4所示。



图4 机械臂技能学习操作演示


4、和传统开发比,新方案优势是什么?


与传统手动开发相比,新方案具有以下多个突破性优势。这意味着,即便你不是机器人专家,也能用大语言模型为机械臂设计新任务;对于专业团队而言,也可以极大提升开发效率,加快原型验证,释放更多创意空间。



新方案具备以下技术亮点:


提示工程:我们设计了一套针对具身任务的高质量提示词模板,确保LLM生成内容的准确性和一致性。例如,提示词会引导LLM明确物体属性(如“关微波炉门任务,门应该处于开启状态”)和机械臂动作逻辑(如“先靠近门把手,再闭合夹爪”)。


模块化生成:系统将任务分解为环境、动作、奖励等模块,分别生成并整合,既保证了生成内容的结构化,又便于调试和复用。


与MuJoCo深度集成:系统生成的配置能直接兼容MuJoCo仿真引擎,支持高效的物理仿真和实时渲染。


端到端训练:通过生成的奖励函数和动作序列,系统支持强化学习的全流程自动化,机器人可在仿真中快速收敛到最优策略。


最重要的一点,本系统完美适配沐曦C系列GPU产品,可在曦云C500 GPU上高效进行LLM大模型推理、以及多种强化学习算法的训练&推理。


5、为什么开源?我们希望更多人一起创造具身智能!


虽然本系是以厨房场景机械臂操作物体为例,但参照本系统中方法,可以便捷拓展到轮式机器人、四足机器人等人形机器人,支持更复杂的多任务学习场景。例如,未来可实现“机器人自主整理房间”或“协作完成生产线装配”等高级任务。


我们相信,具身智能的未来,是“人人可用、人人可创”的智能。


为了推动具身智能领域的进步,我们已经正式开源完整的沐曦具身智能仿真生成系统方案,所有代码可用,且示例齐全,欢迎所有开发者、研究者、爱好者尝试、改进、拓展。


你可以:


  • Star项目,为我们的仓库点亮星星
  • Fork 代码,训练你自己的任务
  • 给系统加点你喜欢的动作
  • 分享你想到的新玩法(甚至做个机器人“小助手”)
  • 在自己的研究项目中快速验证任务原型


开源地址


GitHub:https://github.com/MetaX-MACA/Embodied_AI_Simulation


Gitee:https://gitee.com/metax-maca/Embodied_AI_Simulation


6、结语


过去十年,AI 靠着“认字、听话、写代码”带来了巨大变革;而下一个十年,AI 将走出屏幕,走入工厂、家庭、医院和每一个现实场景。具身智能就是连接这两者的桥梁,它既有 AI 的大脑,也拥有对世界的“动手能力”。我们希望这套系统,能让更多人参与到具身智能的探索中来。不再困在复杂的开发流程里,不再被高门槛挡在门外!


如果你也对这个方向感兴趣,欢迎关注我们,一起造点不一样的东西!有任何问题或想法,欢迎留言或私信,我们非常乐意交流与合作!


参考资料


[1] Smith L, Gasser M. The development of embodied cognition: six lessons from babies. Artif Life, 2005, 11: 13–29.

[2] Bai C J, Xu H Z, Li X L. Embodied-AI with large models: research and challenges (in Chinese). Sci Sin Inform, 2024,54: 2035–2082, doi: 10.1360/SSI-2024-0076.

[3] Y. Liu, W. Chen, Y. Bai, X. Liang, G. Li, W. Gao, and L. Lin. Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI. arXiv:2407.06886, 2024.

[4] Wang, Yufei, et al. Robogen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation. arXiv:2311.01455, 2023.

  • 商务合作 Business@metax-tech.com
  • 投资者联系 ir@metax-tech.com