半岛彩票4月27日,在清华大学113周年校庆到来之际,清华大学成立人工智能学院,聚焦“人工智能核心基础理论与架构”和“人工智能+X”两个重点方向,以高定位和新机制建设中国自主的“AI顶尖人才和原始创新基座”,为实现高水平科技自立自强提供有力支撑。
活动现场还举办了清华大学人工智能成果展,重点展示了清华大学近年来在人工智能基础理论、关键技术方面的成果,以及通过“人工智能+”支撑交叉学科发展和行业智能化转型方面的进展。其中,星动纪元小星和小星Max作为优秀代表性成果,全面展示了其通用性与智能性,获得与会领导、专家的高度认可。展示中,身高165厘米、体重55千克的小星Max轻松实现一次跨上两三级台阶,并且在斜坡和平地之间自由切换行走速度。即便是面对并不平整的非结构性地面,小星Max依然从容不迫,以正常步速通过,并全程保持姿态平衡。
值得关注的是,本次展示的小星Max还搭配了更灵活的“双手”——XHand。它能够精准、快速地做出如夹、捏、握、拧等动作,具备极高的主动自由度。据介绍,这款灵巧手是星动纪元专为人形机器人所打造,搭载5个阵列式传感器,拥有12个主动自由度,最大抓握力80N,能够实现与人手相近的精细化操作。
从早期的颤颤巍巍、缓慢挪行,到可以自主上下楼梯、稳步穿越不同地形路面,再到雪地湿滑路面独立行走,人形机器人的运动能力不断飞跃,刷新人们的认知。而围绕人形机器人步态规划控制,业界选择的开发路径不一。有团队从传统模型预测控制(MPC)入手,也有团队采用强化学习的技术方案。其中,端到端的强化学习,一次又一次地向世人展现出其在人形机器人研发过程中的巨大赋能作用。
以往,针对人形机器人的复杂应用环境与运动需求,开发者往往需要定制几套针对性算法:上下楼梯一套算法,平地行走一套算法,平稳站立一套算法,而遇到崎岖路面,则又需要构建另一套算法……多套算法的存在,无疑增加了人形机器人运动步态和动作控制的难度。
如果有一种技术或方法,能够减少算法开发的复杂性,同时实现复杂场景下的机器人稳定控制,无疑会大幅提升机器人的通用性。星动纪元便掌握着这样一把化繁为简的“密钥”。基于在强化学习领域的沉淀,星动纪元技术团队创新性地将端到端强化学习用于机器人动态控制的底层算法。只需一套算法,便可轻松兼容上述所有场景,满足各种需求,实现机器人行走能力的泛化性和通用性。纵览全球的人形机器人行业,星动纪元是少数能做到这一点的团队之一。
这样做的结果,就是突破了传统MPC算法的固有缺陷。在MPC算法框架下,开发者需要对地形环境进行比较准确的建模,而诸如凹凸不平的路面或湿滑的雪地,本身就难以建模。强化学习的出现,使建模不再成为“刚需”,机器人得以自行去探索,学习。在仿真和真实环境里与周围事物进行实时交互,适应不同路面条件,并收集相关数据,反哺其决策控制。
一个鲜明的特点是,强化学习的稳定性较建模要高出不少,这也让星动纪元小星Max具备了很强的抗干扰性。哪怕是大力踢踹等动作,也很难令其失去平衡。
尽管在MPC算法上有着非常深厚的积淀,但躬耕强化学习的星动纪元,循着这一技术路径加大投入、持续发力,很快便确立了在这一领域的巨大优势。去年末,小星雪地湿滑环境稳定行走的训练视频曾引起业界广泛关注,标志着星动纪元成为继波士顿动力之后,业内第二家实现人形机器人在雪地湿滑路面稳定行走的企业。要知道,实现这一功能表现,星动纪元仅用了3个月,而且是第一家基于强化学习实现该功能的团队。
采用强化学习算法,另一大显著好处在于,有助于提升人形机器人的整体智能化水平。如果说大模型构成了机器人的“大脑”,决定了其认知、逻辑和推理能力高低,那么一个健壮的“小脑”所对应的出色运动控制和自主平衡能力,亦是人形机器人发展道路上的关键要素。
经过强化学习的小星Max练就了一个灵活的“小脑”,能够自主调整行走策略。在遇到容易摔倒的复杂环境下,它会放慢步伐,保持平衡;而一旦感到障碍解除,便会“甩开双腿”,快步行走。
这一自足调整策略的落地,不仅使人形机器人从行走姿态上变得更接近人,而且使其仿佛真的拥有人类的逻辑思考能力,学会像人一样去规划步态运动轨迹。
除此之外,感知决策一体化在人形机器人实时动态控制上也扮演着举足轻重的角色。不同于先感知后决策的技术方案,星动纪元的工程师在对其产品进行端到端强化学习训练时,选择无损提取所有原始感知信息,比如路面形状和平整度等,并将这部分感知与控制无缝闭环,从而应对各种崎岖、光滑路面或意外情况,实现更符合人类本能的行走方式。
本质上,通过把图像等高维数据输入神经网络,特征提取和决策制定这两个强化学习的核心步骤将合二为一。开发者可以直接从原始数据中学习并为机器人规划和制定决策。这样做的好处不言自明:既克服了手动提取特征的局限性和低效率,同时扩大了对不同任务和环境的覆盖度和可拓展性。
当然,这一过程也伴随着巨大的技术挑战。由于事先需将感知图像等数据喂给神经网路,导致机器人的网络训练难度陡增。但得益于对算法底层架构的持续创新,星动纪元优化了强化学习过程,并不断巩固自己的技术优势和行业领先地位。
强化学习上尝到的“甜头”不止于此。继去年年底在积雪等极端环境下测试小星的自主学习能力并大获成功之后,星动纪元历经几个月的研发,将经过验证的算法从身高121厘米、体重28千克的小星,迁移至全尺寸人形机器人小星Max的本体上。
通常,因为涉及建模,MPC等控制型算法需要几天才能完成的迁移过程,星动纪元只花了一天。在强化学习模式的辅助和加持之下,sim-to-real(虚拟世界向真实世界的迁移)过程会变得愈加高效,人形机器人走出仿真环境,走进真实物理世界的周期,也有望进一步缩短。
未来,随着人工智能与具身智能的持续演进,作为最佳载体的人形机器人将不再是只能执行固定程序的“工具”,具身智能所代表的“头脑”聪明、“四肢”灵活的人形机器人将成为工业、商业、家庭服务等场景中不可或缺的一部分。具身智能的未来,正距离我们越来越近。