多乐游戏怎么样
多乐游戏怎么样0755-81785958
多乐游戏怎么样
您的位置: 首页 > 新闻资讯 > 公司新闻
  • 多乐游戏怎么样:无锡巨象木业请求木质包装箱合页装置设备专利进步装置功率

    无锡巨象木业请求木质包装箱合页装置设备专利进步装置功率

  • 多乐游戏怎么样:巩固达获得木质包装箱出产用碎屑收回设备专利可防止抛光进程粉尘乱飞影响工厂空气

    巩固达获得木质包装箱出产用碎屑收回设备专利可防止抛光进程粉尘乱飞影响工厂空气

  • 多乐游戏怎么样:湖州中森木业获得一种防水耐污木质包装箱专利有用阻挠外界水分浸透

    湖州中森木业获得一种防水耐污木质包装箱专利有用阻挠外界水分浸透

  • 多乐游戏怎么样:湖州中森木业获得一种防水耐污木质包装箱专利有用阻挠外界水分浸透避免包装产品遭到污染

    湖州中森木业获得一种防水耐污木质包装箱专利有用阻挠外界水分浸透避免包装产品遭到污染

  • 多乐游戏怎么样:一招制人!邻居在楼道放鞋柜屡劝不听男子搬出爷爷遗照挂楼道

    一招制人!邻居在楼道放鞋柜屡劝不听男子搬出爷爷遗照挂楼道

  • 多乐游戏怎么样:俄军攫取85%赤军城却没发现乌军主力:数千乌军全躲藏在哪里?

    俄军攫取85%赤军城却没发现乌军主力:数千乌军全躲藏在哪里?

联系我们

多乐游戏怎么样:对话智元首席科学家罗剑岚:推出SOP系统是机器人规模化迈向真实世界的关键一步

发表时间:2026-01-17 11:15:04 来源:多乐游戏怎么样

多乐游戏下载斗地主:

  它旗下的智元具身研究中心,这两天发布了一套面向真实世界部署的在线后训练系统——

  简单讲,现在的模型都是训练完成后再上线,这导致搭载了模型的机器人一旦出厂就“智能冻结”,没办法根据真实物理世界的变化及时学习,也不能灵活地执行任务。

  而SOP框架,就是针对这样的一个问题的解决方案。它可以让多个机器人在部署后同时执行任务,把任务执行中的数据(成功和失败的都包括)一起传到云端。如果一个机器人在真实场景中遇上问题,经过云端分钟级在线更新策略,其他机器人也能立刻一起学会正确操作。

  也就是说,现实世界不再是让机器人懵逼的考场,反而成了能让一堆机器人边干边学、更智能的训练资源。这是现在全球AI重点探索方向——Online Learning,在机器人领域中的进展。

  之前大语言模型(LLM)结合强化学习的后训练,已经被证明有效并成为事实标准。但具身领域,VLA的后训练由于数据偏移、真机后训练规模受限、单一后训练可能降低泛化能力,并没有像LLM的后训练一样成功。

  所以,SOP的这套框架,通过刚刚提到的多个机器人执行任务—实时上传数据—云端学习、模型更新—立即下发的过程,在物理世界的后训练中整合了在线、分布式和多任务。

  这些特点,能让多个机器人在真实大规模地持续学习中,迅速提升各个任务性能,同时不“忘记”之前学会的通用基础能力。

  智元具身研究中心选择了HG-DAgger(典型单机在线算法)和RECAP(最新SOTA离线算法)作对比。

  接受了包括「四木相对论」在内的媒体访谈。他补充了SOP接下来的落地节奏,并对这套系统在机器人领域的价值做了更多梳理。

  2025年机器人领域的关键词是 VLA和世界模型。你觉得对2026年,机器人领域现在有什么共识?

  不知道能不能代表机器人领域,我只讲讲自己的观察。我的观察是,通用性固然很重要,但部署中的任务熟练度和可靠性,才是决定机器人能否真正落地的关键。过去几年,大模型、VLA、预训练有非常大的提升,但机器人能否稳定、高效、长时间完成具体任务是一个问号,这非常高度依赖真实世界的训练闭环。

  这要求学习范式从静态离线训练升级为部署学习再部署的整套数据闭环系统,正是基于这个判断,我们提出SOP系统级解决方案。

  SOP是一个系统、是一个框架,在系统层面把执行和学习真正耦合起来。具体来讲,解决的核心技术瓶颈是三点。一是非常低延迟的在线反馈。现在机器人犯错以后,需要纠正并尽快反映到模型里。

  二是分布式数据的多样性和一致性。多机器人并行采集的时候,会经历各种各样不同的场景,需要稳定获取高质量的数据经验。

  像叠衣服、叠纸盒子、商超里 500 多种物体补货、上货,成功率很高,用的都是一个模型。而之前的工作,用一个通用VLA模型,在单个场景里微调,overfit(过拟合)到那一个场景上,机器人就会把之前的任务忘掉。而我们这个不会,SOP架构里是一个通用且泛化的模型,可以讲它是一个通用的专才。提升某一个任务表现的时候,不会牺牲掉整体模型的泛化能力。

  我认为这两者都有。它学得更快,学的东西也不一样,但我更强调学得不一样。因为在线后训练的关键是真实场景发生犯的错误,这是真真实实的错误,而不是编出来的错误。把学习资源集中在当前错误的失败模式上,所以它会更快、更贴近落地所需的可靠性。

  但原来是离线训练,就是在单个场景由人去遥操,去设想各种场景。首先这不是真的机器人执行时犯的错误,二是不包括经历这些状态时包含的错误。而在线多机训练,是在真实的场景里执行这个策略,观察这个策略会犯的错误,再把它纠正过来,这样效率会高很多。

  负面数据对学习很有益。就像人做任何一件事都要经历试错,了解什么事做,什么事不做。强化学习是一个很好的框架,可以从原理上处理负面数据,就是给负面数据低权重,让它了解什么是好的什么是坏的,通过动态规划把这一系列东西串起来。

  关于安全约束的机制,在算法层面,负数据放到value function(价值函数)上,它会拟合这个value function。如果是错误的行为,它的权重会降低。

  :首先是hard case(长尾场景/难例),也就是难挖掘的能力。举个例子,在无人驾驶里的复杂高架桥场景,可能有一个高架桥有 3 层,有辅助、有主路,每次都会走错。不走一两次解决它,能力始终上不去。

  回到机器人。比如机器人叠衣服,要甩一下、叠一下。之前的成功率上不去,是因为它抓不到衣角,就会一直空抓,导致工作时长很长但成功率很低。这些负例数据,可以很好地提升性能。

  这也是我们做SOP第一天就考虑的问题,就是要有一套非常鲁棒、健壮、可扩展的软件工程 infra。这套系统的软件工程需要鲁棒到,往里加一台机器人、十台机器人、一百台机器人理论上没有区别。底层基础设施也是有挑战的。有的机器人初创公司在做海底光缆,超大带宽的数据回流,这些我们也在看。这件事不仅需要软件算法创新,也需要社会的基础设施支持。

  SOP是一个在线后训练框架,它需要有一个预训练模型,数采中心的离线数据可以给它提供基础能力。预训练模型的能力等于出厂设置的能力。预训练数据的来源,一开始大部分是数采中心,因为现在还没有到大规模部署到真实世界的阶段。随着真实世界部署的机器数量慢慢的变多,真实场景回流的数据也会变成训练预训练的数据,预训练模型会慢慢的变强。

  有了SOP之后,在线部署能够让大量数据回流去训练新的模型。随着部署量慢慢的变多,积累的数据会慢慢的多,后面的数据大头来自真实世界部署产生的数据。

  我认为现在离线的数据中心是主力,就像汽车的发电机把发动机打着的那一下,这还是很重要。

  我们2026年有一个很大的重点是在真实世界部署通用机器人,目前业界还没有人做。关于数量,论文里是几十台机器人,今年我们会部署比现在大几个数量级以上的机器人,真正找到机器人真实场景部署和真实场景落地的Scaling law。

  SOP的设计核心正是为了解决这一痛点。它支持多机器人、多本体的协同训练,通过对数十台机器人的数据进行任务均衡采样,能够有效隔离单一硬件的干扰,从而提取出跨本体的“最大公约数”。这种机制保证了模型不会被某类特定硬件“带偏”。简单来说,如果集群中有100台机器人,即便其中一台噪声很大,在其余99台机器人的数据对冲下,该噪声的影响也可以忽略不计。

  我们现在已经有这个结果了。它是可以跨本体的,但论文里我们没有把这个结果放出来。其实我们用了自家机器人,也用了别家的好几款机器人,最后的结果是可以跨本体泛化,下一个版本会放出来。

  首先SOP不是一个封闭系统,而是一种新的持续学习、在线学习、协同进化的方式。智元从成立之初就坚持走生态开放的路线。我们开源了很多数据和软硬件,SOP这个工作当然也希望和更多的厂商一起共建。在生态布局上,我们愿意和生态伙伴一起做场景共建,部署真实机器人。现在有些场景不是为机器人设计的,所以需要我们共同定义这个场景的任务规范、流程、监督信号、边界等,把SOP的闭环真正接入业务流程里。

  在这个层面我们很开放地希望和大家一起去共建,因为这不是某一家公司的事。我们会开放一些SOP的关键模块和接口。因为SOP是个框架,任意的后训练算法和模型都可以接进来。

  从长远来讲,我们希望构建一个开放的机器人在线学习生态。不同的机器人本体都可以接入,让数据共享上传到云端一个大脑,数据回传回来不断进化,一起给大家使用。如果能找到行业伙伴,在各自擅长的场景中发挥优势,我们可以一起推动整个机器人行业从静态能力到动态进化的跨越。

  难在不同的地方。工业制造对泛化性的要求会相对少一些,我们现在也在看一些工业制造的场景,但这种场景对整体的成功率和节拍、鲁棒性要求非常高,否则会影响到线的产能。家庭服务和商超,对成功率和性能的要求没有工业场景那么苛刻,风险可控。但它是一个更加开放的场景,长尾任务更多。

  工业场景里的流程稳定、边界清晰,责任、安全、工序划分得很明确。我们把SOP引入到在线系统里面,机器人在这种可控的环境里,可以持续运行,不断纠正失败模式,能快速把成功率和节拍提升到可规模化的上线水平。医疗护理的要求最高,对合规、安全、可解释性的要求都很强。医疗护理的落地,会先从辅助性或非关键决策的环境开始。

  对于家庭场景,实事求是地说,我不指望SOP能立马覆盖一个家庭,我认为这是一个逐步的过程。

  就好像你有了预训练模型,预训练模型出厂就不可能是最优秀的模型一样。有了预训练模型再加上SOP,以逐步扩展任务能力的方式去落地,这是我认为这是未来有希望进入家庭的一种方式。通过部署更多的机器人,造成更多的数据回流,训练更好的模型载体,部署更多的机器人。

  工业方面,我们已经有很多案例了。商业场景,比如商超和部分家庭,我们今年都会慢慢铺开。商业场景既要保持高性能,也不能丢掉泛化能力,就要关注机器人在不同场景、门店等不同环境下的适应能力,通过机器人共享的经验数据,不断减少人工的介入。

  SOP是个框架,框架是统一的,在任务的定义、监督上有一些小的适配差别。做SOP的初衷是希望有一个通用、可拓展的框架,不对场景做区分,只用少量适配就能各种场景一套系统全部拉通。

  我们落地的整体原则是先在可控、可规模化的场景里把闭环跑稳,然后再逐步拓展到更复杂的真实世界。

  这句话要拆开来讲。我先讲事实,3小时是在线个小时非常宝贵,是从错误里面恢复的数据,是纠正错误的数据。另外的80小时也好,160小时也好,是在数采中心里采集的静态数据。相当于机器人在做这件事的过程中犯错,又在错误中吸取经验。这样的经历只要有一点点,就比别人手把手教你做这件事重要得多。

  Q:这种在线后训练的架构如果逐渐成熟,未来交付给客户的机器人,会不会变成持续服务的模式?

  Q:但和车不一样的是,工厂里可能不能接受一年后才能提升到100分的产品。

  当然这种情况,在工厂里的频率比较低。如果是商超或超市,每天人来人往,每天情况不一样,持续学习就是一个必要的措施。但即便是如此,也不代表每分每秒都在学习。特斯拉也不是每天在发版,而是几个月发一次。可以通过scheduling(排期/调度),做到让用户没什么感知,但真实性能提升的效果。

  Q:技术博客提到多机采集可以阻止模型过拟合单机特定特征。那么多机特征会不会反过来影响到模型的学习?

  我部分同意你的观点,但我认为现在的AI或算法给我们的启示是scale really matters(规模至关重要)。数据的多样性和数据的规模,至少在现阶段,远比在特定场景去专门创建的数据重要得多。多机和单机,本质问题是单一场景还是多个广泛场景,我认为后者的数据慢慢的变多,对模型的鲁棒性和健康性有更大的帮助。

  Q:明年智元会加大机器人在真实世界的部署。那么之后机器人公司的竞争核心,会不会从谁的模型更好,变成谁线下部署得最多、学得最快?

  谁部署的机器人最多,谁的真实世界的宝贵数据就更多,谁就能训练出更好的模型。Q:从真实世界边做边学数据回流的方式,从全球和行业来看是智元在独创性地做吗?

  所有公司都想做这件事。但据我所知,我们是第一个把这个事做大的公司。我讲得更严谨一点,现在它们并没有真的部署在便利店等场景,当然这是智元今年的重点。但智元作为一家全栈公司,独特优势在于有能力去构建真实世界的闭环。硬件、本体、软件、算法、工程,我们大家可以自己构造这样一个闭环系统。这是我们的一个独特优点。

  我个人的一个梦想是希望今年在上海的超市看到机器人在真正干活,一个很大的规模。我们做这件事的优势还有一个,本体量很大,部署量很大,数据量也会很大。

  Q:听下来SOP是机器人向真实世界迈入的第一小步,那么接下来第二步是什么?