- 发布日期:2026-05-12 13:07 点击次数:76


2026 年,机器东谈主正在准备走进家庭,和东谈主类同处一个屋檐下。
但在这背后,一个难以忽略的现实是:面前简直整个具身智能模子的考研中,“东谈主”是缺席的。
模子仍是学会了抓吊水杯、折叠衣物、彭胀一条条教唆,却简直无法领路坐在沙发上的东谈主此刻是困顿照旧虚夸。但是对于东谈主类来说,惟恐递过一杯水的时机与容颜,可能比“递水”这个动作自身更蹙迫。
这个问题诱导了两位学者:冯瑶和刘淼的防护。在他们看来,具身智能要实在落地生涯场景,必须把对“东谈主”的领路加入模子。对物体的操作才略和对东谈主的领路需要同步鼓舞,而非先后分离。
冯瑶面前是斯坦福大学的博士后,来岁行将入职清华东谈主工智能学院任教。她在博士阶段师从议论机视觉领域的蹙迫学者 Michael J. Black,在德国马普所专注"东谈主"的数字化建模,用算法重建东谈主体的三维形态、动作与姿态,让机器领路东谈主类躯壳如安在空间中出动、交互。到斯坦福后转入机器东谈主主义,试图把对东谈主的领路带进物理寰宇。
而刚从外洋归国的刘淼,面前担任清华大学东谈主工智能学院的助理栽种。他在夙昔三年在 Meta GenAI 参与了 Llama 3 与 Llama 4 等多模态大模子的研发,博士期间在乔治亚理工研究第一视角视觉与具身感知。
诚然两东谈主的研究旅途不同,但他们看到了并吞块缺失:面前的具身智能考研中,"东谈主"并莫得被放在一个蹙迫的位置。非论是对东谈主体进行三维建模,照旧用第一视角数据考研模子,画面中的"东谈主"每每只是布景而非交互主体。模子学会了识别场景中的一切物体,却读不懂对面阿谁东谈主的现象、意图与需求。
于是他们决定全部创业——打造一种以东谈主为中心(Human-Centric)的全新具身模子范式,让机器东谈主实在领路“东谈主”的行径、意图、追想与偏好,并最终在真实的共处场景中建造信任。
在这场对话中,咱们的问题永久围绕“东谈主”伸开:机器东谈主该如何捕捉需求、臆测意图,进而赢得信任?谜底可能藏在尚未成型的数据范式里,可能指向仍在探索的模子架构,也可能依赖一套需要透澈重构的评测体系……
一切还在探索之中。
以下是咱们的对话:
为什么是“东谈主”?从大模子到具身智能的转向
DeepTech:两位为什么会摄取具身智能这个主义进行研究?
刘淼:其实我在博士阶段作念的即是机器东谈主主义,比如基于第一视角视觉(egocentric vision),集会 learning from demonstration 或 imitation learning,让机器东谈主通过效法学习去完成更接近东谈主类的操作任务。
其时受限于容颜条目,咱们更多只可作念一些偏“纯视觉”的研究。其后在 Meta 使命期间,由于研究主义相对从上至下(top-down),个东谈主能够摄取的空间比较有限,这条旅途依然莫得被系统性鼓舞。
但具身智能在我心里其实一直莫得放下。我永久但愿有契机把“让机器东谈主实在像东谈主一样在物理寰宇中行径”这件事作念好。
冯瑶:我的旅途和刘淼有些不同。我的起点即是“东谈主”,在博士阶段,我在德国主要的使命是作念“东谈主”的建模,比如什么是好的 human representation(东谈主体表征),以及如何从汇注数据中领路东谈主类行径。我也尝试过集会大模子作念行径领路,但这些大多在“数字寰宇”里完成。
但纯数字环境的问题在于贫寒真实的交互感,也很难评估模子是否确实“领路了东谈主”。因为穷乏可靠的 benchmark。
其后我去了斯坦福,加入机器东谈主团队,把这些对于“东谈主”的建模放到物理寰宇中考证。我渐渐果断到:只消当模子既能领路东谈主类行径,又能驱动一个实体在真实寰宇中与东谈主交互时,咱们才实在有契机判断它是否“作念对了”。
而机器东谈主就像一个自然的测试平台。你让它去行径、去互动,许多问题会坐窝暴露馅来,推动研究从“看起来灵验”转向“实在可用”。
DeepTech:刘淼真挚之前在 Meta GenAI 参与过 Llama 3/4 等大模子考研,那是地谈的数字寰宇;但具身智能需要搞定复杂的物理寰宇。除了喜欢,这种调度背后是什么原因?
刘淼:费曼有一句很闻名的话:“What I cannot create, I do not understand.”(我无法创造的东西,我就无法实在领路。)
但在今天这个期间,这句话其实不错被“反过来”看。一个模子即使能够生成文本、图像以致视频,也不料味着它实在领路了物理寰宇。
什么才算实在的领路?一个标准是:它能否在物理寰宇中行径,并领路行径带来的后果。包括物理端正、因果关系,以及“动作如何调动环境”。这正是具身智能被谨防的原因:只消参加真实寰宇、与环境交互,模子才可能酿成近似东谈主类的“寰宇模子”。
更蹙迫的是,现实寰宇不单是由物体组成的,它更是一个“有东谈主存在的寰宇”。面前的大模子在“领路东谈主”上很有限。它们能识别动作、衣饰、年齿,但很难领路情谊、意图,以及“心智表面”。
淌若把这些模子径直放进真实环境与东谈主类互动,它们很难踏实使命。这个寰宇从来不是空的物理空间,而是充满东谈主的寰宇。忽略这小数,具身智能走不远。这亦然我在 Meta 时渐渐果断到的局限,是以我归国后,但愿在这些方进取络续探索。
DeepTech:比较海量的第三视角数据,你所研究的第一视角数据的不可替代性在那边?
刘淼:第一视角最中枢的独有性是“具身性”(embodiment):感知和动作缜密耦合。感知驱动动作、动作调动环境、环境反过来影响下一步的不雅测。这种闭环是第一视角自然具备的,也更相宜东谈主类的感知和行径容颜。
另外,永劫候的第一视角视频还隐含了东谈主类的领会层级:它记载了你的意图(视野主动聚焦在那边)、探索旅途(如何寻找主义),以及到达主义后如何诓骗环境完成任务。
这对应了机器学习中的“探索与诓骗”的量度(exploration vs. exploitation)。第一视角数据自然把两者集会在了全部,对机器东谈主学习十分有价值。
DeepTech:淌若放在一个具体任务中,基于第一视角和第三视角的数据,机器东谈主执行阐述会有什么离别?
刘淼:以厨房场景为例,比如洗菜或切菜。从第三视角看,你能大致判断这个东谈主在作念什么。是站在池塘边或案板前,知谈是洗菜或切菜。
但许多关键细节是捕捉不到的:具体洗到哪个位置、哪只手捏菜、哪只手滚水龙头,或者切菜时的角度、双手配合、切到哪一步。这些细粒度的动作信息,第三视角很难获取。
而第一视角能径直对王人“手—眼—动作”的关系,这对机器东谈主学习可彭胀的操作战略十分关键。
DeepTech:冯瑶真挚,从 DECA、PIXIE 这么的东谈主体重建使命,到话语模子说合研究,再到近一两年的东谈主形机器东谈主松手,这条旅途其实跨度很大。你的研究念念路是如何的?
冯瑶:我一直想构建一个实在的“实体智能体”,它能够像东谈主一样存在和行径。
从这个主义往回看,第一步一定是领路“东谈主自身”。早期的使命,比如 DECA、PIXIE,关注的是如安在数字寰宇中重建东谈主,也即是学习一个灵验的 human representation,以及从大鸿沟互联网数据中索要东谈主的行径模式。
但一个很当然的问题是:学到这些暗示之后,下一步该作念什么?梗概在 2022 年,大模子的出现让我很快果断到,这类模子在建模和推理才略上是一个十分关键的打破。于是咱们开动尝试把大模子和此前的东谈主体暗示集会起来,让模子不仅能“看到东谈主”,还能在语义层面领路东谈主类行径。
再往前走,就碰到了一个很现实的问题:咱们很难判断模子是否确实领路了东谈主类。即使构建多样数据集和 benchmark,也很难遁藏复杂、多变的真实行径。是以我其后去了斯坦福,参加机器东谈主主义,把模子放到真实的物理系统中,天天德州app中国网入口让它和东谈主发生交互。
在这个历程中也发现,传统强化学习(RL)每每更关注任务奏效能或精度,但与东谈主交互时,素丽性(compliance)、安全性等身分通常蹙迫,这些在夙昔的算法设计中是被低估的。因此,后续的使命也会更多关注这些维度。
DeepTech:淌若用一句话界说,你们期许中的 human-centric(以东谈主为中心)的具身基础模子是什么样的?
刘淼:我但愿这个模子能够通过领路寰宇中的“东谈主”,从而取得对寰宇更完满的领会。
冯瑶:我会认为是通过领路东谈主、以及东谈主与东谈主之间的交互,让机器东谈主更像“东谈主”。
端到端照旧模块化?以及具身智能的“罗网”
DeepTech:面前行业里存在端到端(end-to-end)和模块化(modular)的门道之争。两位设计中的具身基础模子,会更接近 VLA 这种端到端模子,照旧会保留澄澈的松手领域?
冯瑶:我认为“端到端 vs 模块化”某种进程上是个伪命题。关键在于:在系统的哪一层引入可阐明性,哪一层作念语义介入。比如叠衣着任务,机器东谈主不成只是“看到衣着就叠”,而是要先领路教唆(“帮我把衣着叠一下”),找到衣着,彭胀。
更关键的是,任务会动态变化。淌若叠到一半,你说赶紧要穿,它就得中止并切换任务。这就要求系统能在中间层插入语义领路与决策。
另外,可阐明性也很蹙迫。淌若机器东谈主递水失败了,要知谈是意图领路错了、抓取失败了,照旧递交位置不合。这些都需要分层语义抒发。
是以咱们的念念路是:高层保留明确的语义结构和可阐明性,底层松手(如抓取)采选更接近端到端的优化容颜,兼顾成果。这有点像东谈主类神经系统。把“巩固的社会领会”与“快速的本能松手”解耦,幸免用一个重大汇注同期搞定极难和极淘气的问题。
刘淼:我认为面前之是以有“端到端 vs 模块化”的参议,是因为面前任务还比较淘气。放到复杂场景(比如既要对话又要同期作念饭),很难用一个长入模子同期输出话语和动作战略。
是以架构的摄取,内容上是由任务需求决定的。淌若是高度结构化、叠加性的工业场景,比如“抓—取—放”,作念成端到端系统是有可能的;但在怒放环境中,尤其是触及东谈主机交互的复杂任务,就很难用单一架构遁藏。换句话说,不太可能存在一个长入的框架适用于整个场景,系统结构会跟着任务复杂度和才略领域不断演化。
DeepTech:听起来你们的决策中有许多“语义插入”和动态决策的设计,你们认为竣事它最大的艰苦在那边?
冯瑶:这条门道的难点在于它对“东谈主”的领路要求更高。比如语义插入不单是是领路一句话的上层含义,还触及对用户的耐久建模:包括追想(memory)、行径模式,以及具体情境。
举个例子:用户说“这件衣着无谓叠了”,系统需设施略原因。可能是这件衣着刚穿过,需要放去清洗;也可能是赶紧要穿,需要径直递给用户。这背后其实是一个复杂的决策历程,需要集会历史信息、用户民风以及面前现象。因此,这不仅是一个感知或松手问题,更是一个对于“东谈主类建模”的问题,需要多模态信息和会和耐久追想机制的支撑。
从工夫角度看,这一整套系统的复杂度是比较高的。 不仅是架构复杂,更是数据壁垒。工业操作数据不错靠东谈主工遥控在工场里大鸿沟刷出来,但‘东谈主机真实交互的信任数据’是无法在实验室里靠遥控献艺来的,它必须通过真实用户的耐久日常使用才能当然孕育。
刘淼:从行业角度来说,夙昔许多团队莫得优先作念这件事情,也有现实原因:是工夫锻练度还不够,华体会体育(HTHSports)另一方面寰球大量认为“机器东谈主参加家庭”还比较远处,是以更倾向于先把基础才略,比如抓取和操作,作念好。
但面前咱们判断,这个时候点正在发生变化。诚然实在参加家庭可能还需要几年,但仍是不再是一个很远处的主义了。在这个阶段,淌若仍然只关注“抓取成果”或“操作精度”,其实是不够的。因为一个机器东谈主淌若不成领路东谈主,就很难安全、可靠地和东谈主共处。至少从用户角度来看,很难信任这么一个系统。
是以咱们更多是从“东谈主”的视角登程,把“领路东谈主”当作具身智能参加现实场景的一个前提条目,而不单是是把任务完成好。
冯瑶:像本年一些 AI agent 居品(比如不错操作电脑的系统),一开动用户其实是不太风景把个东谈主信回绝给它的。但跟着使用历程,你会先通过对话建造信任,阐明它确实领路你的需求,然后才巩固怒放更多权限。读取文献、搞定邮件、以致帮你完成复杂任务。
这个历程内容上是“巩固建造信任”。 我认为机器东谈主参加家庭亦然近似的旅途:它需要先领路东谈主、取得信任,然后再渐渐扩展才略,而不是一开动就承担整个任务。用户也更倾向于连接使用并吞个系统,而不是常常更换。因为其中仍是建造了一种“关系”。
DeepTech:淌若从更客不雅的工夫目的来看,两位认为斟酌一个具身模子优劣的根底标准是什么?比如推理蔓延、操作奏效能,照旧泛化才略?
刘淼:这是很关键的问题。我最近一直在反念念:评测自身可能成为具身智能最大的“罗网”之一。
多模态大模子有相对锻练的评测体系:自动化 benchmark(如 MMLU)加上东谈主工评测。但具身智能填塞不同。由于硬件形态不长入,实验平台互异,是以莫得公认的标准化 benchmark。常见的作念法是在真实机器东谈主上作念淘气任务(如 zero-shot 抓取),但资本极高、可复现性很差。
寰球常说数据最蹙迫,但我越来越认为,评测体系的不完善自身,可能是一个很大的瓶颈,以致会误导工夫门道。
冯瑶:我十分欢跃这小数。是以面前许多研究者开动更主动地和工业界集会,因为当一个系统实在参加用户场景之后,用户才是最佳的评测者。
不管机器东谈主是什么形态。是随同型、照管型,照旧家庭助手;是轮式照旧腿式,单臂照旧双臂。这些都不是最中枢的。关键在于:当它被用户执行使用时,用户的反映是什么,他们是否风景连接使用。
从这个角度看,真实用户反映可能才是惟一的黄金标准。而系统需要左证这些反映不断养息自身,非论是模子才略照旧机器东谈主形态。
DeepTech:有莫得一种可能是,面前真实反映还不够多,是以还无法酿成长入标准?
刘淼:我认为不单是“数目不够”,而是“数据自身不合”。许多现存数据像“糖水”而不是“牛奶”。来自过于干净、淘气的环境(比如桌面抓取),与真实家庭环境差距很大。
淌若模子在这种“假分散”上考研和评测,就会学到诞妄的模式,以致带偏工夫门道。内容上,模子是在拟合数据分散。淌若分散自身偏离真实寰宇,再好的模子设计也会被带偏。
是以咱们更温顺的是如何取得“真实寰宇”的数据。淌若机器东谈主能更好地领路东谈主,即使功能还不够全面,用户也更可能承袭它、风景使用它。这么咱们才能以更可扩展(scalable)的容颜获取高质地数据,而不是依赖“数据汇注工场”。
DeepTech:但现实问题是,第一视角和东谈主机交互数据的获取资本十分高,以致互联网里简直莫得现成数据。异日你们策画奈何构建一个低资本、可鸿沟化的数据闭环?
冯瑶:这是一个很好的问题。我先说论断:互联网数据其实是不错用的,况兼会是一个十分蹙迫的数据开首。关键在于“重建才略”。淌若你能把视频中的东谈主体行径高精度重建出来,它内容上就不错转化为可学习的数据。包括姿态、动作、手部操作等 3D 行径信息。
这部分其实是我的一个耐久研究主义,也和东谈主体重建、行径建模是径直说合的。中间会触及一些关键工夫,比如东谈主体动作 prior、3D 重建优化等。
在这个基础上,咱们会作念两件事:第一,诓骗互联网视频数据当作最大鸿沟的数据源;第二,在此基础上进行低资本的真实数据汇注,由咱们我方设计汇注环境和硬件系统,再通过算法保证高质地重建。
另外,合成数据(simulation)我认为是一个蹙迫的“增强器”。它更像是一种数据 augmentation 的器具,而不是假造生成数据的开首。比如,咱们不错把多个短视频片断进行组合,在物理箝制下进行重建和补全,从而生成更长的行径序列。这一类步地不错匡助模子学习更永劫序的行径结构。
刘淼:淌若你上周问我,我可能会说我不太信任合成数据。但面前不一样了,比如 GPT-image2 才略仍是提高很快,从肉眼来看,很厚情况下仍是很难分手真实和合成数据。
是以这件事其实是动态演化的:当合成数据的质地和资本达到一个临界点,它就会当然参加考研体系。但更蹙迫的小数不是“用无谓合成数据”,而是“如何更合理地使用数据”。包括如何诓骗真实数据和合成数据之间的互补关系,这里其实还有许多莫得被充分探索的空间。
从学术到创业:为什么摄取家庭场景?
DeepTech:神话两位有议论从学术走向创业?你们是如何相识,并最终决定在具身智能这个方进取伸开配合的?
冯瑶:其实我和刘淼很早就闪现了,但之前一直认为咱们在作念不同主义的事情。我耐久聚焦在东谈主自身。包括东谈主体表征、东谈主类行径领路以及机器东谈主松手;而刘真挚更多是从多模态学习、以模子为中心(model-centric)的视角来鼓舞说合问题。
直到前段时候咱们有了比较长远的换取,才发现咱们在“具身智能大脑”这个问题上,其实有一个很一致的判断:淌若要构建一个能够与东谈主耐久共处的具身系统,它既需要强劲的多模态感知才略,也必须实在领路“东谈主”自身。这两件事情是统筹兼顾的。是以咱们会认为,这种集会其实是比较当然的。况兼从个东谈主层面来说,能找到一个在工夫上互补、同期也值得信任的配结伴伴,是一件挺贵重的事情。
另外一个很现实的原因是,前边也提到,这一类系统的迭代高度依赖真实寰宇的数据和用户反映。要作念到这小数,就必须有大鸿沟的真实部署,而这在工程复杂度、资金、算力等方面的要求,仍是超出了一个学术实验室所能承担的范围。从这个角度看,走向创业其实是一个比较当然、以致不错说是“必经”的旅途。只消参加真实用户场景,才能完成模子的闭环迭代。
刘淼:我和冯瑶也算是“相识于微时”。我其时去她导师 Michael Black 的团队走访过一段时候。
诚然那时候咱们的研究主义虚伪足一样,但有一个共同的关注点。“东谈主”在系统中的变装。非论是从东谈主的视角去感知寰宇,照旧去领路环境中的东谈主,内容上都是围绕“东谈主”伸开的。其时其实莫得料想,异日会全部作念产业化。但面前回过甚来看,这种集会是有一定内在逻辑的。其后冯真挚归国,咱们才有契机更长远地参议这些问题,也渐渐发现两边在工夫上是高度互补的。
淘气来说,她更多是在作念偏底层的 human behavior understanding,比如畅通讯号、动作层面的建模;我则更偏向领会层,比如 memory、intention、attention,以及多模态和会。这两部分适值不错酿成一个比较完满的闭环。
DeepTech:那从学术走向产业的历程中,你们有莫得碰到一些落差或挑战?毕竟学术研究每每更偏期许化。
刘淼:咱们其实都不算填塞“纯学术”的旅途。我之前在 Meta 使命过几年,对产业侧照旧有一定了解的,也很明晰“写论文”和“作念居品”之间的离别。但我个东谈主的一个判断是:在某个阶段,照实需要筹商买卖化,这是不可幸免的;但模子自身的迭代逻辑,仍然应该以研究为主导,而不是填塞由居品需求驱动。不然很容易出现主义性的偏差。
冯瑶:我其实也斗殴过不少产业环境。早期我在 Horizon Robotics、CloudWalk Technology 实习,其后也在 Meta 有过资历。再往后,我还参与过我博士导师的创业公司,开动斗殴一些更中枢的决策问题。那段资历对我影响挺大的。你会发现,一个团队里不仅有研究者,还有 3D 艺术家、前后端工程师、以及业务和销售团队。不同变装会带来填塞不同的视角,这些视角反过来会匡助咱们把研究实在落地。
我我方一直比较介怀的小数是:非论是研究照旧居品,最终都应该被东谈主使用。淌若一个工夫只是停留在论文里,它的价值是有限的。从这个角度来说,我也比较红运。之前作念的一些开源容颜,在社区里有比较多的使用和反映,这让我更顽强了一个主张:工夫只消参加真实寰宇,才会实在“长出来”。
DeepTech:回到门道摄取的问题。面前许多具身公司一开动会摄取工业场景,比如工场或仓库。但你们更强调家庭环境和东谈主机共融,为什么一开动就莫得摄取工业旅途?
冯瑶:内容的原因照旧愿景不同。咱们更但愿作念的是参加家庭、参加日常生涯,让更多平时东谈主不错使用。另外,工业场景在某种进程上是“结构化的”,东谈主的参与较少,行径也更可瞻望。但咱们关注的恰正是东谈主自身,是以主义当然不同。
刘淼:对。我归国之后,其实也有许多工业落地的配合契机,但我认为这和咱们想作念的 human-centric AI 不是一件事。工业环境里,东谈主是弱存在的,行径模式也比较固定。但淌若主义是让机器东谈主参加东谈主类生涯空间,那它必须先领路“东谈主”,不然我个东谈主是很难信任它和我共处在一个空间里的。是以这更多是一个价值摄取的问题,而不是单纯的工夫门道摄取。
DeepTech:从时候圭臬上看,两位认为具身智能面前处在什么阶段?距离期许现象大略还有多久?
冯瑶:我认为不错分两条旅途来看。淌若是传统“任务驱动”的门道,比如只作念抓取、叠衣着这种才略,那参加家庭可能还需要较永劫候,因为用户承袭“机器参加生涯空间”自身就需要一个历程。但淌若是咱们这条“以领路东谈主为中枢”的门道,我认为参加家庭的时候会更短。可能在一到两年内,就不错先以“有限功能 + 建造信任”的体式参加家庭,然后巩固迭代才略。
刘淼:我全体判断是近似的。短期来看,一到两年内,照实会出现一些“低级可用”的家庭机器东谈主,它们可能仍是开动参加真实家庭,但功能仍然比较有限,以致有点“实验性”,可能会出现寰球说的“买且归吃灰”的情况。
是以淌若沿着面前的工夫门道发展,主义是一个实在意念念上的“家庭智能体”。近似不错耐久随同、领路需求、承担多任务的系统。我认为至少还需要五年以上。这个差距主要不在硬件,而在于对“东谈主”的领路才略,以及在复杂家庭环境中的耐久学习才略。这亦然为什么我想探索一种新的具身模子范式。
运营/排版:何晨龙
注:封面/首图由 AI 扶植生成华体会体育(HTHSports)官网入口
极速飞艇pk10官网入口- 华体会体育(HTHSports)官网入口 电影《火遮眼》本日上映并曝光新预报 中国功夫对决天下顶级实战门户2026-06-14
- 华体会体育app官网 《主角》收官揭秘:米兰下狱牵出的两大谜团2026-06-14
- 华体会体育(HTHSports)官网入口 《乘风2026》侯宇淘汰危险:京剧演员为何难留舞台?节目组规章引争议2026-06-13
- 华体会体育(HTHSports) 湖南卫视《恰逢春》开机 邓恩熙董念念成演绎庶女将军双向救赎2026-06-13
- 华体会体育(HTHSports)官网入口 怕比赛还上《歌手》?窦靖童的“反套路”让若干东说念主红了脸2026-06-13
- 华体会体育(HTHSports)官网入口 薛之谦王人被骗了!明星发声成摆拍流量跳板,你的善良还敢信吗?2026-06-12