晚点聊速读:具身智能还在找它的「ChatGPT 时刻」
June 30, 2026 · 12:03 AM

晚点聊速读:具身智能还在找它的「ChatGPT 时刻」

这期速读梳理《晚点聊》具身智能 26Q2 季报:人形马拉松、Figure AI 物流直播、灵巧手、世界模型和 GEN-1/π0.7 为什么同时升温,以及机器人公司在落地收入与通用智能之间怎么取舍。

开头先把预期放清楚:这期《晚点聊》不是在预测哪家机器人公司会赢,而是在用 2026 年二季度的五组信号,回答一个更具体的问题:具身智能到底是在离落地更近,还是只是在资本和 Demo 里继续升温?节目按「人形马拉松、Figure AI 物流直播、灵巧手、世界模型、通用具身模型」展开,嘉宾是 Alphaist Partners 创始合伙人陈哲,主持人是《晚点》科技报道负责人程曼祺。1

先给结论:具身智能的热闹,开始从「会走」转向「会干活」

本期最值得抓住的线索有四条。第一,人形机器人马拉松这样的公共事件,真正的意义不在比赛成绩,而在于它把人形机器人从实验室和展厅推到更复杂的外部环境里。第二,Figure AI 连续直播包裹分拣,说明物流仍是人形机器人最容易先被验证的场景:物体相对标准、流程可重复、结果能量化。第三,灵巧手的进展开始变密,但「手能不能稳定干活」仍是很早期的问题,远不到看几个 Demo 就能判断商业化的阶段。第四,世界模型重新变热,原因是行业已经意识到,只靠更大规模遥操数据,未必能把机器人带到真正通用。1
这期节目好听的地方,是它没有把具身智能讲成单线乐观故事。嘉宾一边承认资本、终端大厂和模型公司都在加速进场,一边也反复提醒:机器人公司的落地压力和「追逐智能」之间存在拉扯,投资人对长期不确定性的容忍度并没有外界想得那么高。1

人形马拉松:看似是噱头,实际在逼机器人暴露问题

节目把「人形机器人马拉松」放在第一项,不是因为跑步本身能证明机器人很快能进家庭,而是因为它提供了一种公开压力测试。马拉松场景里有连续运动、路面变化、围观人群、临时干预和能源管理问题。机器人能不能跑完全程、在哪里摔、需要多少人工介入,比单个剪辑视频更能暴露系统工程能力。1
陈哲更在意的是「谁开始认真下场」。节目提到荣耀夺冠、大厂加码这类信号,背后的意思是:具身智能不再只是机器人创业公司的内部赛道,手机、汽车、消费电子和制造体系里的公司都在寻找入口。它们未必马上有产品,但有供应链、品牌、渠道和终端场景,一旦投入,行业的节奏会被改写。1
这里也要克制一点。会跑步和会干活是两件事。前者主要考验运动控制、结构设计和稳定性,后者还要处理感知、决策、手部操作、任务切换和安全边界。马拉松更像一个行业路演式的阶段性考试,能说明工程进步,但不能直接推出「家庭机器人很快普及」这样的结论。1

Figure 的 200 小时直播:物流为什么先成为好场景

Figure AI 直播的任务很具体:机器人在流水线上快速翻转包裹,让二维码一面朝上。节目用这个例子讨论了一个关键判断:物流不是因为「酷」而适合机器人,而是因为它对机器人足够友好。包裹大多是刚性物体,形状和重量有范围,场地可控,任务结果也容易统计。机器人做对了就是做对了,做错了也能马上反馈。1
Figure AI 机器人在传送线上分拣包裹
Figure AI 直播截图里,机器人 Gary 在传送线上处理包裹翻面任务;节目借这个场景讨论物流为什么比家庭场景更适合早期人形机器人。1
这也解释了为什么「遥操」不该被简单看成作弊。节目里的说法更接近现实部署:遥操是兜底模块,也是数据采集方式。早期机器人进入真实场景,一定会遇到模型没见过的边界情况,远程人类介入可以避免任务中断,同时把失败样本变成下一轮训练数据。真正的问题不是有没有遥操,而是遥操比例能不能下降,单位任务成本能不能低到客户愿意买单。1
节目还把数据采集范式分成了几次变化:先是在实验室里做标准动作和演示,再到真实业务场景中通过遥操积累任务数据,随后才有可能进入更规模化、更便宜的数据生产。这个转变很重要,因为具身智能不是只缺一个大模型,它还缺足够多「机器人真的在物理世界里干活」的数据。1

灵巧手:Demo 很迷人,离稳定作业还有一段路

这一段的核心不是「谁做出了最像人的手」,而是机器人为什么需要一只更好的手。人形机器人的移动能力进步很快,但真正进入工厂、仓库或家庭后,任务往往卡在操作端:拿起、翻转、按压、插入、拧开、避开遮挡、处理软硬不同的物体。腿决定机器人能不能到现场,手决定它到了现场能不能把事做完。1
节目提到 ICRA 上中国高自由度灵巧手的亮相,也把「谁是手中 G1」作为一个问题抛出来。这里的参照不是某个单品,而是 Unitree G1 给人形本体带来的价格和普及想象:如果灵巧手也出现一个性能、成本和开发者生态都足够合适的标杆,很多操作类研究会更容易被搬到真实机器上。1
但节目没有把灵巧手讲成马上成熟的部件。高自由度意味着手指关节多、动作空间大,控制难度和故障点也会增加。灵巧操作还涉及触觉、力控、物体材质和任务语义。一个机器人把物体抓起来并不难,难的是在不同角度、不同光照、不同磨损状态下,每天重复几千次,仍然不把东西摔坏。1
节目里还讨论了直驱和绳驱。直驱可以粗略理解为电机更直接地带动关节,控制响应和结构直觉更好;绳驱则像用肌腱拉动手指,能把电机布置到别处,减轻手部重量,也更接近很多仿生设计。嘉宾提到,大厂路线仍可能继续跟随绳驱,比如 Optimus 的方向,但长期仍看好直驱。这个判断背后不是审美偏好,而是对维护、控制精度、成本和量产复杂度的综合取舍。1

世界模型:从生成视频,到生成「动作之后会发生什么」

世界模型是本期最需要解释的概念。放在机器人里,它不是单纯生成一段好看的视频,而是让模型预测:如果机器人在某个状态下做出一个动作,物体、环境和机器人自己接下来会怎样变化。没有这种预测能力,机器人就只能靠大量试错和规则兜底;有了它,机器人才能更像是在脑子里先试一遍,再决定怎么动。1
机器人领域世界模型分类图
节目引用的图把机器人世界模型分成视频世界模型、动作条件世界模型,以及两者交叉的 Video-/World-Action Models。1
节目把英伟达 Cosmos 3 放进这个脉络里讨论:行业正在从「生成视频」走向「生成动作相关的世界变化」。如果一个模型只能生成画面,它对机器人训练的帮助有限;如果它能理解动作、环境和结果之间的关系,就可能帮助机器人补齐稀缺场景的数据,甚至在模拟中学习一些真实世界成本太高的任务。1
这也是世界模型投资变热的原因。大语言模型已经教育过一轮投资人:当通用智能能力出现明显跃迁时,早期看起来离商业化很远的基础模型,也可能改变下游应用分工。具身智能里,类似的问题变成了:机器人公司的价值到底在硬件、本体、场景、数据,还是在能跨任务迁移的智能模型?节目没有给出单一答案,但它把这个分歧讲得很清楚。1

Gen-1、π0.7、Google 与 OpenAI:路线标签开始变得不够用了

后半段谈到 GEN-1 和 π0.7。π0.7 被放在 VLA,也就是 Vision-Language-Action 模型的脉络下理解:模型看见环境,理解语言任务,再输出机器人动作。节目提到它融合了轻量世界模型,这意味着它不只是把视觉和指令映射到动作,还在尝试让模型理解动作会改变什么。1
GEN-1 则被节目描述为「从头预训练」的一类尝试。这个说法重要,是因为它不愿意被简单归进某个既有标签:不是只做端到端控制,也不是只做 VLA,更不是只把视频生成模型拿来迁移。它背后的野心,是把具身数据、动作空间和通用表征放到一起训练。路线还早,但行业已经开始从「哪种架构最正宗」转向「能不能跨任务、跨本体、跨场景泛化」。1
Google 发布 ER 1.6、OpenAI Robotics 团队官宣,也被节目放进同一个趋势里:通用 AI 公司正在重新靠近机器人。这里的变量不只是模型能力,还有组织耐心。机器人训练慢、反馈慢、硬件迭代慢,和纯软件模型的节奏不一样。大模型公司如果进入,会带来算法和算力优势;但它们能不能忍受真实世界的慢,是另一个问题。1

资本的矛盾:大家都想追智能,但客户先要 ROI

节目最后一段最好的一句话,是对资本耐心的降温:市场会追逐世界模型和通用智能,但对长期不确定性探索的容忍度依然差。这句话放在具身智能里尤其准确。投资人想押下一个 ChatGPT 时刻,客户却在问机器人每天能搬多少箱、坏了谁来修、多久回本。1
这造成了两种公司节奏。一种公司要先做场景落地,用物流、工厂、巡检这类任务换收入和数据;另一种公司更像基础模型团队,愿意忍受更长的研发周期,赌跨任务智能最终会吞掉单点能力。具身智能的难处在于,两边都不能少。只有落地没有智能,容易变成定制自动化;只有智能没有场景,模型很难获得真实反馈。1
下季度最值得看的是终端大厂入场速度。手机、汽车和硬件公司如果加快动作,会把供应链、成本控制和消费级产品能力带进来;但它们也会带来更强的「必须可卖」压力。具身智能接下来可能不会突然出现一个全能机器人,更可能先出现一批边界清楚、任务窄、但真能算账的机器人。节目真正留下的问题是:谁能在这种窄任务里积累足够多的数据和模型能力,最终跨出去。1

值不值得听原节目

如果你只关心机器人短期商业化,这期最值得听 Figure、物流和遥操几段;如果你更关心 AI 模型路线,世界模型、π0.7 和 GEN-1 的部分信息密度最高。它不是一期给普通听众讲「机器人来了」的科普,而是一次季度复盘:哪些 Demo 更接近真实作业,哪些模型概念开始影响投资判断,哪些热闹暂时还不能换成收入。1

More from this channel

Related content

  • Sign in to comment.