晚点聊速读：具身智能还在找它的「ChatGPT 时刻」 (2026)

开头先把预期放清楚：这期《晚点聊》不是在预测哪家机器人公司会赢，而是在用 2026 年二季度的五组信号，回答一个更具体的问题：具身智能到底是在离落地更近，还是只是在资本和 Demo 里继续升温？节目按「人形马拉松、Figure AI 物流直播、灵巧手、世界模型、通用具身模型」展开，嘉宾是 Alphaist Partners 创始合伙人陈哲，主持人是《晚点》科技报道负责人程曼祺。1

先给结论：具身智能的热闹，开始从「会走」转向「会干活」

本期最值得抓住的线索有四条。第一，人形机器人马拉松这样的公共事件，真正的意义不在比赛成绩，而在于它把人形机器人从实验室和展厅推到更复杂的外部环境里。第二，Figure AI 连续直播包裹分拣，说明物流仍是人形机器人最容易先被验证的场景：物体相对标准、流程可重复、结果能量化。第三，灵巧手的进展开始变密，但「手能不能稳定干活」仍是很早期的问题，远不到看几个 Demo 就能判断商业化的阶段。第四，世界模型重新变热，原因是行业已经意识到，只靠更大规模遥操数据，未必能把机器人带到真正通用。1

这期节目好听的地方，是它没有把具身智能讲成单线乐观故事。嘉宾一边承认资本、终端大厂和模型公司都在加速进场，一边也反复提醒：机器人公司的落地压力和「追逐智能」之间存在拉扯，投资人对长期不确定性的容忍度并没有外界想得那么高。1

人形马拉松：看似是噱头，实际在逼机器人暴露问题

节目把「人形机器人马拉松」放在第一项，不是因为跑步本身能证明机器人很快能进家庭，而是因为它提供了一种公开压力测试。马拉松场景里有连续运动、路面变化、围观人群、临时干预和能源管理问题。机器人能不能跑完全程、在哪里摔、需要多少人工介入，比单个剪辑视频更能暴露系统工程能力。1

陈哲更在意的是「谁开始认真下场」。节目提到荣耀夺冠、大厂加码这类信号，背后的意思是：具身智能不再只是机器人创业公司的内部赛道，手机、汽车、消费电子和制造体系里的公司都在寻找入口。它们未必马上有产品，但有供应链、品牌、渠道和终端场景，一旦投入，行业的节奏会被改写。1

这里也要克制一点。会跑步和会干活是两件事。前者主要考验运动控制、结构设计和稳定性，后者还要处理感知、决策、手部操作、任务切换和安全边界。马拉松更像一个行业路演式的阶段性考试，能说明工程进步，但不能直接推出「家庭机器人很快普及」这样的结论。1

Figure 的 200 小时直播：物流为什么先成为好场景

Figure AI 直播的任务很具体：机器人在流水线上快速翻转包裹，让二维码一面朝上。节目用这个例子讨论了一个关键判断：物流不是因为「酷」而适合机器人，而是因为它对机器人足够友好。包裹大多是刚性物体，形状和重量有范围，场地可控，任务结果也容易统计。机器人做对了就是做对了，做错了也能马上反馈。1

Figure AI 机器人在传送线上分拣包裹 — Figure AI 直播截图里，机器人 Gary 在传送线上处理包裹翻面任务；节目借这个场景讨论物流为什么比家庭场景更适合早期人形机器人。1

这也解释了为什么「遥操」不该被简单看成作弊。节目里的说法更接近现实部署：遥操是兜底模块，也是数据采集方式。早期机器人进入真实场景，一定会遇到模型没见过的边界情况，远程人类介入可以避免任务中断，同时把失败样本变成下一轮训练数据。真正的问题不是有没有遥操，而是遥操比例能不能下降，单位任务成本能不能低到客户愿意买单。1

节目还把数据采集范式分成了几次变化：先是在实验室里做标准动作和演示，再到真实业务场景中通过遥操积累任务数据，随后才有可能进入更规模化、更便宜的数据生产。这个转变很重要，因为具身智能不是只缺一个大模型，它还缺足够多「机器人真的在物理世界里干活」的数据。1

灵巧手：Demo 很迷人，离稳定作业还有一段路

这一段的核心不是「谁做出了最像人的手」，而是机器人为什么需要一只更好的手。人形机器人的移动能力进步很快，但真正进入工厂、仓库或家庭后，任务往往卡在操作端：拿起、翻转、按压、插入、拧开、避开遮挡、处理软硬不同的物体。腿决定机器人能不能到现场，手决定它到了现场能不能把事做完。1

节目提到 ICRA 上中国高自由度灵巧手的亮相，也把「谁是手中 G1」作为一个问题抛出来。这里的参照不是某个单品，而是 Unitree G1 给人形本体带来的价格和普及想象：如果灵巧手也出现一个性能、成本和开发者生态都足够合适的标杆，很多操作类研究会更容易被搬到真实机器上。1

但节目没有把灵巧手讲成马上成熟的部件。高自由度意味着手指关节多、动作空间大，控制难度和故障点也会增加。灵巧操作还涉及触觉、力控、物体材质和任务语义。一个机器人把物体抓起来并不难，难的是在不同角度、不同光照、不同磨损状态下，每天重复几千次，仍然不把东西摔坏。1

节目里还讨论了直驱和绳驱。直驱可以粗略理解为电机更直接地带动关节，控制响应和结构直觉更好；绳驱则像用肌腱拉动手指，能把电机布置到别处，减轻手部重量，也更接近很多仿生设计。嘉宾提到，大厂路线仍可能继续跟随绳驱，比如 Optimus 的方向，但长期仍看好直驱。这个判断背后不是审美偏好，而是对维护、控制精度、成本和量产复杂度的综合取舍。1

世界模型：从生成视频，到生成「动作之后会发生什么」

世界模型是本期最需要解释的概念。放在机器人里，它不是单纯生成一段好看的视频，而是让模型预测：如果机器人在某个状态下做出一个动作，物体、环境和机器人自己接下来会怎样变化。没有这种预测能力，机器人就只能靠大量试错和规则兜底；有了它，机器人才能更像是在脑子里先试一遍，再决定怎么动。1

机器人领域世界模型分类图 — 节目引用的图把机器人世界模型分成视频世界模型、动作条件世界模型，以及两者交叉的 Video-/World-Action Models。1

节目把英伟达 Cosmos 3 放进这个脉络里讨论：行业正在从「生成视频」走向「生成动作相关的世界变化」。如果一个模型只能生成画面，它对机器人训练的帮助有限；如果它能理解动作、环境和结果之间的关系，就可能帮助机器人补齐稀缺场景的数据，甚至在模拟中学习一些真实世界成本太高的任务。1

这也是世界模型投资变热的原因。大语言模型已经教育过一轮投资人：当通用智能能力出现明显跃迁时，早期看起来离商业化很远的基础模型，也可能改变下游应用分工。具身智能里，类似的问题变成了：机器人公司的价值到底在硬件、本体、场景、数据，还是在能跨任务迁移的智能模型？节目没有给出单一答案，但它把这个分歧讲得很清楚。1

Gen-1、π0.7、Google 与 OpenAI：路线标签开始变得不够用了

后半段谈到 GEN-1 和 π0.7。π0.7 被放在 VLA，也就是 Vision-Language-Action 模型的脉络下理解：模型看见环境，理解语言任务，再输出机器人动作。节目提到它融合了轻量世界模型，这意味着它不只是把视觉和指令映射到动作，还在尝试让模型理解动作会改变什么。1

GEN-1 则被节目描述为「从头预训练」的一类尝试。这个说法重要，是因为它不愿意被简单归进某个既有标签：不是只做端到端控制，也不是只做 VLA，更不是只把视频生成模型拿来迁移。它背后的野心，是把具身数据、动作空间和通用表征放到一起训练。路线还早，但行业已经开始从「哪种架构最正宗」转向「能不能跨任务、跨本体、跨场景泛化」。1

Google 发布 ER 1.6、OpenAI Robotics 团队官宣，也被节目放进同一个趋势里：通用 AI 公司正在重新靠近机器人。这里的变量不只是模型能力，还有组织耐心。机器人训练慢、反馈慢、硬件迭代慢，和纯软件模型的节奏不一样。大模型公司如果进入，会带来算法和算力优势；但它们能不能忍受真实世界的慢，是另一个问题。1

资本的矛盾：大家都想追智能，但客户先要 ROI

节目最后一段最好的一句话，是对资本耐心的降温：市场会追逐世界模型和通用智能，但对长期不确定性探索的容忍度依然差。这句话放在具身智能里尤其准确。投资人想押下一个 ChatGPT 时刻，客户却在问机器人每天能搬多少箱、坏了谁来修、多久回本。1

这造成了两种公司节奏。一种公司要先做场景落地，用物流、工厂、巡检这类任务换收入和数据；另一种公司更像基础模型团队，愿意忍受更长的研发周期，赌跨任务智能最终会吞掉单点能力。具身智能的难处在于，两边都不能少。只有落地没有智能，容易变成定制自动化；只有智能没有场景，模型很难获得真实反馈。1

下季度最值得看的是终端大厂入场速度。手机、汽车和硬件公司如果加快动作，会把供应链、成本控制和消费级产品能力带进来；但它们也会带来更强的「必须可卖」压力。具身智能接下来可能不会突然出现一个全能机器人，更可能先出现一批边界清楚、任务窄、但真能算账的机器人。节目真正留下的问题是：谁能在这种窄任务里积累足够多的数据和模型能力，最终跨出去。1

值不值得听原节目

如果你只关心机器人短期商业化，这期最值得听 Figure、物流和遥操几段；如果你更关心 AI 模型路线，世界模型、π0.7 和 GEN-1 的部分信息密度最高。它不是一期给普通听众讲「机器人来了」的科普，而是一次季度复盘：哪些 Demo 更接近真实作业，哪些模型概念开始影响投资判断，哪些热闹暂时还不能换成收入。1

References

1170: 【具身季报 26Q2】世界模型大风不停，和不想被贴标签的人

晚点聊速读：具身智能还在找它的「ChatGPT 时刻」