对话它石智航丁文超：不VLA、不仿真、不遥操它石智航的具身大脑没有Plan B

浏览次数：

对话它石智航丁文超：不VLA、不仿真、不遥操它石智航的具身大脑没有Plan B(图1)

　　2026年3月，它石智航在AWE完成线下首秀，全球首个“能干活”的通用具身大模型AWE3.0也同期发布。

　　2025年年初，这家公司是资本市场毫无疑问的宠儿。天使轮融资额刷新纪录，明星创始团队，让它石自创立之初，便一跃成为具身智能赛道炙手可热的名字。

　　然而接下来的一年里，它石智航选择了一条截然不同的路：没有参加各种行业大会，没有频繁对外发声，没有出现在春晚或各类展示活动中，一直踏实干活。

　　它石A1机器人，1小时内完成亚毫米级柔性线束完整装配任务百余次，创下全新吉尼斯世界纪录。

　　一系列成果让它石首次在线下亮相，便吸引了央视、新华网等头部官媒的组团报道。

　　长程操作、柔性操作、亚毫米精度，不可能三角全部集齐，被喻为工业自动化界的「哥德巴赫猜想」。

　　时隔一年，高调亮相的它石，直接打爆了这个场景，如期兑现了对投资人的承诺。

　　从它石智航联合创始人、首席科学家丁文超这里，获得了关于这家公司更多的技术进展和背后的具身洞察。

　　当圈内还在争论机器人何时能真正干活时，它石智航已用硬核技术，交出了答卷。

　　专攻干活，而且要干就干最难的。这是它石从创立之初就确立的技术路线机器人选择的挑战，叫作亚毫米级线束装配任务。

　　。因此，模型每走一步，面对的都是一个和上一秒截然不同的物理世界，传统预先设计好轨迹的模式，在这里完全失灵。

　　。线束少则十几根，多则几十根，每一根的插接状态都会影响下一根的空间和角度。

　　丁文超把这类任务概括为具身智能的不可能三角。传统工业自动化精度高但柔性弱，具身方案能做长程任务但精度差。

　　而如今，它石不仅经受住了这一考验，还将其彻底打穿，装配效率创下吉尼斯世界纪录。

　　。不是VLA，也不是3D资产生成模型，而是一个真正意义上，能够作为具身大脑的世界模型。

　　GPT-3做了两件事：把聊天场景打磨到极致，同时指明了这条Scaling曲线出现之后，已经没人再怀疑LLM这条路。只不过GPT-3.5把它彻底引爆了。

　　用线束装配对标聊天场景，把它打爆，同时验证模型在其他干活任务中的泛化能力。

　　丁文超坦言，做之前就清楚这是块硬骨头，但真正上手才发现，还是低估了难度。用传统方法，几乎不可能完成。

　　但也正是这座珠穆朗玛峰般的里程碑，催生出突破，最终汇聚成AWE 3.0。

　　。关键在于「隐」这个字。这是一个经过压缩和抽象的中间世界，肉眼无法直接看到，对于具身智能来说却是更本质的学习环境。

　　面对柔性操作中层出不穷的突发状况，模型不再简单模仿动作轨迹，而是在隐空间里持续推演未来的多种可能，再据此做出决策。

　　这当然能提高整个系统的鲁棒性，但出乎意料的是，在隐空间里思考的过程中，模型竟然涌现出一项全新的技能：自我纠错（Failure Recovery）。

　　。不再需要人手把手教，即便遇到超出训练范围的场景，机器人也能自己在尝试中找到解法。

　　遥操作根本干不了亚毫米级的事，操作过程中会犹豫、抖动，反而变成了训练数据中的「噪声」。

　　虽然不能百分百零偏差，但人的纠错能力极强，可以在操作中感受阻力，并据此迅速调整角度和力度。

　　从第一性原理出发，丁文超指出，想要习得这种局部微调的能力，唯一方式，就是从真人身上采集数据。

　　一体化数采套件。非常轻便，一双手套，一个能够固定在胸部或头部的第一视角摄像头，完全无需像遥操那样进行专业培训，哪怕是清洁工、超市员工，佩戴上就能成为采集员，也不会影响工作。劳动者在日常工作过程中，顺手就能把数据采了，完全是“被动式”采集。

　　星火计划，邀请生态伙伴加入，基于Human Centric推进具身数据标准建设、共建Human Centric数据集，构建产业级数据共享生态。该计划初期将汇聚超过1000万小时的标准化优质数据，目标推动实现1亿小时级别的数据共享。

　　采访结束，已是夜里十一点，其中一间小会议室里，董事长李震宇和CEO陈亦伦也在热烈讨论。

　　具身智能的征程，往往越聊越兴奋。刚刚亮相的技术和成果，无疑是它石智航「日新月异」的新起点。而负责技术研发推进的

　　的过程：一方面，通过合理的数据组织、网络训练、网络架构和任务设计，让模型能

　　最开始我们采购了很多市售关节回来测，结果发现，要么响应延时有问题，要么扭矩脉动太大。这些都会导致机器人没办法像人一样灵活。

　　，非常低的减速比、高精度、GAP极小的行星关节，这在市面上非常少见。第二是

　　。很多手套数据用夹爪去映射，信息损失太大。所以我们在去年开始研发21自由度灵巧手，和人手完全匹配。原本我们觉得，具身领域做硬件的公司那么多，产业链应该是成熟的。结果发现这个行业跟汽车工业相比，差距太大了。

　　。这对业界是个反常识。直到今天，很多人还觉得人到机器人的跨本体映射是个大问题，但我们解决得还不错。

　　之前我们心里的答案是毫米级，但最近有了新突破，我们能做到亚毫米级。这也是个反常识。大家一直觉得端到端网络特别依赖数据驱动，精度上是不是不如传统方法？事实证明不是。

　　。现在各家在追这种采集方式，投入都特别大。很多人在深入研究我们的数据采集套件。

　　本以为大家转弯还需要时间。没想到2026年，已经快成为以人为中心的数据采集元年了。

　　两者都开云体育有，但倒逼的成分很大。线束插接场景本身就需要达到亚毫米级精度，逼着我们去想怎么让网络动作更连续、更丝滑，怎么实现failure recovery，插错了也能局部微调重试。

　　真正的泛化，不只是模型本身的泛化，数据和模型的覆盖范围也要泛化。对外聚焦线束，是因为我们想

　　。但其实从第一天起，我们就同步在工厂、物流、仓储、洗衣房、酒店等多个场景采集数据，全部用于训练。那时很多投资人还有所保留，觉得把一个场景做深、完成商业化就够了。但我们的判断是：

　　，模型的过拟合反而相对容易消解。现在我们内部已经有N个可落地场景在并发推进，节奏比我自己预期的还要快。

　　去年聊这个词的时候，大家还定义不清楚。现在我可以给一个更具体的描述：准Zero-shot时代。不是说推到一个新场景完全零基础就能上，而是你已有的核心skills，在新场景里基本都能迁移、都能用。

　　的水平；如果某些任务彻底打穿，可能就到GPT-3.5了。这个时间点比大家预想的早，说实话，也比我自己的预期快。我们规划的模型节奏是

　　一旦准Zero-shot成立，机器人就不只能进工厂、做一个工序，而是可能同时覆盖多个工序。C端机会也会更早涌现。

　　，并且在一些任务上已经能盖过Bert这类小模型。对我们来说，2.0意味着我们真正完成了跨本体部署，从Human Centric数据到模型训练，再到机器人上的部署，这条链路跑通了。3.0则不仅能够看到线束场景打穿，还看到了其他若干场景的涌现；

　　4.0就是去年跟大家讲的世界引擎。为什么要同时预测环境和动作？最终是为了服务强化学习。模型充当自己的仿真器，自己预测环境、预测动作，做长程思考、高并发多场景并发推演。

　　GPT-3出来之后，已经没有人怀疑这条路能不能走通，只是3.5才把它彻底引爆到终端用户。我们现在也处于类似的位置。AWE 3.0出来，加上接下来会发布的泛化任务，大家应该不再怀疑具身还会有Scaling的瓶颈，不再怀疑泛化能不能实现。

　　。春江水暖鸭先知，线的人，那时候就已经开始投身大模型创业。具身现在也到了这个时刻。

　　具身的benchmark现在说实话比较混乱，非常像早期的自动驾驶。各家都说自己最牛，学术榜单持续存在，八仙过海各显神通，每家都曾经拿过某个榜单的第一。但后来大家发现，榜单的第一第二根本没意义。

　　具身现在正处于从第一阶段迈向第二阶段的节点。第一阶段就是现在，大家在吹各种benchmark，但你仔细深挖评测指标和评测环境，会发现偏差非常严重。

　　我们内部有自己的benchmark体系，用in-house数据集和公开数据集，跟业界各个SOTA模型对比，包括闭环实验。

　　从我们内部的横向比较看，现在能公开接触的模型，距离真正能干活的通用模型还有非常远的距离。

　　具身智能的Scaling Law，好像跟当年GPT引发的风潮不太一样。GPT时代越做越大，但具身领域却出现了做得更小更精的方向，你怎么看？

　　。现在大家觉得具身模型的方差比较大，小模型有时候反而好，大模型反而差，根本原因是第一波红利没吃完。

　　数据Scaling没做扎实的时候，模型Scaling就处于一种不稳固的状态，很容易掉进局部最优，导致各种noise和方差。

　　，这是毫无疑问的。如果2026、2027年大家解决了数据Scaling Law的问题，大家一定会想方设法扩张模型。

　　最大的问题是量级。遥操作有一个致命问题：它不会激励你去解决跨本体的问题。硬件一升级，之前的遥操作数据不能复用。所以想靠遥操达到千万小时级别，根本不可能。

　　。我们内部的数据量确实涨得很快，我们也发起了星火联盟数据生态计划，让更多人参与进来一起迭代。

　　现在我们在冲刺的目标就是千万小时级别，我们想要的收益，就是把模型推到一个新任务、新地方，能以准专业的状态把任务基本完成。

　　真实场景里无处不在的Human Centric数据，一定会带来第一波巨大的数据红利。

　　第一，模型size和数据量之间有一个对应关系。30B能吸收接近百万小时，100B以上才能吸收千万小时级别。

　　第二，这个模型应该是目前市面上推理速度最快的同规模模型，通过隐空间内异步动作输出的方式，

　　。这一点非常反常识。大家以前觉得要实现丝滑运行，必须靠大小脑双系统，大脑低频推理，小脑高频执行，两者割裂配合。

　　完全是实践中的认知。最初我们只是想到模型要同时预测环境和动作，但线束任务对丝滑度的要求极高，倒逼我们去想：

　　从第一性原理看，双系统大小脑本质上还是两个不相干的东西凑在一起。我们还是想在统一的模型架构里解决这个问题，最终就催生了在隐空间这条路。

　　把所有东西集成在一个模型里，肯定是大趋势。大小脑的融合也是必然方向。我甚至觉得，具身领域将来会涌现出自己的原生基础模型。

　　。VLA是把VLM搬过来加一个action头；world action model、video action model是把视频预测模型搬过来，再拼一个动作输出。这些“外来和尚”在具身领域遇到的问题都很类似。

　　，到一个新场景，action需要大量新场景数据才能变好。video action model大家现在讨论得还不多，但我可以预告一下：第一，

　　；第二，视频预测很难维护精细的空间结构，导致模型最终还是在记动作。原生模型可以完全避开这两个问题。我们所有数据天然就是视觉、语言、动作三种模态对齐的，训练时可以在任意模态之间互相转换。

　　第二，我们有一个不小的research team，会持续跟踪业界所有SOTA方法，包括VLA、视频动作模型、世界动作模型，全部纳入我们自己的benchmark。

　　是在实操中摸出来的。我们的数据量和模型规模都是一点点往上涨，慢慢发现数据涨到一定规模，模型size就需要提升到下一个level才能继续吸收。这个对应关系，是从自动驾驶时代积累的经验，加上具身这边数据量快速增长的实践，综合感受出来的。

　　，赏心悦目也是指标。有意思的是，我们在线束插接这个子任务上，效率已经超过人了。

　　这里面有个trick：人没法左手画圆右手画方，但机器人可以，通过对数据合理的组织，我们

　　第一性原理上，你追求丝滑，追求看起来像人，最终都是为了让机器人真正进入人类社会。去年你也问过我机器人最终的形态会是什么，我当时说

　　因为它给人的感觉像自己。展会上我们的双足机器人只要出来，现场就围得人山人海。

　　哪怕是从货架上抓一个水瓶，这个动作可以很机械，也可以很丝滑，给人的感官完全不同，人想要使用它、信赖它的欲望也完全不同。

　　。我们没有一口气铺几千张卡漫无目的地训，而是随着数据量上升，看到模型吃不住了再加参数，每一个实验都仔细评估价值。我们的

　　，上面可能有若干次决战，所以弹药和粮草必须存够，每一次决战都要有主动出击的能力。

　　这件事比很多人想象的要难得多。Human Centric意味着采集主体是人，不像设备那么可控。我们早期就遇到过，现场工作人员被动式采集，

　　这里有个反常识的结论。大家一直认为遥操作数据精度最高，Human Centric数据精度上是短板。但在亚毫米级任务上，

　　。遥操作根本干不了亚毫米级的事，操作过程中会犹豫、抖动，反而变成了噪声。我们亚毫米级的模型，完全是用Human Centric数据训练的。

　　随着我们把更多场景扩展开，靠Human Centric数据支撑整个模型训练到部署，完全可以做到。

　　对，以前大家总想着数据有一座金字塔，高质量数据、中等数据、大规模数据各种配比，搞得很复杂。但我觉得未来可能根本没有什么数据金字塔。你把一种数据打磨到极致，把所有细节做好，质量可能比配比来的数据要高。

　　任何一个细节没做好，都会给你带来错误的结论。Human Centric数据要做到亚毫米级精度，

　　，每一个环节都不能出问题。现在业界大多都还没搞清楚怎么把Human Centric数据做到很高精度，更不用谈后面部署到机器人上完成闭环任务。

　　，遥操作数据的成本远高于Human Centric。你算一下遥操作的成本：得买一台机器人，得有数采中心或者把机器人推到现场，还得有专业遥操员。

　　采集者可以是清洁阿姨、超市工作人员。他们戴上数采手套就能在日常工作中顺带完成数据采集。

　　正确的方法论，别人终究会挤进来。与其守住硬件设备，不如把门槛真正建立在AI上。就像大模型训练一样，大家都知道怎么训，但最终训出来的模型差异还是会体现出来，这就是不传之秘。

　　与其说训练了多久，不如说是随着数据量级持续提升的一个过程。大概时间线从去年年中开始，那时候Human Centric的采集、训练、部署已经走通了。

　　这也是为什么我判断后面节奏会进一步加速，随着数据量越来越大、模型越来越成熟，智能涌现的时间也会缩短。

　　有些观点我同意。仿真数据没用。Sergey自己也采了几千小时数据，是真正走过这个过程的人，他知道机器人部署到真实世界需要多少数据、怎么才能泛化。

　　他的路径是遥操作获取基础数据，加上大规模真机强化学习，我对这条路是有疑问的。

　　有这个因素，但不是全部原因。早期Generalist这类公司还在宣传几十万小时数据，现在有些硅谷公司开始说我只需要10小时、20小时数据就够了。26、27年这个分歧会越来越明显。

　　但让我比较惊讶的是Generalist，作为在硅谷的公司同样坚定走Human Centric路线万小时级别以上。所以环境不是决定性因素，更深层的原因可能是惯性。

　　具身比自驾复杂得多，本体自由度更高，是复杂3D环境，还有大量密集的contact操作，场景丰富度也更高。根据我们现在的实践经验，具身所需的数据量至少是自动驾驶数据量级的10倍。具身可能有三个坎：

　　10万小时是模型能力不错；100万小时是准产品级，可以deliver给各种用户；1000万小时之后，数据Scaling law的讨论会变少，大家开始讨论模型架构，前沿公司开始做强化学习。

　　我们有一套自动化调度系统，每天汇总返回来的数据，check场景覆盖了哪些、任务做了哪些、动作pattern的分布，然后第二天针对性补缺，再去采。这套系统保证我们不会偏科，不会在一个场景过度采集，那样重复度太高，变成同质化数据，不是有效的scale。

　　相当于带着义肢去操作，很多人的本能行为在那个状态下都会变形。但如果直接从人身上采，你会发现人很多日常动作里藏着大量自己都没意识到的操作智慧。最让我印象深的是failure recovery。

　　，移了1厘米还是1.5厘米其实自己不一定知道。但人的局部微调能力极强，出了问题能自然地调整修正。这也是为什么我们一定要把人的行为原原本本全量记录运动姿态三维，所以我们做了

　　完全镜像。手套捕捉人手的完整自由度，有两个核心优势：一是能采集末端触觉，二是无惧遮挡。用VR眼镜采集，

　　。手套不存在这个问题。灵巧手这边，人手大概20到21个自由度，做到这个数字基本就能描绘人手所有运动，这就是为什么大家都在追求20自由度以上。

　　我举个例子。我们展示的刺绣任务里有个顶针动作，夹爪很难做。缝纫工人为什么戴扳指？就是为了捏住针之后用指头把它顶过去。

　　挺有挑战的。在这么小的空间内实现这么高的自由度，技术路径本身就有争议，准直驱还是绳驱，电机设计、减速器设计……都是一点点摸索出来的。线束场景倒逼我们把Human Centric逼到亚毫米级，而灵巧手，倒逼我们把电机和减速器的设计制造能力逼到极限。

　　我们应该是目前世界上屈指可数可以做到准直驱、高自由度、还能集成到人手尺寸的公司。今年

　　线束场景里我们现在用夹爪完成的工序大概覆盖70%的任务，剩下的比如缠胶、理线，手会方便很多。如果真的想做通用工业解决方案，绕不开灵巧手。

　　六根手指，数据就对不上了。你从人身上采不到六指数据，还得自己造数据，边际效应马上就显现。所以机器人手的自由度大概率是小于等于人手，这样才能最大化利用Human Centric数据。

　　人手能做的任何动作，灵巧手都能做出来。全身人形其实现在已经基本可以做到动作模仿，手也在朝这个目标走。剩下的问题就是手脑协同。

　　T是双足，A是轮式双臂。本体层面，各家整机设计现在其实收敛了，差异没那么大。我们比较有特色的是关节。

　　以前大家设计关节，电机扭矩、减速比都是越大越好。但我们发现本质上是一个distribution match（分布匹配）的过程：

　　把这个目标拆解，整机构型大家都差不多是拟人型，真正关键的就是关节，包括末端灵巧手关节到核心关节。

　　你降速，你感受不到机器人还需要变得更好。但一旦你采集的是人的数据，你就会永远想让机器人去匹配人的动作分布，这个驱动力就会持续逼着你把关节做得更好。

　　传统的本体设计是正向的，关节要出多大扭矩、减速比定多少，凭感觉来。为AI而生是反向推导。我们采集了大量人的数据，知道人在完成各种任务时末端需要多大力度、多快速度，这形成了一个distribution A。

　　我们设计本体，就是让机器人的工作空间、力输出、运动速度形成的distribution B，尽可能去匹配distribution A。这样AI模型在上面适配，迁移会更顺滑。

　　这本质上是个双向奔赴的过程。一边是模型通过空间预训练、全身端到端、各种技巧让迁移更鲁棒；另一边是

　　真正触动我们的，是亲眼在线束工厂看到的那一幕：密密麻麻全是人，空气里弥漫着汗味，工人非常忙碌。我们也访谈了工人，他们自己干得很痛苦。插线的错误率大约是

　　，流失率极高，几个月就换一批人，管理成本也居高不下。我们当时调研了很多场景，判断标准很简单：有

　　线束完全符合，这是真需求。第一步是从需求出发，第二步才分析这个任务有没有门槛，发现它兼具长程、柔性、高精度，确实很难。但我们对自己这个团队有信心，决定去磕它。

　　早期有很多人不看好，觉得太精细了。但毕竟之前没有人展示过具身能在这么精细的任务上持续稳定工作，有这个反应也很正常。

　　选了线束之后，我们没有给自己想过退路。我觉得这一代具身智能的价值就在这儿：

　　任何不满足这三个特质的场景，传统自动化都能解决，不需要具身智能。你可以沿着这个逻辑去审视市面上各家具身的落地场景。

　　线束通了，其他场景是能力外溢的问题。成功率、精度、柔性外溢出去，很多装配场景虽然没有线束那么极端，但也有毫米级子动作、多工序要求，我们的能力是够用的。

　　大脑的量产。以前机器人公司有量产经验的都集中在小脑，解决本体一致性、产线问题，这些路已经探得差不多了。

　　我们不是一家生态公司，初衷完全不同。如果是为了做生态而做生态，你每一块都不会追求极致。但我们是真的想解决问题，还是第一性原理出发，这才驱动我们把每件事做到极限。

　　如果我们把自己定位成生态公司，我们没必要把减速比、自由度这些东西推到极致，能卖出去满足基本需求就行了。但这两种做法，差异性很大。

　　我对具身行业有个3+3+3的判断。前三年是认知收敛期，现在到接下来三年是打硬仗期，再往后三年是淘汰赛。现在这个阶段，技术路径逐渐收敛，会催生硬件平台的标准化。我们现在做关节、做手，某种程度上是在牵引这个标准的制定。

　　最关键的还是两件事：第一，在工厂里证明真的能干活；第二，对未来有想象力。

　　具身大脑上的竞争激烈度会上升得很快，这让我兴奋也让我警惕。说实话，中国整体的大脑进展是

　　这类进展很快。过去一年我们绝大多数精力都投入在大脑上，就是因为意识到大脑能力的决定性作用。

　　。再给其他公司6到12个月，大家都能达到类似水平。虽然还有很多公司在往里冲，但问题已经收敛，只不过各家时间上滞后几个月而已。

　　。这对行业是好事，因为人们一直低估了具身的行业价值。以前大家的估值逻辑很粗，就是能卖多少台机器人。但一旦具身大脑真的能批量转换生产力，整个估值逻辑要重写。

　　我觉得大脑的引擎完全可以接住第二波增长，整体价值还会继续往上走。3+3+3，淘汰赛最终还是会来。

　　能干活的具身通用大脑。具身的本质是把AI赋予物理实体，让它在生产生活中发挥价值。我们想做的是智能程度高、有自主能力、能真正帮助人的大脑公司。

　　是具身大脑公司的太多了，得有个金标准。能不能稳定、可靠、高效地干活，就是这个金标准。

　　我觉得快的线年，是因为我真实感知到了技术发展的加速，这个事情是会实现的。量子位：物理AI要达到现在信息AI那个水平，需要多少数据？

　　取决于数采中心的装修频率，现在装修最快的也就一个月一次。量子位：自由度军备竞赛，你们会卷吗？

　　躯干大概20多个自由度，单手也是20多个，把机器人末端送到三维空间某个姿态，现在大多数机器人都具备这个能力。

　　我当时在思考，什么样的模型才能吸收这么多Human Centric数据？

　　飞那种算不算世界模型？我觉得李飞飞推出的世界模型，更多是基于空间的维度做生成及渲染，而具身则需要落实到我们所处时空的具体动作上。Marble只是对空间有预测能力

　　最新的学术工作中，虽然说指标上会有提升，但视频预测的幻觉影响动作这个问题，业界还没人去解决。

　　现在有两种AGI叙事。第一种是大水漫灌，模型能力慢慢提升，最后变成无所不能的通才。

　　我实验下来的感觉，具身很可能也是这种形态，更像一片竹林，竹子越来越多、越来越密

　　低谷部分，可能只能勉强达到人类水平，甚至略低。有时我也会想，追求大水漫灌式的具身AGI，是不是我们未来十年的使命？

2026-04

德系家轿新作全新速腾S将于3月31日正式上市

返回列表

一汽-大众全新速腾S正式上市推出四款车型售798万-1058万元

开云体育官方网站-（Kaiyun Sports）

对话它石智航丁文超：不VLA、不仿真、不遥操它石智航的具身大脑没有Plan B