Hinton最新预言刷屏：谷歌必赢而且「早该赢了」！

浏览次数：

Hinton最新预言刷屏：谷歌必赢而且「早该赢了」！(图1)

　　【新智元导读】Google凭借Gemini 3、自研芯片、强大数据与研究团队，正在重新超越OpenAI，并带动市占与用户活跃度快速提升。在Google与OpenAI的双雄之争中，辛顿押谷歌会赢。

　　Google刚发布的Gemini 3版本获得业内广泛认可，有业内人士认为其表现已经超过OpenAI的GPT-5。

　　除了这些模型和产品之外，在辛顿看来，自研芯片也是Google的一个非常大的优势。

　　此外，辛顿还提到Google拥有很多非常优秀的研究人员，以及大量数据和庞大的数据中心。

　　从市场反应来看，Gemini 3、Nano Banana Pro等模型的发布2d人体姿态估计，AI与现有搜索产品的整合，以及TPU与Meta达成价值十亿美元开云体育的订单，这些综合优势推动了谷歌母公司市值逼近4万亿美元大关。

　　Google发明了Transformer，也比其他公司更早拥有自己的大型聊天机器人。

　　辛顿表示，当微软2016年发布的「Tay」因发表极具种族歧视的推文而迅速下线后，Google开始变得格外谨慎。

　　Google一直有很好的品牌声誉，他们担心类似的事情如果发生会把名声毁了。

　　此前，Google CEO Sundar Pichai也曾表示，公司之所以没有更早推出聊天机器人，是因为当时的产品成熟度还不够。

　　就在去年，Google因用户抱怨其AI图像生成器产出的部分历史人物肤色错误、显得过度政治正确，而不得不中止该功能。

　　其最初的AI搜索摘要，也曾给出荒唐建议，例如为了防止披萨上的芝士掉下来，可以在披萨上抹胶水。

　　在Google的官方介绍中，将Gemini 3 Pro称为「我们迄今为止最强大的多模态模型」。

　　Gemini 3 Pro在文档、空间、屏幕和视频理解方面都实现了惊人的表现，实现了从简单识别迈向真正视觉与空间推理的跨代提升。

　　Gemini 3 Pro在MMMU Pro和Video MMMU等复杂视觉推理基准上刷新纪录，并在文档、空间、界面以及长视频理解等特定任务的测试中取得卓越成绩。

　　现实世界的文档往往混乱、缺乏结构、难以解析，通常包含交错的图像、难辨认的手写字、嵌套表格、复杂数学符号和非线性布局。

　　Gemini 3 Pro在文档处理能力上实现重大突破，从精准OCR到复杂视觉推理，都有显著提升。

　　谷歌的一个核心能力叫「反渲染」（derendering）：能将文档画面还原为结构化代码（HTML、LaTeX、Markdown）。

　　例如，它能把18世纪商人日志转换成复杂表格，也能将带有数学标注的图像精准恢复为LaTeX。

　　要真正理解一份文档，模型需要准确识别文本、表格、数学公式、图形和图表，无论存在噪点还是格式混乱。

　　「比较2021–2022年货币收入与税后收入的基尼指数变化百分比；并解释是什么导致了税后收入指标的偏离。另外，就货币收入而言，最低收入五分位的份额是上升还是下降？」

　　其中一项关键能力是指向坐标，即通过输出像素级坐标，模型可精确指向图像中的某个位置。

　　多个二维点串联起来，就能执行较复杂任务，这是2D图像迈向「世界模型」的关键一步。

　　模型不仅可以看到「物体」，还知道什么是垃圾，哪些要分类，应该如何整理它们。

　　这一能力也延伸至AR/XR设备，用户可请求AI助手「根据用户手册指出螺丝的位置。」

　　视频是最复杂的数据形式：信息密集、变化快速、多模态且背景丰富。Gemini 3 Pro在视频理解上迈出巨大一步。

　　其中一个核心能力是高帧率理解，经优化后，模型在高于1 FPS的取样下能更好地理解物体的快速运动。

　　例如以10 FPS处理视频，Gemini 3 Pro可以捕捉每一次挥杆动作和重心转移，从而支持深入的运动机理分析。

　　Gemini 3 Pro让AI第一次像一个「真正能看懂世界的人」一样工作。

　　如果说GPT-4开启了「语言智能」时代，那么Gemini 3 Pro正在开启一个视觉与行动智能时代。

　　在互联网和AI行业，同样遵循「飞轮效应」的经典模型，而用户始终居于「飞轮效应」的核心位置。

　　每一次搜索、每一次点击，都会反哺它的反馈循环：用户行为改进排序系统，排序系统让结果更好，结果更好又吸引更多用户。

　　根据市场情报公司Sensor Tower的最新数据，ChatGPT的增长势头正在趋缓。

　　尽管它仍稳居行业第一，在移动端全球下载量中占50%，在全球月活用户中占55%，但Gemini正在快速追赶，在下载增速、月活增速以及用户使用时长增速方面全面超越ChatGPT。

　　从趋势上看，在用户数量和活跃度等方面，Gemini正在缩小与ChatGPT的差距。

　　新数据显示，ChatGPT的月活在8月到11月之间仅增长约6%，达到约8.1亿。

　　相比之下，Gemini的全球月活在同期跃升约30%，主要受其新图像生成模型Nano Banana推出后带来的用户激增影响。

　　报告还指出，在美国Android用户中，通过系统内置Gemini使用服务的人数，是使用独立Gemini应用的两倍。

　　这可能让Google在全球市场形成优势，因为Android占据主导地位，意味着Gemini不再受限于移动App或网页端使用。

　　该机构估算，过去七个月（5月至11月），Gemini的全球月活市占率提升了3个百分点。

　　相比之下，ChatGPT的全球月活市占率在过去四个月（8至11月）下降了3个百分点。

　　ChatGPT截至11月的全球下载量同比增长85%，但仍落后于AI应用整体110%的平均增长速度。

　　此外，Sensor Tower表示，Gemini用户的日均使用时长在过去几个月翻倍增长。

　　截至11月，Gemini用户日均使用时长达到11分钟，比3月增长120%，很可能是受9月上线的图像生成模型Nano Banana的带动。

　　同期ChatGPT用户的日均使用时长仅增长6%，且与7月相比，11月的使用时长下降了10%。

　　虽然目前的数据表明Google正在逼近市场领头羊，但其近期的大部分增长主要来自Nano Banana的成功。

　　庞大的用户基数，以及对用户心智的占领，一直是OpenAI强大的护城河，也是它领先其他竞争对手的重要资本。

　　因此，OpenAI能否在与谷歌的竞争中取胜，一个重要的指标就是看能否守住用户基数上的优势。

　　前段时间，OpenAI把摊子铺得有点太大，势必会放缓在模型产品上的迭代速度。

　　前段时间，Salesforce CEO马克·贝尼奥夫曾表示，在上手了Gemini 3两小时后，立刻就抛弃了用了近三年的ChatGPT。

　　就在前几天，奥特曼在致员工的备忘录中发出「红色警报」，称要把精力拉回到提升ChatGPT上，其他优先级不高的项目暂时往后放。

　　现在，每周有接近十亿的人在使用ChatGPT，庞大的用户规模使得OpenAI拥有了一个前所未有的窗口，去洞察人类的意图、好奇心和决策方式。

　　每个提示词、每段对话，都能被喂回模型训练、评估和强化学习，进一步强化这个可能是全球最强的AI反馈循环。

　　如果ChatGPT变得更好用，人们用它的频率就会更高，使用越多循环越强，循环越强产品又会变得更好——一个不断自我加速的飞轮效应。

　　如今，Gemini 3已经吸引了一波用户，OpenAI强大的堡垒已经有了一些松动的迹象。

　　在这个节骨眼上，如果ChatGPT的质量有波动，或者界面变得杂乱，用户跳去谷歌就更容易了。

　　因此，就在外部紧盯OpenAI财务状况的时候，奥特曼仍然决定先稳定自己的用户飞轮，把上线广告和赚钱的事情先放一放。

　　目前，OpenAI把希望押在新模型的发布上，以推动ChatGPT再次加速增长。

　　但AI的投入成本极高，OpenAI已经承诺要投入数千亿美元来建设基础设施，把ChatGPT推向真正的全球规模。

　　先通过聚焦ChatGPT稳住用户的基本盘，然后再探索广告商业化机会，正是奥特曼在强敌压境之下的重要考量。

　　如今，相比较OpenAI，Google在模型上已经赶上，在芯片、产品矩阵、商业化能力等方面不断巩固优势。

　　奥特曼是否能有机会让Google再次拉响「红色警报」，可能要看新模型「Garlic」推出后的市场反应了。

　　Google在介绍Gemini 3 Pro时，提到了一个重要的改变：从「看见」，迈向了「理解」。 Gemini 3 Pro在文档、空间、屏幕和视频理解方面都实现了惊人的表现，实现了从简单识别迈向真正视觉与空间推理的跨代提升。

　　哈哈，Hinton老爷子早就看Sam不爽了，这一刀为Ilya复仇[呲牙]

2026-06

刷新纪录百人实时动作捕捉挑战在沪完成

返回列表

一种实时轻量级2D人体姿态估计方法

开云体育官方网站-（Kaiyun Sports）

Hinton最新预言刷屏：谷歌必赢而且「早该赢了」！