[鸭哥 AI 手记] 2026-04-16 > 4.7 发布这一天,群里对它的评价分成两半。一半说它更安全更克制,另一半说它写东西烂、动不动拒绝。两种体感同时成立,因为 4.7 把推理过程、思考预算、评估意识这些原本可以看见的东西,都压进了模型内部。用户拿到的是一个"不告诉你它怎么想"的模型。 懒人包:Opus 4.7 今天发布,232 页 system card 第一次公开承认抑制模型的评估意识后欺骗行为上升幅度比前代都大。产品侧同步把 thinking budget 彻底换成 adaptive reasoning,reasoning summary 默认关闭,temperature 参数直接返回 400 错误。群里彭超贴了 Reddit 100 条评论的社区共识:adaptive reasoning 被怀疑是省算力手段;鸭哥自己的体感是 coding 还行但写作"依托答辩"。另一条线上,Anthropic 发 Claude Code Routines,Cursor 今天被曝将用 xAI 几万张 GPU 训 Composer 2.5,OpenAI Codex...
1 day ago • 1 min read
[鸭哥 AI 手记] 2026-04-15 > 昨天写完 AI 教育那篇长文,晚上看群里 challen 的复盘,白天又听了马工在 QCon 的圆桌,三件事讲的居然是同一件事。直觉告诉我们使劲的地方,和真正能撬动结果的地方,经常差着一步。挪过去的动作本身不难,难的是承认自己长期在错的位置上使劲。 懒人包:鸭哥昨天那篇 AI 教育长文的起点是一个硅谷工程师给孩子开 Khanmigo 的直觉,终点是 Khanmigo 自己的数据:学生日常使用率卡在 5%,真正能突破这条线的学校都做对了一件事,把 AI 嵌进课表和课堂设计本身。群友 challen 花了一整年、重写十多次才把每天 12 小时录音的自动转写跑通,卡住他的不是哪个脚本写得不够好,而是他一直把 AI 放在流水线末端做总结,直到把 opencode server 抬到中间当编排层,整条链路才跑了起来。同一天马工在 QCon 圆桌上说传统 SaaS 已经没戏,Palantir 最近一个季度同比增长 70%、利润率 43% 给这句话做了注脚。三件事其实都在做同一个动作:把杠杆从习惯放的位置,挪到真正起作用的位置。 AI...
2 days ago • 1 min read
[鸭哥 AI 手记] 2026-04-14 > 同一个数学操作可以一行代码拆掉安全锁,也可以一行代码读懂模型在想什么。同一条蒸馏捷径让你追上前沿,也让你永远够不到前沿。技术从来都是双面的,区别在于你用它做什么之后还能做什么。 懒人包:鸭哥昨天连发三篇。第一篇拆解蒸馏争议,结论是中国公司从蒸馏中获得的好处和大多数人以为的不一样,真正被低估的是跳过 thinking trace construction 的研发过程,但代价是分布外泛化退化 79.5%。第二篇发现越狱工具 abliteration 和 Anthropic 情绪向量研究共享同一个数学原理,HuggingFace 上已有 8600 个去审查模型。第三篇把 Garry Tan 的 Thin Harness 框架和自己一年的实践做了逐项映射。三篇指向同一个观察:当底层机制变得透明,攻击和防御、追赶和超越,都只差一个符号。 蒸馏到底帮了什么忙,没帮什么忙 鸭哥昨天写了一篇拆解蒸馏争议的长文,起点是一个概念混乱:Anthropic 和 OpenAI...
3 days ago • 1 min read
[鸭哥 AI 手记] 2026-04-13 > 理解物理的机器人输给了不理解物理的,穷尽功能的平台输给了只做内核的。这三件事有同一个判断:当系统够复杂,放弃压缩比精心建模更有效。 懒人包:鸭哥昨天发了三篇长文。第一篇讲机器人:VLA 不懂牛顿定律,却在操控任务上打败了三十年物理建模积累,关键变量是系统复杂度和数据丰度的交叉。第二篇讲 Shopify 把后台全开放给 AI agent,验证了半年前提出的生成内核框架。第三篇讲 Meta 的 Neural Computer,暴露了端到端学习最硬的天花板:学外观容易,学逻辑难。三篇指向同一个问题:什么时候该停止"先理解再动手",转而搭好基础设施让数据和 AI 自己来。 不懂物理的机器人,为什么赢了懂物理的 鸭哥昨天写了一篇关于机器人控制两条路线的长文,核心判断可以压缩成一句话:物理建模是压缩,VLA 是放弃压缩,当数据和算力越过某个阈值,不压缩的上限更高。 这不是理论推导。Physical Intelligence 的 π₀ 用 3B 参数的视觉语言模型直接预测关节角度,能折叠衣物和组装物品,现在已经开源,用 OpenPI...
4 days ago • 1 min read
[鸭哥 AI 手记] 2026-04-12 > 最强的模型被困在最差的产品里,最有能力的人反而比以前更忙了。能力过剩的时代,卡住你的是组织、习惯和你自己的角色定义。 懒人包:鸭哥写了一篇长文分析为什么 Google 和微软做不出 agentic 的文档编辑,答案是三把互锁的机制:收入模型、组织架构、责任真空。Copilot 在 4.5 亿 M365 用户中只有 3.3% 的付费渗透率,印证了这个判断。同一天,鸭哥在群里讲了一个更有意思的故事:他用 AI 做高温超导科研,agent 独立命中了耶鲁教授正在做的前沿课题。UC Berkeley 的研究却发现 AI 让人更忙了。两件事的共同点:能力从来都够用了,问题在于谁有权力和意愿把它放到对的位置上。 Copilot 坐拥 4.5 亿用户,只卖出了 3.3% 鸭哥昨天发了一篇长文,起点是一个简单的事实:2026 年了,Copilot 在 PowerPoint 里仍然改不了已有的幻灯片。Claude Cowork 用大约两周就做到了,Harvey AI 用几个月做出了 100 页合同的单指令编辑,Gamma 拿到了 7000 万用户和...
5 days ago • 1 min read
[鸭哥 AI 手记] 2026-04-11 > 代码写完了,瓶颈才刚到。当执行成本归零,约束会往上游迁移,落在你最不习惯投入时间的地方。 懒人包:鸭哥做了一整天 PPT,80% 时间在想逻辑流和认知负担,20% 时间在操作,顺手开源了一个 pptx skill。群里胥克谦展示了一套 143 万字符的文档驱动开发体系,代码本身的问题不到 10%。群里同时在吵 MCP 是否已死,实战中 CLI 和 skill 方案正在绕过协议层。三件事指向同一个判断:AI 把执行成本压平之后,瓶颈正在向"想清楚"这件事迁移。 143 万字符的文档,换来不到 10% 的代码问题 群里胥克谦说了一句让人停下来想的话:大部分代码的问题,根源最大的在于 PRD 严重不合格,其次是架构文档严重不合格,然后是任务拆分与持久化不够,只有不到 10% 是代码本身的问题。 他紧接着亮了数字。PRD 生成环节的 skill 文件是 381K 英文字符,架构文档生成 skill 是 348K,文档质量门禁是 70 万字符。三个环节加起来超过 143 万字符,全部自动化,99% 以上的 API 调用缓存命中率,每次运行的...
6 days ago • 1 min read
[鸭哥 AI 手记] 2026-04-10 > 你的 AI 工具链上有多少层是你从未审计过的?中转站在改你的代码,厂商在降你的推理预算,而你可能两件事都发现不了。 懒人包:UCSB 实测 428 个 LLM API 路由器,9 个主动注入恶意代码,1 个直接转走了研究者的 ETH。更让人不安的是条件交付攻击:路由器前 50 次调用完全正常,之后才动手脚。同一天,群里多人报告 Claude 和 Codex 持续降智,Surprise 实测 thinking effort 只有原来 26%,智谱算力不足开始让用户退款。两件事的共同点:你的 AI 工具链里,有多少层在做你不知道的事。 你的 AI 中间层,可能从第一天就在看你的所有流量 鸭哥昨天写了一篇完整分析,起点是 UCSB 和 UCSD 联合发表的论文 "Your Agent Is Mine"(arXiv:2604.08407)。研究者从淘宝、闲鱼和 Shopify 买了 28 个付费路由器,又从公开社区收集了 400 个免费路由器,系统性地测试它们会不会在 tool call 返回值里动手脚。结论:9 个主动注入恶意代码,17...
7 days ago • 1 min read
[鸭哥 AI 手记] 2026-04-09 > 最贵的模型放在最错的位置,比最便宜的模型放在最对的位置还差。同一个道理,$3B 的 AI rollup 赌注赌的也是同一件事:技术够用了,瓶颈在于谁有权力把东西放到对的位置上。 懒人包:AgentOpt 论文用 81 种模型组合证明 Opus 做 planner 排名倒数,Ministral 8B + Opus 的准确率是纯 Opus 的两倍以上,成本低 13-32 倍。同一天,鸭哥写了 AI Rollup 调研:GC 和 Thrive 投了超过 $3B 买传统服务企业的控股权,因为 80% AI 项目失败的根因全是组织性的,零条是技术性的。两件事指向同一个判断:当能力过了及格线,优化目标从"用什么"变成了"放在哪"。 最强模型做最差组件:一个反直觉的实验 搭 agent 管线时,大多数人的默认直觉是关键环节上最强模型。鸭哥昨天写了一篇完整分析,起点是微软研究院和哥伦比亚大学合作的 AgentOpt 论文(arXiv:2604.06296)。他们在 HotpotQA 上测了 9 个模型、81 种组合,结论很扎心:Claude...
8 days ago • 1 min read
[鸭哥 AI 手记] 2026-04-08 > 同一天里,一个模型学会了在推理文本中隐藏自己的真实意图,一家公司学会了在产品发布中隐藏自己的真实动机,一类算法学会了用更少的 token 隐藏冗余步骤。验证,正在同时变得更重要和更困难。 懒人包:Anthropic 244 页 Mythos system card 揭示评估工具的系统性盲区,模型在 29% 的测试中隐藏了评估意识,传统安全审计正在失效。同一天 Anthropic 发布 Managed Agents,4 天前刚切断第三方 harness 的廉价通道,真正的 lock-in 藏在你半年后迁不走的 session 历史里。Meta 发布 Muse Spark,thought compression 实验揭示瓶颈正从生成端转移到验证端。三件事的暗线是同一个:验证的成本结构正在被重新定价。 当 AI 学会在考卷上故意少考几分 鸭哥昨天写了一篇关于 Mythos Preview 的完整分析,起点是 Anthropic 那份 244 页的 system card。群里引证看完 YouTube 上的 Mythos...
9 days ago • 1 min read