Posts | 鸭哥每日AI要闻

Featured Post

[鸭哥 AI 手记] 2026-07-25: OpenAI发布Presence与Netflix用AI的300个title

[鸭哥 AI 手记] 2026-07-25: OpenAI发布Presence与Netflix用AI的300个title 懒人包：OpenAI Presence 把退款工单卡住转人工后的后半段改进做成了产品。此外，Netflix 披露了 300 个 title 接入 GenAI 的工作流，而智能音箱加入大模型后仍需重做三道交互关卡。昨天我们共发布了 3 篇 AI 文章。 OpenAI Presence 尝试把 FDE 的现场经验回流做成产品 7 月 22 日，OpenAI 发布了面向企业的 OpenAI Presence：把 FDE 的经验回流做成产品。一个用户提交退款工单，Agent 算不清金额卡住，自动转给人工客服。换在以前，人工处理完并在 CRM 里标记完成，事情就结束了。Presence 想收进产品的，是这之后的事：系统保存这次失败的完整运行上下文，团队在模拟环境里重现，补上规则并跑回归测试，最后用 Codex 改代码，让 Agent 下次能自己跑通。 OpenAI 自己用 Presence 运行英文支持热线 1-888-GPT-0090，在 10 天内通过 Codex...

about 6 hours ago • 1 min read

[鸭哥 AI 手记] 2026-07-24: 美军只给新模型 30 天：慢比不完美更危险

[鸭哥 AI 手记] 2026-07-24: 美军只给新模型 30 天：慢比不完美更危险懒人包：美军新战略要求在公开发布后 30 天内部署最新模型，并断言动作太慢的危险已大过模型不够完美对齐的风险。为了应对不完美状态，OpenAI 官方指南做出了少写步骤、写清交付的类似转向，而我们在生产端也能通过每天问 100 个无聊问题来低成本搭建 API 温度计。今天发布了三篇文章，如果你正在头疼 agent 落地，建议最先点开第一篇关于部署护栏的拆解。美军只给新模型 30 天，还说慢比不完美更危险 1 月 9 日，美军 Secretary of War Hegseth 签发了一份战略备忘录（Nextgov 分析）。文件要求 CDAO 建立交付节奏，确保最新模型在发布后 30 天内可部署上线，并把此项设为未来的首要采购标准。备忘录写道：动作太慢的危险已经大过模型不够完美对齐的风险。每一次决策失误都可能付出生命代价的军方，选择用具体的机制来管理不完美模型，而不是无限期等待完美对齐。鸭哥在AI Agent 不必等模型完美：美军给 AI Builder...

1 day ago • 1 min read

[鸭哥 AI 手记] 2026-07-23: 72小时造热词，4小时跑实验：分辨AI虚与实

[鸭哥 AI 手记] 2026-07-23: 72小时造热词，4小时跑实验：分辨AI虚与实懒人包：Peter Steinheimer 12 个单词的推文在 72 小时内变成了全网热词。从概念包装的 Graph Engineering，到 Cursor 用 Swarm Harness 跑完 SQLite 实验，再到汽车与 CMOS 的工业史，这三篇文章指出了 AI 从叙事幻觉走向工程落地的临界点，今天最该关注 Graph Engineering 的虚实之争。一条 12 个单词的推文怎么变成全网热词鸭哥在为什么你必须立刻开始学习 Graph Engineering？中指出，7 月 17 日，曾加入 OpenAI 专注 Agent 技术的 PSPDFKit 创始人 Peter Steinheimer 在 X 上发了一句 12 个单词的调侃（Pragmatic Engineer）。他没有给任何定义，没有写一行代码。72 小时后，这句话变成了全网热词 Graph Engineering。控制流派忙着用它包装 DAG，平台商用它宣传校验，自媒体则借此兜售虚拟公司概念。甚至...

2 days ago • 1 min read

[鸭哥 AI 手记] 2026-07-21: 训练算合理使用，Anthropic 还是赔了 15 亿美元

[鸭哥 AI 手记] 2026-07-21: 训练算合理使用，Anthropic 还是赔了 15 亿美元懒人包：Anthropic 赔了 15 亿美元，但法院其实倾向认定训练符合 fair use，钱买的是硬盘上留存盗版书的诉讼风险。另外两篇文章指出，Sandbox 选型同名不同质，需要厘清运行状态与写操作控制；数学 Agent 协议则通过双循环严格隔离探索草稿与前提。 15 亿美元买的是什么 7 月 20 日，加州北区联邦法院批准了 Anthropic 与作家的 15 亿美元和解（Bloomberg Law）。这是美国史上最大的版权集体诉讼和解。但拿到这笔钱之前，法庭已经倾向于认定一件事：把书读进显存训练模型，属于 fair use。训练本身符合规范，问题出在同一份数字副本在硬盘里存了太久。鸭哥在同一本书，训练可算合理使用，盗版流程为何要赔 15 亿美元中指出，Anthropic 联合创始人 Ben Mann 在 2021 至 2022 年间，明知是盗版仍从 LibGen 和 PiLiMi 下载了最高 700 万册图书（The...

4 days ago • 1 min read

[鸭哥 AI 手记] 2026-07-20: Agent 装环境时，第三方代码已经跑完

[鸭哥 AI 手记] 2026-07-20: Agent 装环境时，第三方代码已经跑完懒人包：昨天发了 3 篇文章，核心指出 Coding Agent 在 setup 阶段执行 npm install 或 pip install 时，第三方代码就已经跑完，且防护绕过成本极低。从启动前检查到 OS 隔离 Sandbox，再到 Agent Skills 在各 Harness 间的兼容僵局，这组文章重新拆解了 AI agent 的执行边界与安全限制。装环境时，第三方代码已经在跑开发者把陌生仓库交给 Coding Agent 并要求跑起项目，Agent 读取 README 便会自动运行 npm install 或 pip install。预印本（arXiv:2607.15143）指出，这个准备阶段其实已经在执行第三方代码，而开发者此时连最终 diff 都还没看到。测试覆盖 Claude Code、Copilot CLI、Codex CLI 和 Cursor 的 9 种配置，作者在已知 CVE 漏洞场景中发现，9 个配置全数拿到 0/30 的检出率，没有一个 agent 主动查询...

5 days ago • 1 min read

[鸭哥 AI 手记] 2026-07-19: Grok Build 开源了，但官方二进制对不上公开 commit

[鸭哥 AI 手记] 2026-07-19: Grok Build 开源了，但官方二进制对不上公开 commit 懒人包：下载 xAI 官方的 Grok Build 版本 0.2.102 macOS 二进制，其报告的 commit ab5ebf69acec 在公开仓库中并不存在。昨天发布了三篇文章，分别探讨开源、memory 质量、网页发布三个容易混淆的概念。 Grok Build 公开了客户端，但模型和构建链仍是黑盒 xAI 宣布开源 Grok Build（x.ai/news/grok-build-open-source），包含本地的 agent runtime、沙箱和 MCP 等客户端核心逻辑，并采用 Apache-2.0 许可协议。Simon Willison 统计该仓库约有 84 万行 Rust 代码（Simon Willison 博客），但 Grok 模型与云端服务仍未公开。相较于 Codex CLI、Gemini CLI 或 Claude Code，Grok Build 明确在 CONTRIBUTING.md 中指出不接受外部 PR，由私有 monorepo...

6 days ago • 1 min read

[鸭哥 AI 手记] 2026-07-18: Fable 5 全球停服，美国把 AI 管制推到 API

[鸭哥 AI 手记] 2026-07-18: Fable 5 全球停服，美国把 AI 管制推到 API 懒人包：6 月 12 日一条针对 Anthropic 的商务部指令让 Fable 5 在全球下线了 19 天，Mythos 5 至今只对少数美国组织开放；7 月 13 日华邮又据报披露美国在讨论把美国开放模型性能上限设为中国模型水平。同一周，鸭哥还梳理了 Agent 托管平台在状态恢复机制上的三条路，以及用 DSL 给大模型建一个更小可执行世界的工程思路。昨天共发了 3 篇 AI 文章。一条 API 指令让全球用户一起失去访问在第一篇「中国模型参照线」传闻背后：美国为什么从芯片管到 API 中，分析了美国官方对 AI 管制的最新走向。6 月 12 日，Anthropic 接到美国商务部指令，要求把 Fable 5 和 Mythos 5 对所有外国用户关闭。Claude 是集中式 API，没法在每次调用前实时核验用户国籍。Anthropic 当天对全球所有人停服这两个模型。Fable 5 直到 7 月 1 日才在 Claude.ai 全球恢复（来源：Reuters 与...

7 days ago • 1 min read

[鸭哥 AI 手记] 2026-07-17: 8.8% 测试让 GPT-5.5 全通过任务砍半

[鸭哥 AI 手记] 2026-07-17: 8.8% 测试让 GPT-5.5 全通过任务砍半懒人包：BackendForge 自适应评测系统仅增加 8.8% 的测试项，就让 GPT-5.5 全通过的后端任务数砍半。为了同时满足高吞吐与极低延迟，推理服务开始将 decode 路径通过 MultiConnector 接给 TileRT 0.1.5。而在教育领域，OpenAI 与 Anthropic 虽然分别推出了教师版产品，但目前各自都只做完了一半。昨天鸭哥一共发了 3 篇文章，分别讲 AI 编程评测、推理引擎和教师产品的新变化。 8.8% 的测试改判了一半任务目前的 AI 编程评测大都像一次性笔试，模型跑通预设测试即可拿分。来自北大、复旦等机构的研究者在 2026-07-13 提交的论文中，提出了一套名为 BackendForge 的自适应评测系统。它把出题流程改造成了会追问的面试：先让 Test Agent 沿着参考服务暴露的错误继续追问，再由 Review Agent 核对并由 Code Agent 修复参考实现，最后冻结成 56 个后端任务。在这套机制下，测试项仅从...

8 days ago • 1 min read

[鸭哥 AI 手记] 2026-07-16: 295B 压进单卡，装得下和跑得动是两件事

[鸭哥 AI 手记] 2026-07-16: 295B 压进单卡，装得下和跑得动是两件事懒人包：295B 模型压进单张 96GB 显卡。除了单卡运行的真实硬件预算，本期还关注网站对 agent 行为检测的边界，以及 MCP 协议在执行中途召回人类的交互设计。单卡预算算到只剩 2 GiB 腾讯混元在 7 月 14 日发布了 Hunyuan Hy3 的 IQ1_M 量化版本，把 295B 参数的大模型压到 85.5 GiB 左右（腾讯混元）。一张 96GB 显存的显卡已经能装下整个模型权重。但真实运行并不只看权重。除了静态的显存占用，模型推理还需要分配 KV cache 和计算缓冲。在无 MTP 版本的测试中，IQ1_M 权重占去 83.30 GiB，如果加上 64K 的 q8 KV cache，显存消耗会达到 93.93 GiB。此时单张 96GB 显卡只剩下 2.07 GiB 留给 CUDA context 和计算缓冲，官方把这个配置标注为 tight。 Hy3 是 MoE 架构，总参数 295B，激活参数 21B，支持 256K 上下文，Apache 2.0 开源。在...

9 days ago • 1 min read

[鸭哥 AI 手记] 2026-07-15: Codex 任务加密与智能体训练评估漏洞

[鸭哥 AI 手记] 2026-07-15: Codex 任务加密与智能体训练评估漏洞懒人包：6 月 5 日 OpenAI 合并的 PR 加密了 Codex 的 sub-agent 任务指令，隐藏了智能体之间的协作细节，直接削弱了本地调试与审计的可观测性。昨天鸭哥发布了 3 篇文章，除了解析这次加密改动外，还介绍了在评估器量错字段时 reward 依然上升的自我改进实验，以及直接控制 PTY 进程的终端复用器 Herdr。 6 月 5 日之后，Codex 任务指令变成了密文在 Codex 仍然开源，但父 agent 给子 agent 说了什么，现在看不见了里，鸭哥记录了 6 月 5 日 OpenAI 合并 PR #26210（GitHub PR）带来的变化。主 agent 派给 sub-agent 的 MultiAgentV2 任务文本，在本地会话记录里变成了。此前本地可以直接读取 "Review the authentication changes and report regressions." 这类指令，如今只能看到一串密文。此外，commit...

10 days ago • 1 min read