返回文章列表

Production AI 真正贵在哪

2026-01-15 · 5 分钟阅读

我看到的 AI 工作大致分两类。第一类是 Twitter 上看起来像魔法的那种 demo;第二类是看起来不性感、永无止境的一连串小工程决定。第一类吸引创始人; 第二类决定你做的东西六个月后是不是还在线上跑。

把 LLM 套到一个功能上、做出能演示的版本,几小时就够。真正的难题从这之后才开始:周六凌晨 3 点供应商限流了怎么办?用户塞了一份没有上限的会话历史怎么办?同一个用户因为网络抖动重发了同一次请求怎么办? 模型给的输出貌似有理但其实是错的,而且我们已经为这次输出向用户扣了费 — 怎么办?

每个问题单独看都不有趣。但合起来,它们就是"production AI 的工程量是 demo 的十倍以上"的全部原因。供应商慢了 — 你要能切换,并且要能知道自己切换过。历史长了 — 你需要一套策略决定什么保留、什么压缩。用户重发 — 你的每个操作都得幂等,或者重放安全。输出错了 — 你得知道是哪个模型、哪个 prompt、 哪份上下文产生的,并且要能只回滚导致回归的那次变更,而不是把无关的工作一起退回去。

这部分工作不会出现在 launch tweet 里。但它是"你是产品团队还是 demo 团队"的分水岭。

我独立做这种东西的两年里,最强的体会是:纪律比模型重要。你上季度选的前沿模型,不会是你最终上线用的那个; 你这阵子折腾的检索技巧,一年后会显得过时。但你对幂等、重放安全、可观测、回滚路径的依赖 — 这些不会过时。它们是让系统活到"我们终于能搞清楚什么值得做"那一天的方式。

一个不为这部分工作预算时间的 AI 创业公司,做的不是产品,是带了一个支付表单的 demo。

联系我

© 2026 张强 Angelo Zhang