Production AI 真正贵在哪

2026-01-15 · 5 分钟阅读

我看到的 AI 工作大致分两类。第一类是 Twitter 上看起来像魔法的那种 demo；第二类是看起来不性感、永无止境的一连串小工程决定。第一类吸引创始人；第二类决定你做的东西六个月后是不是还在线上跑。

把 LLM 套到一个功能上、做出能演示的版本，几小时就够。真正的难题从这之后才开始：周六凌晨 3 点供应商限流了怎么办？用户塞了一份没有上限的会话历史怎么办？同一个用户因为网络抖动重发了同一次请求怎么办？模型给的输出貌似有理但其实是错的，而且我们已经为这次输出向用户扣了费 — 怎么办？

每个问题单独看都不有趣。但合起来，它们就是"production AI 的工程量是 demo 的十倍以上"的全部原因。供应商慢了 — 你要能切换，并且要能知道自己切换过。历史长了 — 你需要一套策略决定什么保留、什么压缩。用户重发 — 你的每个操作都得幂等，或者重放安全。输出错了 — 你得知道是哪个模型、哪个 prompt、哪份上下文产生的，并且要能只回滚导致回归的那次变更，而不是把无关的工作一起退回去。

这部分工作不会出现在 launch tweet 里。但它是"你是产品团队还是 demo 团队"的分水岭。

我独立做这种东西的两年里，最强的体会是：纪律比模型重要。你上季度选的前沿模型，不会是你最终上线用的那个；你这阵子折腾的检索技巧，一年后会显得过时。但你对幂等、重放安全、可观测、回滚路径的依赖 — 这些不会过时。它们是让系统活到"我们终于能搞清楚什么值得做"那一天的方式。

一个不为这部分工作预算时间的 AI 创业公司，做的不是产品，是带了一个支付表单的 demo。

联系我