0接入原则
🎯 三条原则
- 先广后省再稳:先用"一个 key 通所有"快速跑通 → 再针对热点 workload 接直采压成本 → 再加冗余保可用。
- 每接一个都要有触发条件:不为"全"而接,只在某项成本/可用性/能力达到阈值时才加下一个渠道。
- 红线不变:只接合法来源(官方 API / 免费层 / BYOK / 付费批发),绝不接逆向或养号渠道(见 02)。
1阶段 1 · 跑通 MVP(第 1 周起)
目标:用最少接入让产品端到端跑起来,先验证 PMF,不追求最低成本。
| 顺序 | 接入 | 角色 | 为什么先接它 |
|---|---|---|---|
| ① | OpenRouter(一个 key) | 统一接入 + 比价 + 回退 | 一个 key 通 400+ 模型,零逐家签约成本,立刻能用(见 16) |
| ② | Cloudflare(Pages/Workers/D1/KV + AI Gateway) | 站点 + 网关逻辑 + 边缘缓存/可观测 | 免费层即可起步、AI Gateway 免费、零 egress(见 05/17) |
| ③ | 默认便宜强模型:DeepSeek V3.2 / Gemini 2.5 Flash-Lite(经 OpenRouter) | 生产主力模型 | 质量/价格比最高,先用它扛大部分请求 |
| ④ | 免费层:Groq / Gemini / Workers AI | 免费档 + 低 SLA 任务 + 兜底 | 免费引流档与开发期降本(见 01) |
✅ 阶段 1 产出
一条可用链路:Cloudflare 边缘 → OpenRouter(默认 DeepSeek/Gemini Flash-Lite)→ 免费层兜底,足以驱动 14 的首发产品(A1 解梦 / B1 GEO 审计)。接入数:2 个平台 + 几个模型,不必更多。
2阶段 2 · 压 COGS(验证到有真实用量后)
目标:在有真实流量、看清热点 workload 后,针对性地把成本打下来。
| 顺序 | 接入 | 压成本手段 | 触发条件 |
|---|---|---|---|
| ⑤ | 申请官方 startup credits(Cloudflare + 一家模型厂商) | 一次性燃料,覆盖验证期推理与基础设施 | 有合规主体 + 官网即可申请(见 15) |
| ⑥ | 对热点模型接直采:DeepSeek / DeepInfra / Groq | 绕过 OpenRouter 5.5% 费、拿更低单价/更快速度 | 某模型月调用量稳定、占成本大头 |
| ⑦ | 启用 Batch API(DeepSeek/Gemini 侧) | 可异步批量任务省 ~50% | 有可异步的批量生成(如 programmatic-SEO 批量页、批量词条) |
| ⑧ | 启用 Prompt + 响应缓存(OpenRouter/CF AI Gateway) | 高重复请求省 ~90% 输入 / 命中 0 成本 | 系统 prompt 长、请求重复度高 |
💡 关键
阶段 2 不是"接更多模型",而是"针对已知热点 workload 接最省的那条路"。直采只接成本占大头的 1~2 个模型即可,长尾仍走 OpenRouter。
3阶段 3 · 扩可用性与规模(有付费客户后)
4接入顺序总表(一眼看全)
阶段1 跑通 ① OpenRouter(一key通所有) ② Cloudflare(站点+网关+AIGateway)
(第1周) ③ 默认 DeepSeek V3.2 / Gemini Flash-Lite ④ 免费层 Groq/Gemini/CF AI 兜底
│ PMF 验证、出现真实热点 workload
▼
阶段2 压COGS ⑤ 官方 credits(CF+一家模型厂商) ⑥ 热点模型直采(DeepSeek/DeepInfra/Groq)
(有用量后) ⑦ Batch 异步省50% ⑧ Prompt/响应缓存省~90%输入
│ 有付费客户、需保 SLA
▼
阶段3 扩 ⑨ 付费批发兜底(OpenAI/Anthropic/Google) ⑩ 多渠道权重路由+回退
(规模化) ⑪ 自托管网关(New API/LiteLLM+Tunnel) ⑫ 区域原站(曼谷/新加坡)
红线:全程只接合法来源;不接逆向/养号;免费层与补贴只压自己 COGS,不转售。
5何时加下一个(决策依据)
| 信号 | 动作 |
|---|---|
| 某模型月成本占比 > 30% | 对它接直采(⑥),或上 Batch/缓存(⑦⑧) |
| 免费层频繁 429 影响免费档体验 | 把该档默认模型降级或加一个免费 provider 轮换 |
| 出现付费客户 / 要写 SLA | 接付费批发兜底(⑨)+ 多渠道回退(⑩) |
| 用量记账/治理需求变强 | 上自托管网关(⑪) |
| 东南亚用户延迟敏感 | 区域原站 + Tunnel(⑫) |
| 验证期算力吃紧 | 申请官方 credits(⑤) |
6避坑清单
🚫别在阶段 1 接十几个渠道
过度工程。OpenRouter + Cloudflare + 两三个模型足以跑通,渠道按触发条件再加。
🚫别把免费层/补贴当对外供给
它们用于压自己产品的 COGS;对外承诺必须建在付费批发/BYOK 上(见 03)。
🚫别让兜底指向不稳定源
回退应指向"另一个付费渠道/更小稳定模型",不是逆向接口。
✅ 一句话
先用 OpenRouter + Cloudflare 两件套 + DeepSeek/Gemini Flash-Lite 跑通;有用量后对热点直采 + Batch + 缓存 + 申请补贴压成本;有付费客户后加付费批发兜底 + 多渠道路由 + 自托管网关。 每一步都由真实信号触发,不提前堆叠。