1网关在系统中的位置
网关对外屏蔽后端复杂度(用户只拿一个 sk- 和一个 Base URL);对内把每个供给来源建成一个"渠道",统一编排、计费、记账。
2选型对比:New API / One API / LiteLLM
| 维度 | New API | One API | LiteLLM |
|---|---|---|---|
| 仓库 | QuantumNous/new-api | songquanpeng/one-api | BerriAI/litellm |
| Stars / 语言 | ~37k · Go | ~34.6k · Go+JS | ~49.3k · Python |
| License | AGPL-3.0 | MIT | MIT(enterprise/ 另授权) |
| 活跃度(2026-06) | 活跃 | 维护放缓 | 高度活跃 |
| 定位 | One API 增强分叉,面向个人+企业的集中分发网关,UI/计费完善 | 最早的中文系 key 分发系统,单文件+Docker,轻量 | 生产级 AI 网关 + Python SDK,100+ 供应商,成本/护栏/负载均衡内建 |
| 计费/倍率 | ✅ 内建倍率、额度、令牌、兑换码 | ✅ 内建倍率、额度 | ✅ 预算/速率/成本追踪(key/team 级) |
| 对外协议 | OpenAI/Claude/Gemini 兼容互转 | OpenAI 兼容 | OpenAI 兼容 + SDK |
| 适合谁 | 想要开箱即用的中文中转站 | 想要 MIT 宽松授权、极简 | 想要可编程、深度集成、英文生态 |
New API 是 AGPL-3.0:若以 SaaS 形式对外提供服务,AGPL 要求公开修改版源码。若不愿开源,选 One API(MIT) 或 LiteLLM(MIT 主体) 更安全,或购买相应商业授权。这点直接影响选型。
追求最快上线的中文中转站 → New API(注意 AGPL);追求宽松授权 + 可编程 + 长期可维护 → LiteLLM(作核心)+ 自建薄计费层,或 One API。两条路都成立,按授权诉求和团队语言栈定。
3渠道管理(对内屏蔽)
每个合法供给来源 = 一个"渠道(Channel)",配置其 Base URL、key、支持模型、倍率、权重、限额。回答源文档的核心问题——
是。架构正是"每个供给来源各自部署/各自持有凭证 → 在网关里登记为一个独立 Channel → 由网关统一编排"。但接入的应是合法来源:付费批发渠道、BYOK 渠道、官方免费层渠道。灰/黑产项目(逆向/养号)按本调研结论不接入。逐项目部署目标见 07。
| 渠道示例 | 类型 | 配置要点 |
|---|---|---|
| 渠道 A:OpenAI 直采 | 付费批发 | 真实付费 key,倍率按成本设,高权重保 SLA |
| 渠道 B:OpenRouter 透传 | 付费批发/聚合 | 一个 key 覆盖多模型,作主供给或回退 |
| 渠道 C:Groq 免费层 | 官方免费 | 仅挂免费档模型,低权重,触发 429 即降级 |
| 渠道 D:用户 BYOK | 用户自带 | 按用户隔离,仅收软件费,零库存 |
4模型映射与意图路由(对外统一)
用户只认模型名(如 gpt-4o、gpt-4o-mini、claude-3-haiku),网关把模型名映射到一个或多个渠道,并按意图分流:
- 通用对话/基础推理:映射到最便宜/最快的渠道(免费层或廉价批发),如 Gemini Flash-Lite / Groq。
- 高精编程/复杂推理:强制走高质量付费渠道(GPT-4o / Claude Sonnet 批发)。
- 联网检索:定义特殊模型名(如
gpt-4-search),路由到带检索能力的合法供给(如 Gemini grounding / 我们自建的 RAG+搜索渠道)。
实现上:New API/One API 在后台用"模型→渠道"映射表;LiteLLM 用 model_list + router 配置,支持基于标签、成本、延迟的路由策略。
5失败回退与负载均衡
首选渠道返回 429/5xx 时,网关在用户无感知下切到备用渠道。源文档说的"0.1s 无缝切换"即此机制——LiteLLM 的 fallbacks、New API 的渠道重试都原生支持。
同一模型挂多个同类渠道,按权重打散并发,平滑单渠道限额。免费层渠道权重设低、付费渠道权重设高,既省钱又保稳。
付费批发(高权重,保底)→ 免费层(低权重,省钱)→ 不要把"逆向接口"作为兜底。兜底应是"另一个付费渠道"或"降级到更小但稳定的模型",而非不稳定的逆向源。
6限流与倍率计费
为每个分发出去的 sk- 设 QPS/RPM 上限(如 20 RPM),防止个别用户打爆免费层渠道导致整体被厂商限流。源文档的"Shield Mode"即此。
为不同模型设倍率,折算成统一"额度单位"。如便宜模型 1x、GPT-4o 10x。用户面板按倍率消耗额度,便于跨模型统一定价与套餐。
三个网关都内建倍率/额度/兑换码/用量统计,足以支撑"充值额度 + 倍率消耗 + 用量看板"的商业计费闭环。定价策略见 06。
7Cloudflare AI Gateway 的互补定位
聚合网关(New/One/LiteLLM) 负责"渠道编排 + 用户/计费";Cloudflare AI Gateway 负责"边缘缓存 + 限流 + 重试 + 可观测"。两者叠加:CF AI Gateway 在最前端拦截高频重复请求直接返回缓存(消除重复计费)、做统一可观测,再把未命中流量转给我们的聚合网关。CF AI Gateway 核心功能免费。
典型链路:客户端 → CF AI Gateway(缓存/限流/日志)→ 我们的聚合网关(路由/计费)→ 各渠道后端。完整端到端蓝图见 09。