04 · 聚合网关技术架构 — AI Gateway 调研

1网关在系统中的位置

用户/客户端 (统一 sk- key, Base URL = api.yourdomain.com/v1) │ ▼ ┌──────────────────────────────────────────────┐ │ Cloudflare 边缘 (WAF / 缓存 / 限流 / AI Gateway) │ ← 见 05 └──────────────────────────────────────────────┘ │ ▼ ┌──────────────────────────────────────────────┐ │ 聚合网关 (New API / One API / LiteLLM) │ │ · 用户与 token 管理 · 渠道(Channel)编排 │ │ · 模型映射/意图路由 · 回退/负载均衡 │ │ · 倍率计费/用量记账 · 日志/审计 │ └──────────────────────────────────────────────┘ │ │ │ │ ▼ ▼ ▼ ▼ 付费批发 BYOK 用户 key 官方免费层 (灰/黑产: 不接入) OpenAI/... OpenAI/... Groq/Gemini/CF

网关对外屏蔽后端复杂度（用户只拿一个 sk- 和一个 Base URL）；对内把每个供给来源建成一个"渠道"，统一编排、计费、记账。

2选型对比：New API / One API / LiteLLM

维度	New API	One API	LiteLLM
仓库	QuantumNous/new-api	songquanpeng/one-api	BerriAI/litellm
Stars / 语言	~37k · Go	~34.6k · Go+JS	~49.3k · Python
License	AGPL-3.0	MIT	MIT（enterprise/ 另授权）
活跃度(2026-06)	活跃	维护放缓	高度活跃
定位	One API 增强分叉，面向个人+企业的集中分发网关，UI/计费完善	最早的中文系 key 分发系统，单文件+Docker，轻量	生产级 AI 网关 + Python SDK，100+ 供应商，成本/护栏/负载均衡内建
计费/倍率	✅ 内建倍率、额度、令牌、兑换码	✅ 内建倍率、额度	✅ 预算/速率/成本追踪（key/team 级）
对外协议	OpenAI/Claude/Gemini 兼容互转	OpenAI 兼容	OpenAI 兼容 + SDK
适合谁	想要开箱即用的中文中转站	想要 MIT 宽松授权、极简	想要可编程、深度集成、英文生态

⚠️ 授权红线（商业化必读）

New API 是 AGPL-3.0：若以 SaaS 形式对外提供服务，AGPL 要求公开修改版源码。若不愿开源，选 One API（MIT） 或 LiteLLM（MIT 主体） 更安全，或购买相应商业授权。这点直接影响选型。

🎯 推荐

追求最快上线的中文中转站 → New API（注意 AGPL）；追求宽松授权 + 可编程 + 长期可维护 → LiteLLM（作核心）+ 自建薄计费层，或 One API。两条路都成立，按授权诉求和团队语言栈定。

3渠道管理（对内屏蔽）

每个合法供给来源 = 一个"渠道(Channel)"，配置其 Base URL、key、支持模型、倍率、权重、限额。回答源文档的核心问题——

❓"是否每个开源项目都部署、再由总站接入？"

是。架构正是"每个供给来源各自部署/各自持有凭证 → 在网关里登记为一个独立 Channel → 由网关统一编排"。但接入的应是合法来源：付费批发渠道、BYOK 渠道、官方免费层渠道。灰/黑产项目（逆向/养号）按本调研结论不接入。逐项目部署目标见 07。

渠道示例	类型	配置要点
渠道 A：OpenAI 直采	付费批发	真实付费 key，倍率按成本设，高权重保 SLA
渠道 B：OpenRouter 透传	付费批发/聚合	一个 key 覆盖多模型，作主供给或回退
渠道 C：Groq 免费层	官方免费	仅挂免费档模型，低权重，触发 429 即降级
渠道 D：用户 BYOK	用户自带	按用户隔离，仅收软件费，零库存

4模型映射与意图路由（对外统一）

用户只认模型名（如 gpt-4o、gpt-4o-mini、claude-3-haiku），网关把模型名映射到一个或多个渠道，并按意图分流：

通用对话/基础推理：映射到最便宜/最快的渠道（免费层或廉价批发），如 Gemini Flash-Lite / Groq。
高精编程/复杂推理：强制走高质量付费渠道（GPT-4o / Claude Sonnet 批发）。
联网检索：定义特殊模型名（如 gpt-4-search），路由到带检索能力的合法供给（如 Gemini grounding / 我们自建的 RAG+搜索渠道）。

实现上：New API/One API 在后台用"模型→渠道"映射表；LiteLLM 用 model_list + router 配置，支持基于标签、成本、延迟的路由策略。

5失败回退与负载均衡

🔁自动回退 (Fallback)

首选渠道返回 429/5xx 时，网关在用户无感知下切到备用渠道。源文档说的"0.1s 无缝切换"即此机制——LiteLLM 的 fallbacks、New API 的渠道重试都原生支持。

⚖️权重轮询 (Load Balancing)

同一模型挂多个同类渠道，按权重打散并发，平滑单渠道限额。免费层渠道权重设低、付费渠道权重设高，既省钱又保稳。

🧠 路由优先级建议

付费批发（高权重，保底）→ 免费层（低权重，省钱）→ 不要把"逆向接口"作为兜底。兜底应是"另一个付费渠道"或"降级到更小但稳定的模型"，而非不稳定的逆向源。

6限流与倍率计费

🪣令牌桶限流（保护供给）

为每个分发出去的 sk- 设 QPS/RPM 上限（如 20 RPM），防止个别用户打爆免费层渠道导致整体被厂商限流。源文档的"Shield Mode"即此。

✖️倍率计费（统一计价）

为不同模型设倍率，折算成统一"额度单位"。如便宜模型 1x、GPT-4o 10x。用户面板按倍率消耗额度，便于跨模型统一定价与套餐。

三个网关都内建倍率/额度/兑换码/用量统计，足以支撑"充值额度 + 倍率消耗 + 用量看板"的商业计费闭环。定价策略见 06。

7Cloudflare AI Gateway 的互补定位

✅ 不是二选一，而是叠加

聚合网关（New/One/LiteLLM） 负责"渠道编排 + 用户/计费"；Cloudflare AI Gateway 负责"边缘缓存 + 限流 + 重试 + 可观测"。两者叠加：CF AI Gateway 在最前端拦截高频重复请求直接返回缓存（消除重复计费）、做统一可观测，再把未命中流量转给我们的聚合网关。CF AI Gateway 核心功能免费。

典型链路：客户端 → CF AI Gateway（缓存/限流/日志）→ 我们的聚合网关（路由/计费）→ 各渠道后端。完整端到端蓝图见 09。