01 · 免费/低价 Token 资源全景（Tier 1 合法层）

0速读结论

合法免费供给足够撑起一个"个人/小团队自用 + 低量演示"的网关，但撑不起"对外大规模售卖"。把它们叠加，单日大致能拿到：Gemini Flash-Lite 千级请求 + Groq 1.4 万请求 + Cerebras 百万 token + Cloudflare 1 万 neurons + OpenRouter 免费模型 50~1000 请求。够开发、够 demo、够低频内部工具；一旦要稳定对付费用户 SLA，就必须叠加付费批发（见 03 供给策略与 06 商业模式）。

~14,400

Groq Llama 3.1 8B 免费 RPD

console.groq.com/docs/rate-limits

1,000,000

Cerebras 免费 tokens/天

inference-docs.cerebras.ai

10,000

Cloudflare Workers AI neurons/天

developers.cloudflare.com

50→1,000

OpenRouter 免费模型请求/天（充值$10后）

openrouter.ai/docs

A第一梯队：永久（长期）免费层

这些是"长期开放、零成本、注册即用"的官方免费层。它们是网关供给侧最稳的一块，但单账号配额都不大，且多数按 Google Cloud 项目 / 组织 / 账号计——靠多开 key 不增配额。

供应商	代表模型	免费限额（2026-06）	需信用卡/验证	来源
OpenRouter 聚合入口	带 `:free` 后缀模型 24+：Llama 3.3 70B、Hermes 3、DeepSeek V4 Flash、Gemma 4 等	全部免费模型合计 20 RPM；50 请求/天（历史累计充值 <$10）；1,000 请求/天（累计充值 ≥$10，余额降回后仍保留）	否（免费层）	openrouter.ai/docs
Google AI Studio (Gemini) 数字会漂移	Gemini 2.5 Pro / Flash / Flash-Lite、Gemini 3.x Flash、Gemma 3（27B/12B/4B/1B）	Flash-Lite ≈ 15 RPM / 1,000 RPD / 250K TPM；Flash ≈ 10 RPM / 250 RPD；Pro ≈ 5 RPM / 100 RPD。按 GCP 项目计配额，同项目多 key 共享；RPD 太平洋时间 0 点重置	Google 账号即可	ai.google.dev / 第三方追踪
Groq Cloud 极速 LPU	Llama 3.3 70B、Llama 3.1 8B、Llama 4 Scout、Qwen 3 32B 等 17+	8B Instant：30 RPM / 14,400 RPD / 6K TPM / 500K TPD；70B Versatile：30 RPM / 1,000 RPD / 12K TPM / 100K TPD（组织级，先到先限）	否	console.groq.com
Cerebras 口径冲突	gpt-oss-120b、zai-glm-4.7、Llama 3.1 8B	官方 Free Trial 表：5 RPM / 30K TPM / 1,000K TPD；社区清单记 30 RPM / 60K TPM / 14,400 RPD（两者冲突，以官方表为准）。日额按 token 算，长 prompt 很费	否	inference-docs.cerebras.ai
Cloudflare Workers AI 边缘原生	Llama 系、Mistral、Qwen、bge embeddings、Whisper、SD 等 40~50	10,000 neurons/天（UTC 0 点重置）；neuron = 跨模型统一算力单位，无固定"次数"换算	Cloudflare 账号	developers.cloudflare.com
Mistral La Plateforme	开放权重 + 部分专有模型；Codestral（代码）单独端点	免费 Experiment：≈ 1 req/s / 500K TPM / 1,000,000,000 tokens/月；Codestral：30 RPM / 2,000 RPD。需同意数据用于训练	手机验证	mistral.ai/pricing
NVIDIA NIM	91+ 免费端点（开源模型为主）	≈ 40 RPM + 开发者免费信用	手机验证	build.nvidia.com
GitHub Models 额度极紧	45+：GPT-4o、o3、DeepSeek-R1、Llama 4 Maverick 等前沿模型	按 GitHub 订阅档（Free/Pro/Pro+/Business/Enterprise）分级，输入/输出 token 与速率非常严格，仅适合试验	GitHub 账号	github.com/marketplace/models
Cohere Trial 口径冲突	Command-A 系、Aya 等 11 模型	≈ 20 RPM / 1,000 请求/月（跨模型共享；另有来源称 100 RPM，冲突）	否	docs.cohere.com
SambaNova Cloud	Llama 3.3 70B、Llama 3.1 405B、Qwen 2.5 72B 等	持续免费层 + 初始 $5 信用；RPM ≈ 10（405B）~30（8B）	否	cloud.sambanova.ai

注：限额数字为 2026-06 抓取，厂商调整频繁；正式部署前务必逐项复核官方页面。Gemini 与 Cerebras/Cohere 存在版本/口径漂移，已标注。

B第二梯队：一次性试用额度（充值/赠金）

这些是注册赠送的一次性信用，用完即止，不可持续，但适合冷启动期压测与功能验证。把它们当"试驾券"，不要写进供给侧长期规划。

供应商	赠送额度	模型	备注
Baseten	$30	任意支持模型	额度最高的试用之一
NLP Cloud	$15	各开源模型	需手机验证
AI21 / Upstage	各 $10 / 3 个月	Jamba / Solar	有时限
SambaNova	$5	见上表	叠加持续免费层
Modal	$5/月起，付费后 $30/月	任意	Serverless GPU
Fireworks / Nebius / Hyperbolic / Inference.net	$1 起	各开源模型	小额试用
Alibaba Model Studio	每模型 100 万 tokens	Qwen 系	额度按模型分配
Scaleway Generative APIs	100 万 tokens	15+ 模型	欧洲节点
HuggingFace Inference	$0.10/月信用	<10GB 开源模型	额度极小

来源：cheahjs/free-llm-api-resources（2026-06 拉取）github.com/cheahjs/free-llm-api-resources

C第三梯队：Cloudflare 自有免费额度（基础设施侧）

Cloudflare 不只给推理（Workers AI），它的整套边缘平台都有可观的免费层，能把网关本身的运行成本压到接近 0。详见 05 基础设施选型，这里先给推理相关的额度概览：

⚡Workers AI

10,000 neurons/天免费；超出 $0.011/1,000 neurons（需 Workers Paid $5/月）。

🚪AI Gateway

核心功能全免费：缓存、限流、重试、分析面板；含 10 万条日志/月。无按调用网关费。

🔌Workers / Pages

Workers 10 万请求/天；Pages 静态资源带宽无限永久免费。

✅ 关键利好

Cloudflare AI Gateway 免费、Tunnel 完全免费无上限、R2 出口流量永久免费（zero egress）——这三点正好对应中转平台最贵的三块成本（网关代理、原站隐蔽、流量出口）。

D免费额度的五个"坑"（影响可行性判断）

①配额按项目/组织计，不按 key

Gemini 按 GCP 项目、Groq 按组织。同主体多开 key 不增配额。这直接否定了"一个账号刷很多 key 扩容"的幻想。

②日额常按 token 而非请求

Cerebras 1M tokens/天、Mistral 1B tokens/月。一个长上下文请求就能吃掉大块额度，"请求数"会误导容量估算。

③免费=数据可能用于训练

Gemini（非 UK/EEA 区）、Mistral 免费层默认数据进训练。对外卖给在意隐私的客户时这是硬伤，需明示。

④转售/共享 key 普遍违反 ToS

这些额度是给"自己使用"的。把基于免费层的访问权打包卖给第三方，多数厂商条款明令禁止（详见 08 合规）。合法做法是转售付费批发或 BYOK。

⑤限额随时变、说没就没

免费层是厂商营销预算，可单方面收紧或取消（历史上多家砍过）。不能作为对客户 SLA 的底层依赖。

E选型建议：合法供给侧怎么搭

🎯 推荐的"三层供给"

底座（付费批发，保 SLA）：直采 OpenAI/Anthropic/Google/DeepSeek 付费 API，或走 OpenRouter 透传 → 这是对外售卖的真正供给。
降本层（官方免费层，省成本）：Groq / Cerebras / Gemini Flash-Lite / Cloudflare Workers AI 用于自用、内部工具、低 SLA 的免费档。
缓存层（Cloudflare AI Gateway）：对高频重复请求做边缘缓存，直接消除重复计费。

把"免费层"定位成降本与免费档供给、把"付费批发"定位成对外售卖的承诺供给——这是唯一既能利用免费资源、又不踩 ToS 红线的组合。灰/黑产梯队（逆向、批量养号）为何不能进供给侧，见下一篇。