01 · Tier 1 合法层 · 资源全景

免费 / 低价 Token 资源全景

这一篇只盘点厂商主动、公开、按官方条款赠送的免费额度与低价试用——它们稳定、可写进合同、可作为合法网关的首选供给。每一行限额都附 2026-06 的来源链接;数字有冲突的地方直接标注,不予抹平。

📅 2026-06-05 🟢 仅合法官方额度 🔬 核实基准 cheahjs/free-llm-api-resources ⚠️ 限额随时变动,部署前需复核

0速读结论

合法免费供给足够撑起一个"个人/小团队自用 + 低量演示"的网关,但撑不起"对外大规模售卖"。把它们叠加,单日大致能拿到:Gemini Flash-Lite 千级请求 + Groq 1.4 万请求 + Cerebras 百万 token + Cloudflare 1 万 neurons + OpenRouter 免费模型 50~1000 请求。够开发、够 demo、够低频内部工具;一旦要稳定对付费用户 SLA,就必须叠加付费批发(见 03 供给策略06 商业模式)。

~14,400
Groq Llama 3.1 8B 免费 RPD
console.groq.com/docs/rate-limits
1,000,000
Cerebras 免费 tokens/天
inference-docs.cerebras.ai
10,000
Cloudflare Workers AI neurons/天
developers.cloudflare.com
50→1,000
OpenRouter 免费模型 请求/天(充值$10后)
openrouter.ai/docs

A第一梯队:永久(长期)免费层

这些是"长期开放、零成本、注册即用"的官方免费层。它们是网关供给侧最稳的一块,但单账号配额都不大,且多数按 Google Cloud 项目 / 组织 / 账号计——靠多开 key 不增配额。

供应商代表模型免费限额(2026-06)需信用卡/验证来源
OpenRouter
聚合入口
:free 后缀模型 24+:Llama 3.3 70B、Hermes 3、DeepSeek V4 Flash、Gemma 4 等 全部免费模型合计 20 RPM50 请求/天(历史累计充值 <$10);1,000 请求/天(累计充值 ≥$10,余额降回后仍保留) 否(免费层) openrouter.ai/docs
Google AI Studio (Gemini)
数字会漂移
Gemini 2.5 Pro / Flash / Flash-Lite、Gemini 3.x Flash、Gemma 3(27B/12B/4B/1B) Flash-Lite ≈ 15 RPM / 1,000 RPD / 250K TPM;Flash ≈ 10 RPM / 250 RPD;Pro ≈ 5 RPM / 100 RPD按 GCP 项目计配额,同项目多 key 共享;RPD 太平洋时间 0 点重置 Google 账号即可 ai.google.dev / 第三方追踪
Groq Cloud
极速 LPU
Llama 3.3 70B、Llama 3.1 8B、Llama 4 Scout、Qwen 3 32B 等 17+ 8B Instant:30 RPM / 14,400 RPD / 6K TPM / 500K TPD;70B Versatile:30 RPM / 1,000 RPD / 12K TPM / 100K TPD(组织级,先到先限) console.groq.com
Cerebras
口径冲突
gpt-oss-120b、zai-glm-4.7、Llama 3.1 8B 官方 Free Trial 表:5 RPM / 30K TPM / 1,000K TPD;社区清单记 30 RPM / 60K TPM / 14,400 RPD两者冲突,以官方表为准)。日额按 token 算,长 prompt 很费 inference-docs.cerebras.ai
Cloudflare Workers AI
边缘原生
Llama 系、Mistral、Qwen、bge embeddings、Whisper、SD 等 40~50 10,000 neurons/天(UTC 0 点重置);neuron = 跨模型统一算力单位,无固定"次数"换算 Cloudflare 账号 developers.cloudflare.com
Mistral La Plateforme 开放权重 + 部分专有模型;Codestral(代码)单独端点 免费 Experiment:≈ 1 req/s / 500K TPM / 1,000,000,000 tokens/月;Codestral:30 RPM / 2,000 RPD需同意数据用于训练 手机验证 mistral.ai/pricing
NVIDIA NIM 91+ 免费端点(开源模型为主) 40 RPM + 开发者免费信用 手机验证 build.nvidia.com
GitHub Models
额度极紧
45+:GPT-4o、o3、DeepSeek-R1、Llama 4 Maverick 等前沿模型 按 GitHub 订阅档(Free/Pro/Pro+/Business/Enterprise)分级,输入/输出 token 与速率非常严格,仅适合试验 GitHub 账号 github.com/marketplace/models
Cohere Trial
口径冲突
Command-A 系、Aya 等 11 模型 20 RPM / 1,000 请求/月(跨模型共享;另有来源称 100 RPM,冲突 docs.cohere.com
SambaNova Cloud Llama 3.3 70B、Llama 3.1 405B、Qwen 2.5 72B 等 持续免费层 + 初始 $5 信用;RPM ≈ 10(405B)~30(8B) cloud.sambanova.ai

注:限额数字为 2026-06 抓取,厂商调整频繁;正式部署前务必逐项复核官方页面。Gemini 与 Cerebras/Cohere 存在版本/口径漂移,已标注。

B第二梯队:一次性试用额度(充值/赠金)

这些是注册赠送的一次性信用,用完即止,不可持续,但适合冷启动期压测与功能验证。把它们当"试驾券",不要写进供给侧长期规划。

供应商赠送额度模型备注
Baseten$30任意支持模型额度最高的试用之一
NLP Cloud$15各开源模型需手机验证
AI21 / Upstage各 $10 / 3 个月Jamba / Solar有时限
SambaNova$5见上表叠加持续免费层
Modal$5/月起,付费后 $30/月任意Serverless GPU
Fireworks / Nebius / Hyperbolic / Inference.net$1 起各开源模型小额试用
Alibaba Model Studio每模型 100 万 tokensQwen 系额度按模型分配
Scaleway Generative APIs100 万 tokens15+ 模型欧洲节点
HuggingFace Inference$0.10/月信用<10GB 开源模型额度极小

来源:cheahjs/free-llm-api-resources(2026-06 拉取)github.com/cheahjs/free-llm-api-resources

C第三梯队:Cloudflare 自有免费额度(基础设施侧)

Cloudflare 不只给推理(Workers AI),它的整套边缘平台都有可观的免费层,能把网关本身的运行成本压到接近 0。详见 05 基础设施选型,这里先给推理相关的额度概览:

Workers AI

10,000 neurons/天免费;超出 $0.011/1,000 neurons(需 Workers Paid $5/月)。

🚪AI Gateway

核心功能全免费:缓存、限流、重试、分析面板;含 10 万条日志/月。无按调用网关费。

🔌Workers / Pages

Workers 10 万请求/天;Pages 静态资源带宽无限永久免费。

✅ 关键利好

Cloudflare AI Gateway 免费Tunnel 完全免费无上限R2 出口流量永久免费(zero egress)——这三点正好对应中转平台最贵的三块成本(网关代理、原站隐蔽、流量出口)。

D免费额度的五个"坑"(影响可行性判断)

配额按项目/组织计,不按 key

Gemini 按 GCP 项目、Groq 按组织。同主体多开 key 不增配额。这直接否定了"一个账号刷很多 key 扩容"的幻想。

日额常按 token 而非请求

Cerebras 1M tokens/天、Mistral 1B tokens/月。一个长上下文请求就能吃掉大块额度,"请求数"会误导容量估算。

免费=数据可能用于训练

Gemini(非 UK/EEA 区)、Mistral 免费层默认数据进训练。对外卖给在意隐私的客户时这是硬伤,需明示。

转售/共享 key 普遍违反 ToS

这些额度是给"自己使用"的。把基于免费层的访问权打包卖给第三方,多数厂商条款明令禁止(详见 08 合规)。合法做法是转售付费批发或 BYOK。

限额随时变、说没就没

免费层是厂商营销预算,可单方面收紧或取消(历史上多家砍过)。不能作为对客户 SLA 的底层依赖。

E选型建议:合法供给侧怎么搭

🎯 推荐的"三层供给"

底座(付费批发,保 SLA):直采 OpenAI/Anthropic/Google/DeepSeek 付费 API,或走 OpenRouter 透传 → 这是对外售卖的真正供给。
降本层(官方免费层,省成本):Groq / Cerebras / Gemini Flash-Lite / Cloudflare Workers AI 用于自用、内部工具、低 SLA 的免费档
缓存层(Cloudflare AI Gateway):对高频重复请求做边缘缓存,直接消除重复计费。

把"免费层"定位成降本与免费档供给、把"付费批发"定位成对外售卖的承诺供给——这是唯一既能利用免费资源、又不踩 ToS 红线的组合。灰/黑产梯队(逆向、批量养号)为何不能进供给侧,见下一篇。