0速读结论
合法免费供给足够撑起一个"个人/小团队自用 + 低量演示"的网关,但撑不起"对外大规模售卖"。把它们叠加,单日大致能拿到:Gemini Flash-Lite 千级请求 + Groq 1.4 万请求 + Cerebras 百万 token + Cloudflare 1 万 neurons + OpenRouter 免费模型 50~1000 请求。够开发、够 demo、够低频内部工具;一旦要稳定对付费用户 SLA,就必须叠加付费批发(见 03 供给策略 与 06 商业模式)。
A第一梯队:永久(长期)免费层
这些是"长期开放、零成本、注册即用"的官方免费层。它们是网关供给侧最稳的一块,但单账号配额都不大,且多数按 Google Cloud 项目 / 组织 / 账号计——靠多开 key 不增配额。
| 供应商 | 代表模型 | 免费限额(2026-06) | 需信用卡/验证 | 来源 |
|---|---|---|---|---|
| OpenRouter 聚合入口 |
带 :free 后缀模型 24+:Llama 3.3 70B、Hermes 3、DeepSeek V4 Flash、Gemma 4 等 |
全部免费模型合计 20 RPM;50 请求/天(历史累计充值 <$10);1,000 请求/天(累计充值 ≥$10,余额降回后仍保留) | 否(免费层) | openrouter.ai/docs |
| Google AI Studio (Gemini) 数字会漂移 |
Gemini 2.5 Pro / Flash / Flash-Lite、Gemini 3.x Flash、Gemma 3(27B/12B/4B/1B) | Flash-Lite ≈ 15 RPM / 1,000 RPD / 250K TPM;Flash ≈ 10 RPM / 250 RPD;Pro ≈ 5 RPM / 100 RPD。按 GCP 项目计配额,同项目多 key 共享;RPD 太平洋时间 0 点重置 | Google 账号即可 | ai.google.dev / 第三方追踪 |
| Groq Cloud 极速 LPU |
Llama 3.3 70B、Llama 3.1 8B、Llama 4 Scout、Qwen 3 32B 等 17+ | 8B Instant:30 RPM / 14,400 RPD / 6K TPM / 500K TPD;70B Versatile:30 RPM / 1,000 RPD / 12K TPM / 100K TPD(组织级,先到先限) | 否 | console.groq.com |
| Cerebras 口径冲突 |
gpt-oss-120b、zai-glm-4.7、Llama 3.1 8B | 官方 Free Trial 表:5 RPM / 30K TPM / 1,000K TPD;社区清单记 30 RPM / 60K TPM / 14,400 RPD(两者冲突,以官方表为准)。日额按 token 算,长 prompt 很费 | 否 | inference-docs.cerebras.ai |
| Cloudflare Workers AI 边缘原生 |
Llama 系、Mistral、Qwen、bge embeddings、Whisper、SD 等 40~50 | 10,000 neurons/天(UTC 0 点重置);neuron = 跨模型统一算力单位,无固定"次数"换算 | Cloudflare 账号 | developers.cloudflare.com |
| Mistral La Plateforme | 开放权重 + 部分专有模型;Codestral(代码)单独端点 | 免费 Experiment:≈ 1 req/s / 500K TPM / 1,000,000,000 tokens/月;Codestral:30 RPM / 2,000 RPD。需同意数据用于训练 | 手机验证 | mistral.ai/pricing |
| NVIDIA NIM | 91+ 免费端点(开源模型为主) | ≈ 40 RPM + 开发者免费信用 | 手机验证 | build.nvidia.com |
| GitHub Models 额度极紧 |
45+:GPT-4o、o3、DeepSeek-R1、Llama 4 Maverick 等前沿模型 | 按 GitHub 订阅档(Free/Pro/Pro+/Business/Enterprise)分级,输入/输出 token 与速率非常严格,仅适合试验 | GitHub 账号 | github.com/marketplace/models |
| Cohere Trial 口径冲突 |
Command-A 系、Aya 等 11 模型 | ≈ 20 RPM / 1,000 请求/月(跨模型共享;另有来源称 100 RPM,冲突) | 否 | docs.cohere.com |
| SambaNova Cloud | Llama 3.3 70B、Llama 3.1 405B、Qwen 2.5 72B 等 | 持续免费层 + 初始 $5 信用;RPM ≈ 10(405B)~30(8B) | 否 | cloud.sambanova.ai |
注:限额数字为 2026-06 抓取,厂商调整频繁;正式部署前务必逐项复核官方页面。Gemini 与 Cerebras/Cohere 存在版本/口径漂移,已标注。
B第二梯队:一次性试用额度(充值/赠金)
这些是注册赠送的一次性信用,用完即止,不可持续,但适合冷启动期压测与功能验证。把它们当"试驾券",不要写进供给侧长期规划。
| 供应商 | 赠送额度 | 模型 | 备注 |
|---|---|---|---|
| Baseten | $30 | 任意支持模型 | 额度最高的试用之一 |
| NLP Cloud | $15 | 各开源模型 | 需手机验证 |
| AI21 / Upstage | 各 $10 / 3 个月 | Jamba / Solar | 有时限 |
| SambaNova | $5 | 见上表 | 叠加持续免费层 |
| Modal | $5/月起,付费后 $30/月 | 任意 | Serverless GPU |
| Fireworks / Nebius / Hyperbolic / Inference.net | $1 起 | 各开源模型 | 小额试用 |
| Alibaba Model Studio | 每模型 100 万 tokens | Qwen 系 | 额度按模型分配 |
| Scaleway Generative APIs | 100 万 tokens | 15+ 模型 | 欧洲节点 |
| HuggingFace Inference | $0.10/月信用 | <10GB 开源模型 | 额度极小 |
来源:cheahjs/free-llm-api-resources(2026-06 拉取)github.com/cheahjs/free-llm-api-resources
C第三梯队:Cloudflare 自有免费额度(基础设施侧)
Cloudflare 不只给推理(Workers AI),它的整套边缘平台都有可观的免费层,能把网关本身的运行成本压到接近 0。详见 05 基础设施选型,这里先给推理相关的额度概览:
10,000 neurons/天免费;超出 $0.011/1,000 neurons(需 Workers Paid $5/月)。
核心功能全免费:缓存、限流、重试、分析面板;含 10 万条日志/月。无按调用网关费。
Workers 10 万请求/天;Pages 静态资源带宽无限永久免费。
Cloudflare AI Gateway 免费、Tunnel 完全免费无上限、R2 出口流量永久免费(zero egress)——这三点正好对应中转平台最贵的三块成本(网关代理、原站隐蔽、流量出口)。
D免费额度的五个"坑"(影响可行性判断)
Gemini 按 GCP 项目、Groq 按组织。同主体多开 key 不增配额。这直接否定了"一个账号刷很多 key 扩容"的幻想。
Cerebras 1M tokens/天、Mistral 1B tokens/月。一个长上下文请求就能吃掉大块额度,"请求数"会误导容量估算。
Gemini(非 UK/EEA 区)、Mistral 免费层默认数据进训练。对外卖给在意隐私的客户时这是硬伤,需明示。
这些额度是给"自己使用"的。把基于免费层的访问权打包卖给第三方,多数厂商条款明令禁止(详见 08 合规)。合法做法是转售付费批发或 BYOK。
免费层是厂商营销预算,可单方面收紧或取消(历史上多家砍过)。不能作为对客户 SLA 的底层依赖。
E选型建议:合法供给侧怎么搭
底座(付费批发,保 SLA):直采 OpenAI/Anthropic/Google/DeepSeek 付费 API,或走 OpenRouter 透传 → 这是对外售卖的真正供给。
降本层(官方免费层,省成本):Groq / Cerebras / Gemini Flash-Lite / Cloudflare Workers AI 用于自用、内部工具、低 SLA 的免费档。
缓存层(Cloudflare AI Gateway):对高频重复请求做边缘缓存,直接消除重复计费。
把"免费层"定位成降本与免费档供给、把"付费批发"定位成对外售卖的承诺供给——这是唯一既能利用免费资源、又不踩 ToS 红线的组合。灰/黑产梯队(逆向、批量养号)为何不能进供给侧,见下一篇。