17 · 运营落地 · Cloudflare AI 价格

Cloudflare Workers AI 有价格优势吗?

直接回答:有,但是"有条件的"。 它的真优势是免费层(每天 1 万 neurons)+ 零 egress + 边缘低延迟 + 与基础设施捆绑,以及小模型/输入端单价;但在输出端、速度、推理模型、模型种类上常不是最便宜或最强。本篇用跨厂商 $/1M 对比表讲清"何时用 CF、何时别用"。

🆓 1 万 neurons/天免费 📤 零 egress ⚠️ 输出端贵于 Groq ~2.8×

1neuron 怎么折算成钱

  • 计价单位是 neuron(衡量不同模型的 GPU 算力),$0.011 / 1,000 neurons
  • 免费额度 10,000 neurons/天(UTC 0 点重置),超出按量计费(需 Workers Paid $5/月)。
  • 每个模型有自己的 token→neuron 换算,所以不同模型的实际 $/1M token 差异很大(见下表)。

来源:developers.cloudflare.com/workers-ai/platform/pricing(2026-06)。

2CF Workers AI 各模型实际单价($/1M token)

模型输入 $/1M输出 $/1M观察
Llama 3.2-1B$0.027$0.201小模型输入极便宜
Llama 3.2-3B$0.051$0.335小模型档
Mistral 7B$0.110$0.190输出端较均衡
Llama 3.1 / 3.3 70B$0.293$2.253输入便宜,输出偏贵
Gemma 3 (12B)$0.345$0.556中档
DeepSeek R1 (32B distill)$0.497$4.881输出很贵

来源:developers.cloudflare.com/workers-ai/platform/pricing(2026-06)。

3跨厂商 $/1M 对比(同类开源模型)

Llama 3.3 70B Instruct

厂商输入 $/1M输出 $/1M结论
DeepInfra$0.23$0.40总价最低
Cloudflare Workers AI$0.293$2.253输入有优势、输出贵
Groq$0.59$0.79快(~10×),输出比 CF 便宜
Together AI$1.04$1.04平价计费

小模型 / 推理 / Gemini Flash(对照)

场景最便宜选择价格CF 是否有
Llama 3.1 8B(小模型)Groq$0.05 / $0.08CF 主推 1B/3B/70B,无 8B
推理(DeepSeek V3.2)OpenRouter 透传$0.14 / $0.28CF 缺旗舰推理模型
Gemini 2.5 Flash-LiteOpenRouter / Google$0.10 / $0.40CF 不托管 Gemini

来源:developers.cloudflare.com、cloudzero.com/blog/groq-pricing、tokenmix.ai/blog/llama-3-3-70b、openrouter.ai(2026-06)。价格随厂商调整,接入前复核。

⚠️ 读表关键

纯看 token 单价,Llama 70B 这类输出重的活,DeepInfra/Groq 更便宜(CF 输出 $2.253 是 Groq 的 ~2.8×);CF 在小模型、输入重的场景才有单价优势。所以 CF 的核心价值不在"最低单价"。

4何时用 Cloudflare Workers AI(它最划算的场景)

🆓低量 / 免费层覆盖

每天 1 万 neurons 免费、无需信用卡。原型、内部工具、免费档的推理量基本被免费层吃掉,边际成本 0

📤零 egress + 生态捆绑

Workers AI ↔ R2/D1/KV/Workers 之间零出口流量费。数据留在 CF 内闭环(抽取→R2 存→下游推理)时,省掉 $0.09/GB egress,整体更便宜。

边缘低延迟

330+ 边缘节点、毫秒级冷启动。面向终端用户的实时推理(聊天、搜索建议、个性化)延迟优势明显。

🔡小模型 / 输入重任务

Llama 1B/3B 输入 $0.027–$0.051 很便宜;输入远多于输出的任务(分类、抽取、嵌入)成本占优。

5何时别用 Cloudflare Workers AI

📝输出重任务

长文生成、代码、长总结——CF 输出端贵(70B $2.253/M),改用 DeepInfra/Groq/DeepSeek。

🏎️要极致速度

Groq 对 70B 约 500 tok/s,远快于 CF;实时语音/低延迟 API 优先 Groq。

🧠要旗舰推理模型

CF 不提供顶级推理模型(DeepSeek R1 满血/o 系),改走 OpenRouter。

🎛️要多模型/路由

CF 模型相对少(聚焦 Llama/Mistral/Phi/Qwen);要 400+ 模型与回退,走 OpenRouter。

⚠️ egress 反噬

零 egress 的前提是数据留在 CF 网络内。若推理结果大量流向外部用户/系统,$0.09/GB egress 会抵消单价优势——这时捆绑优势消失。

6诚实结论

🧭 一句话

Cloudflare Workers AI 的优势不在"最低 token 单价",而在"免费层 + 零 egress + 边缘延迟 + 与我们网关/存储同栈"。 在我们的架构里(见 09),它的最佳定位是:免费档与低量推理的默认承载 + 数据闭环内的输入重/小模型任务;而生产级输出重、要速度、要推理、要多模型的活,交给 DeepInfra/Groq/DeepSeek/OpenRouter。和 16 的分层路由配合,各取所长。