17 · Cloudflare Workers AI 是否有价格优势

1neuron 怎么折算成钱

计价单位是 neuron（衡量不同模型的 GPU 算力），$0.011 / 1,000 neurons。
免费额度 10,000 neurons/天（UTC 0 点重置），超出按量计费（需 Workers Paid $5/月）。
每个模型有自己的 token→neuron 换算，所以不同模型的实际 $/1M token 差异很大（见下表）。

来源：developers.cloudflare.com/workers-ai/platform/pricing（2026-06）。

2CF Workers AI 各模型实际单价（$/1M token）

模型	输入 $/1M	输出 $/1M	观察
Llama 3.2-1B	$0.027	$0.201	小模型输入极便宜
Llama 3.2-3B	$0.051	$0.335	小模型档
Mistral 7B	$0.110	$0.190	输出端较均衡
Llama 3.1 / 3.3 70B	$0.293	$2.253	输入便宜，输出偏贵
Gemma 3 (12B)	$0.345	$0.556	中档
DeepSeek R1 (32B distill)	$0.497	$4.881	输出很贵

来源：developers.cloudflare.com/workers-ai/platform/pricing（2026-06）。

3跨厂商 $/1M 对比（同类开源模型）

Llama 3.3 70B Instruct

厂商	输入 $/1M	输出 $/1M	结论
DeepInfra	$0.23	$0.40	总价最低
Cloudflare Workers AI	$0.293	$2.253	输入有优势、输出贵
Groq	$0.59	$0.79	快（~10×），输出比 CF 便宜
Together AI	$1.04	$1.04	平价计费

小模型 / 推理 / Gemini Flash（对照）

场景	最便宜选择	价格	CF 是否有
Llama 3.1 8B（小模型）	Groq	$0.05 / $0.08	CF 主推 1B/3B/70B，无 8B
推理（DeepSeek V3.2）	OpenRouter 透传	$0.14 / $0.28	CF 缺旗舰推理模型
Gemini 2.5 Flash-Lite	OpenRouter / Google	$0.10 / $0.40	CF 不托管 Gemini

来源：developers.cloudflare.com、cloudzero.com/blog/groq-pricing、tokenmix.ai/blog/llama-3-3-70b、openrouter.ai（2026-06）。价格随厂商调整，接入前复核。

⚠️ 读表关键

纯看 token 单价，Llama 70B 这类输出重的活，DeepInfra/Groq 更便宜（CF 输出 $2.253 是 Groq 的 ~2.8×）；CF 在小模型、输入重的场景才有单价优势。所以 CF 的核心价值不在"最低单价"。

4何时用 Cloudflare Workers AI（它最划算的场景）

🆓低量 / 免费层覆盖

每天 1 万 neurons 免费、无需信用卡。原型、内部工具、免费档的推理量基本被免费层吃掉，边际成本 0。

📤零 egress + 生态捆绑

Workers AI ↔ R2/D1/KV/Workers 之间零出口流量费。数据留在 CF 内闭环（抽取→R2 存→下游推理）时，省掉 $0.09/GB egress，整体更便宜。

⚡边缘低延迟

330+ 边缘节点、毫秒级冷启动。面向终端用户的实时推理（聊天、搜索建议、个性化）延迟优势明显。

🔡小模型 / 输入重任务

Llama 1B/3B 输入 $0.027–$0.051 很便宜；输入远多于输出的任务（分类、抽取、嵌入）成本占优。

5何时别用 Cloudflare Workers AI

📝输出重任务

长文生成、代码、长总结——CF 输出端贵（70B $2.253/M），改用 DeepInfra/Groq/DeepSeek。

🏎️要极致速度

Groq 对 70B 约 500 tok/s，远快于 CF；实时语音/低延迟 API 优先 Groq。

🧠要旗舰推理模型

CF 不提供顶级推理模型（DeepSeek R1 满血/o 系），改走 OpenRouter。

🎛️要多模型/路由

CF 模型相对少（聚焦 Llama/Mistral/Phi/Qwen）；要 400+ 模型与回退，走 OpenRouter。

⚠️ egress 反噬

零 egress 的前提是数据留在 CF 网络内。若推理结果大量流向外部用户/系统，$0.09/GB egress 会抵消单价优势——这时捆绑优势消失。

6诚实结论

🧭 一句话

Cloudflare Workers AI 的优势不在"最低 token 单价"，而在"免费层 + 零 egress + 边缘延迟 + 与我们网关/存储同栈"。 在我们的架构里（见 09），它的最佳定位是：免费档与低量推理的默认承载 + 数据闭环内的输入重/小模型任务；而生产级输出重、要速度、要推理、要多模型的活，交给 DeepInfra/Groq/DeepSeek/OpenRouter。和 16 的分层路由配合，各取所长。