模型价格总览(Model Pricing)

AI Gateway 帮你一个接口、一套账单调用市面上几乎所有主流大模型(Claude、GPT、Gemini、通义千问、DeepSeek、智谱、Kimi、豆包……),无需逐个去各家平台注册、对接、充值。下表是各模型的官方列表价,按「国内区(人民币)/ 海外区(美元)」两大币种分区,每个厂商单独成表,方便你对照选型。


三分钟读懂怎么收费

计费维度说明

维度说明
输入用户请求中的 prompt token 单价
输出模型生成内容的 token 单价
缓存写入首次将 prompt 写入上下文缓存的单价
缓存写入·5m / 1hAnthropic 缓存的不同写入价格
缓存命中后续请求命中缓存时复用 prompt 的折扣价

大模型不是按"次"收费,而是按处理的文字量收费,计量单位叫 token

💡 怎么估算费用? 举例:用某模型问答,输入 1000 字、输出 2000 字 ≈ 输入 1000 token + 输出 2000 token。若输入价 2 元/百万、输出价 8 元/百万,则这次约花费 `1000÷1,000,000×2 + 2000÷1,000,000×8 = 0.018 元`。


缓存(Cache)是什么?为什么能省钱?

如果你反复发送相同的开头内容(比如每次都带同一段长长的系统提示词、同一份知识库文档),模型可以把这段内容"记住",下次直接复用,不必重新计算——这就是缓存。命中缓存的部分,价格远低于正常输入价,能大幅省钱。

缓存分两种:

缓存类型通俗理解收费特点
显式缓存(手动)你主动告诉模型"把这段存起来"。像租了个储物柜:存进去要付一次写入/创建费(略高于输入价),之后每次取用付很低的命中费,长期占用还可能有存储费写入费 + 命中费(+ 存储费)
隐式缓存(自动)系统自动识别重复前缀帮你缓存,你什么都不用做。像商店自动给熟客打折:没有写入费,命中时直接享受低价。仅命中费,无写入费

⚠️ 重点:不是每家都两种都支持! 这直接决定了价格表里你能看到哪些缓存列:

厂商显式缓存隐式缓存说明
阿里云 · 通义千问 Qwen✅ 支持✅ 支持两种都有,灵活度最高
OpenAI · GPT❌ 不支持✅ 支持只有自动隐式缓存,无需手动操作
Anthropic · Claude✅ 支持❌ 不支持只能手动显式缓存,写入分 5 分钟 / 1 小时两档
Google · Gemini✅ 支持❌ 不支持显式缓存,另收每小时存储费
DeepSeek部分部分v3.2 两种都支持;r1 / v3.1 仅隐式;v4 系列暂无
智谱 · GLM部分✅ 支持GLM-5.1 两种都支持;其余仅隐式
月之暗面 · Kimi✅ 支持✅ 支持两种都有
MiniMax❌ 不支持✅ 支持仅隐式
字节 · 豆包 Doubao✅ 支持✅ 支持显式另收存储费;隐式在批量模式下生效

看表时记住:**有"显式·写入/创建"列 = 支持显式缓存;有"隐式·命中"列 = 支持隐式缓存;标 `—` 或某列缺失 = 该模型不支持这种缓存。**


国内区(人民币 · 元 / 百万 tokens)

阿里云 · 通义千问 Qwen 系列

> 定位:国产全能选手,覆盖通用对话、编程、视觉、语音、多模态,上下文最长可到 100 万 token。显式 + 隐式缓存都支持。

模型上下文档位输入价输出价显式·创建显式·命中隐式·命中
qwen3.6-max-preview(最强)0–128K95411.250.9
128K–256K159018.751.5
qwen3.6-plus(旗舰通用)0–256K2122.50.2
256K–1M848100.8
qwen3.6-flash(高速低价)0–256K1.27.21.50.12
256K–1M4.828.860.48
qwen3.5-plus0–128K0.84.810.080.16
128K–256K2122.50.20.4
256K–1M42450.40.8
qwen3.5-flash0–128K0.220.250.02
128K–256K0.8810.08
256K–1M1.2121.50.12
qwen3-max0–32K2.5103.1250.250.5
32K–128K41650.40.8
128K–256K7288.750.71.4
qwen3-coder-plus(编程专用)0–32K41650.40.8
32K–128K6247.50.61.2
128K–256K104012.512
256K–1M202002524

DeepSeek 深度求索系列

> 定位:以超高性价比和强推理能力著称,适合预算敏感但要效果的场景。缓存支持因型号而异(见下表,缺列即不支持)。

模型输入价输出价显式·创建显式·命中隐式·命中
deepseek-v4-pro(旗舰)12242.4
deepseek-v4-flash(高速)120.2
deepseek-v3.2232.50.20.4
deepseek-r1(深度推理)4160.8

智谱 · GLM 系列

> 定位:国产综合能力均衡,GLM-5 系列为新一代旗舰。多数型号仅支持隐式缓存,GLM-5.1 额外支持显式缓存。

模型上下文档位输入价输出价显式·创建显式·命中隐式·命中
glm-5.1(旗舰)0–32K6247.50.61.2
32K–200K828100.81.6
glm-50–32K4180.8
32K–198K6221.2
glm-4.70–32K3140.6
32K–166K4160.8

月之暗面 · Kimi 系列

> 定位:擅长超长文本理解与处理。显式 + 隐式缓存都支持。

模型输入价输出价显式·创建显式·命中隐式·命中
kimi-k2.66.5278.1250.651.3
kimi-k2.542150.40.8

## 5️⃣ MiniMax 系列

> 定位:性价比高的通用模型。仅支持隐式缓存(系统自动打折,无需操作)。

模型输入价输出价隐式·命中
MiniMax-M2.72.18.40.42
MiniMax-M2.52.18.40.42

火山方舟

> 定位:国产高性价比全家桶,覆盖文本、视觉、视频、图片、3D。显式缓存(另收 0.017 元/百万token·小时 的存储费)和隐式缓存(批量模式下生效)都支持。 下表为"在线推理"标准价,豆包另提供批量推理约 5 折优惠。

模型上下文档位输入价输出价显式·命中
doubao-seed-2.0-pro(旗舰)[0, 32K]3.2160.64
(32K, 128K]4.8240.96
(128K, 256K]9.6481.92
doubao-seed-2.0-code(编程)[0, 32K]3.2160.64
(32K, 128K]4.8240.96
(128K, 256K]9.6481.92
doubao-seed-2.0-lite[0, 32K]0.63.60.12
(32K, 128K]0.95.40.18
(128K, 256K]1.810.80.36
doubao-seed-2.0-mini(最便宜)[0, 32K]0.220.04
(32K, 128K]0.440.08
(128K, 256K]0.880.16
doubao-seed-1.6[0, 32K]0.82 / 8 ※0.16
(32K, 128K]1.2160.16
(128K, 256K]2.4240.16
doubao-seed-1.6-flash(高速)[0, 32K]0.151.50.03
(32K, 128K]0.330.03
(128K, 256K]0.660.03
doubao-seed-1.6-vision(视觉)[0, 32K]0.880.16
(32K, 128K]1.2160.16
(128K, 256K]2.4240.16
doubao-1.5-pro-32k0.820.16
doubao-1.5-lite-32k0.30.60.06
联系我们
预约咨询
微信咨询
电话咨询
邮件咨询