模型价格总览(Model Pricing)
AI Gateway 帮你一个接口、一套账单调用市面上几乎所有主流大模型(Claude、GPT、Gemini、通义千问、DeepSeek、智谱、Kimi、豆包……),无需逐个去各家平台注册、对接、充值。下表是各模型的官方列表价,按「国内区(人民币)/ 海外区(美元)」两大币种分区,每个厂商单独成表,方便你对照选型。
三分钟读懂怎么收费
计费维度说明
| 维度 | 说明 |
|---|---|
| 输入 | 用户请求中的 prompt token 单价 |
| 输出 | 模型生成内容的 token 单价 |
| 缓存写入 | 首次将 prompt 写入上下文缓存的单价 |
| 缓存写入·5m / 1h | Anthropic 缓存的不同写入价格 |
| 缓存命中 | 后续请求命中缓存时复用 prompt 的折扣价 |
大模型不是按"次"收费,而是按处理的文字量收费,计量单位叫 token。
💡 怎么估算费用? 举例:用某模型问答,输入 1000 字、输出 2000 字 ≈ 输入 1000 token + 输出 2000 token。若输入价 2 元/百万、输出价 8 元/百万,则这次约花费 `1000÷1,000,000×2 + 2000÷1,000,000×8 = 0.018 元`。
缓存(Cache)是什么?为什么能省钱?
如果你反复发送相同的开头内容(比如每次都带同一段长长的系统提示词、同一份知识库文档),模型可以把这段内容"记住",下次直接复用,不必重新计算——这就是缓存。命中缓存的部分,价格远低于正常输入价,能大幅省钱。
缓存分两种:
| 缓存类型 | 通俗理解 | 收费特点 |
|---|---|---|
| 显式缓存(手动) | 你主动告诉模型"把这段存起来"。像租了个储物柜:存进去要付一次写入/创建费(略高于输入价),之后每次取用付很低的命中费,长期占用还可能有存储费。 | 写入费 + 命中费(+ 存储费) |
| 隐式缓存(自动) | 系统自动识别重复前缀帮你缓存,你什么都不用做。像商店自动给熟客打折:没有写入费,命中时直接享受低价。 | 仅命中费,无写入费 |
⚠️ 重点:不是每家都两种都支持! 这直接决定了价格表里你能看到哪些缓存列:
| 厂商 | 显式缓存 | 隐式缓存 | 说明 |
|---|---|---|---|
| 阿里云 · 通义千问 Qwen | ✅ 支持 | ✅ 支持 | 两种都有,灵活度最高 |
| OpenAI · GPT | ❌ 不支持 | ✅ 支持 | 只有自动隐式缓存,无需手动操作 |
| Anthropic · Claude | ✅ 支持 | ❌ 不支持 | 只能手动显式缓存,写入分 5 分钟 / 1 小时两档 |
| Google · Gemini | ✅ 支持 | ❌ 不支持 | 显式缓存,另收每小时存储费 |
| DeepSeek | 部分 | 部分 | v3.2 两种都支持;r1 / v3.1 仅隐式;v4 系列暂无 |
| 智谱 · GLM | 部分 | ✅ 支持 | GLM-5.1 两种都支持;其余仅隐式 |
| 月之暗面 · Kimi | ✅ 支持 | ✅ 支持 | 两种都有 |
| MiniMax | ❌ 不支持 | ✅ 支持 | 仅隐式 |
| 字节 · 豆包 Doubao | ✅ 支持 | ✅ 支持 | 显式另收存储费;隐式在批量模式下生效 |
看表时记住:**有"显式·写入/创建"列 = 支持显式缓存;有"隐式·命中"列 = 支持隐式缓存;标 `—` 或某列缺失 = 该模型不支持这种缓存。**
国内区(人民币 · 元 / 百万 tokens)
阿里云 · 通义千问 Qwen 系列
> 定位:国产全能选手,覆盖通用对话、编程、视觉、语音、多模态,上下文最长可到 100 万 token。显式 + 隐式缓存都支持。
| 模型 | 上下文档位 | 输入价 | 输出价 | 显式·创建 | 显式·命中 | 隐式·命中 |
|---|---|---|---|---|---|---|
| qwen3.6-max-preview(最强) | 0–128K | 9 | 54 | 11.25 | 0.9 | — |
| 128K–256K | 15 | 90 | 18.75 | 1.5 | — | |
| qwen3.6-plus(旗舰通用) | 0–256K | 2 | 12 | 2.5 | 0.2 | — |
| 256K–1M | 8 | 48 | 10 | 0.8 | — | |
| qwen3.6-flash(高速低价) | 0–256K | 1.2 | 7.2 | 1.5 | 0.12 | — |
| 256K–1M | 4.8 | 28.8 | 6 | 0.48 | — | |
| qwen3.5-plus | 0–128K | 0.8 | 4.8 | 1 | 0.08 | 0.16 |
| 128K–256K | 2 | 12 | 2.5 | 0.2 | 0.4 | |
| 256K–1M | 4 | 24 | 5 | 0.4 | 0.8 | |
| qwen3.5-flash | 0–128K | 0.2 | 2 | 0.25 | 0.02 | — |
| 128K–256K | 0.8 | 8 | 1 | 0.08 | — | |
| 256K–1M | 1.2 | 12 | 1.5 | 0.12 | — | |
| qwen3-max | 0–32K | 2.5 | 10 | 3.125 | 0.25 | 0.5 |
| 32K–128K | 4 | 16 | 5 | 0.4 | 0.8 | |
| 128K–256K | 7 | 28 | 8.75 | 0.7 | 1.4 | |
| qwen3-coder-plus(编程专用) | 0–32K | 4 | 16 | 5 | 0.4 | 0.8 |
| 32K–128K | 6 | 24 | 7.5 | 0.6 | 1.2 | |
| 128K–256K | 10 | 40 | 12.5 | 1 | 2 | |
| 256K–1M | 20 | 200 | 25 | 2 | 4 |
DeepSeek 深度求索系列
> 定位:以超高性价比和强推理能力著称,适合预算敏感但要效果的场景。缓存支持因型号而异(见下表,缺列即不支持)。
| 模型 | 输入价 | 输出价 | 显式·创建 | 显式·命中 | 隐式·命中 |
|---|---|---|---|---|---|
| deepseek-v4-pro(旗舰) | 12 | 24 | — | — | 2.4 |
| deepseek-v4-flash(高速) | 1 | 2 | — | — | 0.2 |
| deepseek-v3.2 | 2 | 3 | 2.5 | 0.2 | 0.4 |
| deepseek-r1(深度推理) | 4 | 16 | — | — | 0.8 |
智谱 · GLM 系列
> 定位:国产综合能力均衡,GLM-5 系列为新一代旗舰。多数型号仅支持隐式缓存,GLM-5.1 额外支持显式缓存。
| 模型 | 上下文档位 | 输入价 | 输出价 | 显式·创建 | 显式·命中 | 隐式·命中 |
|---|---|---|---|---|---|---|
| glm-5.1(旗舰) | 0–32K | 6 | 24 | 7.5 | 0.6 | 1.2 |
| 32K–200K | 8 | 28 | 10 | 0.8 | 1.6 | |
| glm-5 | 0–32K | 4 | 18 | — | — | 0.8 |
| 32K–198K | 6 | 22 | — | — | 1.2 | |
| glm-4.7 | 0–32K | 3 | 14 | — | — | 0.6 |
| 32K–166K | 4 | 16 | — | — | 0.8 |
月之暗面 · Kimi 系列
> 定位:擅长超长文本理解与处理。显式 + 隐式缓存都支持。
| 模型 | 输入价 | 输出价 | 显式·创建 | 显式·命中 | 隐式·命中 |
|---|---|---|---|---|---|
| kimi-k2.6 | 6.5 | 27 | 8.125 | 0.65 | 1.3 |
| kimi-k2.5 | 4 | 21 | 5 | 0.4 | 0.8 |
## 5️⃣ MiniMax 系列
> 定位:性价比高的通用模型。仅支持隐式缓存(系统自动打折,无需操作)。
| 模型 | 输入价 | 输出价 | 隐式·命中 |
|---|---|---|---|
| MiniMax-M2.7 | 2.1 | 8.4 | 0.42 |
| MiniMax-M2.5 | 2.1 | 8.4 | 0.42 |
火山方舟
> 定位:国产高性价比全家桶,覆盖文本、视觉、视频、图片、3D。显式缓存(另收 0.017 元/百万token·小时 的存储费)和隐式缓存(批量模式下生效)都支持。 下表为"在线推理"标准价,豆包另提供批量推理约 5 折优惠。
| 模型 | 上下文档位 | 输入价 | 输出价 | 显式·命中 |
|---|---|---|---|---|
| doubao-seed-2.0-pro(旗舰) | [0, 32K] | 3.2 | 16 | 0.64 |
| (32K, 128K] | 4.8 | 24 | 0.96 | |
| (128K, 256K] | 9.6 | 48 | 1.92 | |
| doubao-seed-2.0-code(编程) | [0, 32K] | 3.2 | 16 | 0.64 |
| (32K, 128K] | 4.8 | 24 | 0.96 | |
| (128K, 256K] | 9.6 | 48 | 1.92 | |
| doubao-seed-2.0-lite | [0, 32K] | 0.6 | 3.6 | 0.12 |
| (32K, 128K] | 0.9 | 5.4 | 0.18 | |
| (128K, 256K] | 1.8 | 10.8 | 0.36 | |
| doubao-seed-2.0-mini(最便宜) | [0, 32K] | 0.2 | 2 | 0.04 |
| (32K, 128K] | 0.4 | 4 | 0.08 | |
| (128K, 256K] | 0.8 | 8 | 0.16 | |
| doubao-seed-1.6 | [0, 32K] | 0.8 | 2 / 8 ※ | 0.16 |
| (32K, 128K] | 1.2 | 16 | 0.16 | |
| (128K, 256K] | 2.4 | 24 | 0.16 | |
| doubao-seed-1.6-flash(高速) | [0, 32K] | 0.15 | 1.5 | 0.03 |
| (32K, 128K] | 0.3 | 3 | 0.03 | |
| (128K, 256K] | 0.6 | 6 | 0.03 | |
| doubao-seed-1.6-vision(视觉) | [0, 32K] | 0.8 | 8 | 0.16 |
| (32K, 128K] | 1.2 | 16 | 0.16 | |
| (128K, 256K] | 2.4 | 24 | 0.16 | |
| doubao-1.5-pro-32k | — | 0.8 | 2 | 0.16 |
| doubao-1.5-lite-32k | — | 0.3 | 0.6 | 0.06 |
