Reviews
AI API 测评对比
详细的 API 性能评测与使用体验分享,帮助你选择最适合的 AI 服务。
2026-06-02 信息更新
本页已补充 MiniMax M3、Claude Opus 4.8、Qwen3.7-Max、Gemini 3.5 Flash、Kimi K2.6、GLM-5 / 5.1、Doubao-Seed-1.6、腾讯 TokenHub 迁移和 DeepSeek V4 价格/别名变化。模型名、免费额度和价格变动很快,正式购买前仍以各家官方控制台为准。
结论先行(点开查看)
代码 / 推理:性价比看 DeepSeek V4 Flash;长上下文 Agent 和 AI Coding 可评估 MiniMax M3;顶级闭源能力看 DeepSeek V4 Pro、Claude Opus。
通用对话 / 内容创作:中文场景看通义千问(Qwen)、Kimi;高难度 Agent / 代码任务看 Qwen3.7-Max。
长文档 / 多模态:先测 Gemini 3.5 Flash,再用 Gemini 3.1 Pro Preview 验证复杂任务;安全长文本看 Claude Opus 4.8。
国内生态:阿里云看 Qwen3.7-Max / Qwen3.6;火山看 Doubao-Seed-1.6 / Seed-Code;腾讯云先确认 TokenHub 迁移。
海外旗舰:OpenAI GPT-5.5(官方模型 ID:gpt-5.5,快照:2026-04-23),适合复杂专业工作、编码和工具型 Agent,但价格高。
策略:所有价格、额度和模型名先看官方控制台;MiniMax 需要特别区分 Token Plan Key、Credits 和 Pay-as-you-go API Key。
Cost Calculator
DeepSeek vs OpenAI 实时成本计算器
输入每天请求量和平均 Token,用站内价格估算 DeepSeek 与 OpenAI 的日成本、月成本和节省金额。
日输入量:2,000,000 Token
日输出量:800,000 Token
DeepSeek 单价:输入 ¥1/百万,输出 ¥2/百万
OpenAI 折算:输入 $5.0/百万,输出 $30.0/百万
省流版
推荐指数:4.6/5 | OpenAI 最新旗舰模型 gpt-5.5(快照 2026-04-23),适合复杂编码、Agent、长上下文检索和生产级助手;标准价 $5 输入 / $30 输出每百万 token。
官方定位为 newest frontier model,适合复杂专业工作、编码、推理和 Agent 工作流。
默认 reasoning.effort 为 medium,可按任务调低到 low 或 none 来平衡质量、延迟和成本。
标准价 $5/$30 每百万 token,Batch/Flex 可降至 $2.5/$15;长上下文和 Pro 场景成本明显更高。
支持 Responses API、Chat Completions、Batch、工具调用和企业级数据驻留选项。
主要优点
- 官方模型 ID 为 gpt-5.5,当前快照为 gpt-5.5-2026-04-23
- 支持 1M token 上下文窗口,适合长文档、代码库、检索增强和多轮 Agent 状态管理
- 支持 Responses API、Chat Completions、Batch、function calling、web search、file search、tool search、code interpreter、hosted shell、computer use、MCP 和结构化输出
需要注意
- 价格较高:GPT-5.5 标准价 $5/$30 每百万 token,GPT-5.5 Pro 标准价 $30/$180 每百万 token
- 国内访问需要代理
- 需要国际信用卡支付
省流版
推荐指数:4.3/5 | MiniMax M3 是 2026-06-01 发布的最新 M 系列模型,主打代码、Agent、1M 上下文和原生多模态;适合 AI Coding 工具、长上下文仓库分析和多步骤 Agent,但购买前要分清 Token Plan、Credits 与 Pay-as-you-go 的 Key 和计费体系。
官方定位为 Coding & Agentic Frontier,在 SWE-Bench Pro、Terminal-Bench、MCP Atlas 等代码和 Agent 基准上给出较强成绩。
M3 支持 thinking 开关;关闭 thinking 更适合低延迟对话和补全,复杂 Agent 任务开启 thinking 但延迟会更高。
官方 Token Plan 口径为 Plus $20/月、Max $50/月、Ultra $120/月;PAYG 标准通道当前显示 M3 ≤512K 为 ¥2.1/百万输入、¥8.4/百万输出。
M3 刚发布,API、Token Plan、Priority 通道和区域价格仍可能快速调整,生产接入前建议小流量压测。
主要优点
- MiniMax-M3 支持 1,000,000 token 上下文,官方说明 512K 以内覆盖多数对话和编程场景
- 原生多模态,支持文本、图像、视频、工具调用和 thinking block,适合复杂 Agent 工作流
- Token Plan 适合个人开发者和小团队固定预算使用,文本、图像、语音、音乐资源共享额度池
需要注意
- Token Plan Subscription Key、Credits 和 Pay-as-you-go API Key 是不同体系,初次接入容易填错 Key
- M3 刚发布,价格、额度、Priority 开放状态和区域支付口径变化较快
- 超过 512K 输入 token 会进入更高长上下文价格,仓库级分析和长视频任务需要提前预算
省流版
推荐指数:4.8/5 | 国内用户和阿里云生态项目的稳妥选择。2026 年 5 月重点看 Qwen3.7-Max、Qwen3.6-Plus / Qwen3.6-Flash 以及百炼模型广场;Qwen3.7-Max 更偏 Agent、代码工程、办公自动化和长周期工具调用。
Qwen3.7-Max 在复杂推理、代码工程、工具调用和多语言任务上明显增强,普通中文内容任务仍可用 Qwen3.6 控本。
国内部署,响应延迟低,高并发场景下也保持稳定速度。
qwen3.7-max 国内百炼当前为 12 元/百万输入、36 元/百万输出;Qwen3.6-Flash / Plus 更适合日常控本。
阿里云基础设施保障,SLA 99.9%,企业级可用性。
主要优点
- 免费额度、试用模型和价格经常调整,购买前以百炼控制台为准
- 国内直接访问,无需代理,响应速度快
- 中文场景深度优化,理解和生成质量优秀
需要注意
- 复杂 Agent 任务建议优先测试 Qwen3.7-Max,同时对比 DeepSeek V4 Pro、Claude Opus 4.8 或 GPT-5.5
- Qwen3.7-Max 成本高于 Qwen3.6-Plus / Flash,不适合所有轻量高频任务
- 英文和跨语言场景表现不如原生英文模型
省流版
推荐指数:4.6/5 | 长文本处理、安全性和代码协作能力突出。当前重点看 Claude Opus 4.8、Sonnet 4.6 和 Haiku 4.5;Opus/Sonnet 支持 1M 上下文,适合长文档和复杂代码任务。
文本理解和生成长文本方向顶尖,安全对齐做得最好的模型。
推理速度中规中矩,长文本处理时延迟有所增加。
价格处在海外高端模型区间,适合高价值长文档和代码协作任务。
Anthropic 服务成熟,API 可用性极高,企业级可靠。
主要优点
- Opus 4.8 / Sonnet 4.6 支持 1M 上下文,适合长文档分析、合同审查和代码仓库理解
- 安全对齐做得最好,Constitutional AI 确保输出安全可靠
- 代码能力强劲,Claude Code 是顶级 AI 编程助手
需要注意
- 国内访问需要代理
- 推理速度相对较慢
- 价格较高,需要结合任务效果与 OpenAI GPT-5.5 分别实测
省流版
推荐指数:4.3/5 | GLM-5 / GLM-5.1 已经把重点放到 200K 上下文、Agentic Coding 和复杂知识工作。适合国内团队做代码助手、企业知识库和可控部署。
GLM-5 系列在中文知识工作、代码和长上下文任务上更强,云端旗舰和开源版本要分开评估。
国内部署延迟低,本地部署速度取决于硬件配置。
免费试用 + 开源可自部署,长期成本极低。
云端版本稳定,本地部署稳定性取决于运维能力。
主要优点
- GLM-5 支持 200K 上下文和较长输出,适合代码、知识库和复杂文档工作流
- 国内直接访问,无需代理
- 免费试用额度充足,降低入门门槛
需要注意
- 不同 GLM 云端模型和开源模型能力差异较大,不要用开源版表现直接代表旗舰 API
- 代码和复杂推理能力偏弱
- 本地部署需要较强硬件和运维能力
省流版
推荐指数:4.5/5 | Kimi 适合长文档、资料问答、中文知识工作流和 Agent 原型。当前重点关注 Kimi K2.5 / K2.6、256K 上下文和 OpenAI 兼容接入。(K2.5/K2.6 模型名称和 256K 上下文信息待官方确认)
Kimi K2.5 / K2.6 适合长资料、复杂问答和中文知识工作流,需用真实文档验证成本。
国内访问延迟友好,长上下文任务会随输入长度增加耗时。
有免费额度,日常文档处理和中等规模应用成本较好控制。
开放平台接入体验成熟,仍需关注模型列表和额度调整。
主要优点
- Kimi K2.5 / K2.6 支持更长上下文,适合合同、论文、资料库、报告和代码资料分析
- 中文表达自然,摘要、改写、问答等常见任务完成度高
- OpenAI 兼容接口迁移成本低,现有 SDK 项目容易接入
需要注意
- 工具调用、复杂 Agent 和极高难度推理场景不一定是首选
- 多模态和企业生态覆盖不如部分云厂商完整
- Kimi K2.6 等新模型价格、上下文和限流策略需要以 Moonshot 控制台为准
省流版
推荐指数:4.5/5 | 腾讯混元更适合已经在腾讯云、微信生态或企业服务体系里的团队。当前要特别关注 TokenHub 迁移提示:新模型和后续能力可能逐步转向 TokenHub。
通用中文任务表现可靠,多模型覆盖能满足大多数业务接入。
国内云服务延迟低,适合面向国内用户的在线应用。
轻量模型和资源包适合规模化调用,具体成本取决于模型选择。
腾讯云基础设施成熟,企业级运维和权限体系较完整。
主要优点
- 腾讯云账号体系、费用中心、权限管理和企业运维流程完整
- 国内访问稳定,适合在线客服、办公系统和内部业务工具
- 多模型路线覆盖文本、视觉、轻量和推理场景,但新增能力要查看 TokenHub 与腾讯云最新公告
需要注意
- 控制台概念较多,新手需要理解地域、密钥、Endpoint 和模型名
- 如果没有腾讯云使用基础,开通链路会比独立开放平台稍重
- 最前沿推理和代码场景不一定优于国际旗舰或专项模型
省流版
推荐指数:4.5/5 | 豆包 API 适合高频中文对话、内容生成、Agent 原型和成本敏感应用。当前重点关注 Doubao-Seed-1.6、Seed-Code、Responses API 和火山方舟的模型编排能力。
Doubao-Seed-1.6 覆盖通用与多模态任务,Seed-Code 更适合代码场景,复杂任务要按模型实测。
轻量模型响应快,适合聊天、客服和内容生产类高频调用。
成本控制友好,适合从免费额度、小额测试逐步放量。
火山引擎云服务成熟,正式接入建议配置预算和告警。
主要优点
- 高性价比,适合高频调用和成本敏感型产品
- 国内直连,面向国内用户的延迟体验较好
- Doubao-Seed-1.6、Seed-Code、视觉、语音、Embedding 等方向覆盖较全,适合在火山方舟里统一调度
需要注意
- 火山方舟里的模型、Endpoint、地域概念对新手有一定学习成本
- 复杂推理、严肃代码修复需要与 DeepSeek、Claude、OpenAI 等交叉测试
- Doubao-Seed-1.6、Seed-Code、Responses API、免费额度和价格变化较快,正式购买前必须核对火山方舟控制台
省流版
推荐指数:4.6/5 | DeepSeek V4 当前重点是 deepseek-v4-flash 和 deepseek-v4-pro:两者均支持 1M 上下文、最高 384K 输出、思考/非思考双模式、OpenAI/Anthropic 兼容接口。deepseek-chat 和 deepseek-reasoner 当前只是兼容别名,将在 2026-07-24 15:59 UTC 后完全退役。
官方定位 V4 Pro 为面向 Agent 编码、世界知识、数学/STEM/代码推理的旗舰开源模型;Flash 更偏快速和高性价比。
Flash 参数规模更小,适合实时对话和高频任务;Pro 更适合高难推理和长上下文任务。
官方按人民币/百万 token 计费,V4 Flash 成本低;V4 Pro 当前有折扣期,正式上线前必须复核官方定价页。
高峰期算力紧张,Pro 可能变慢或排队。建议做好重试和备用方案。
主要优点
- 官方 V4 模型名为 deepseek-v4-flash 和 deepseek-v4-pro,新项目应优先使用这两个模型名
- V4 Pro:1.6T 总参数、49B 激活参数,官方定位为性能接近世界顶级闭源模型
- V4 Flash:284B 总参数、13B 激活参数,参数更小、响应更快、API 成本更低
需要注意
- deepseek-chat / deepseek-reasoner 将在 2026-07-24 15:59 UTC 后退役,旧项目必须提前迁移
- 高峰期算力紧张:热门时段 Pro 响应可能变慢或需排队
- 审美与前端偏弱:能写好逻辑代码,但生成的网页界面不美观,需人工润色
省流版
推荐指数:4.5/5 | Gemini 的优势是多模态、长上下文和 Google 生态。当前重点看 Gemini 3.5 Flash、Gemini 3.1 Pro Preview 和 Gemini 3 Flash Preview;国内访问、账号、支付和区域限制仍是主要成本。
Gemini 3.5 Flash 强在多模态和速度,Gemini 3.1 Pro Preview 更适合长上下文与复杂任务测试。
海外网络环境下响应快,国内体验取决于代理质量和区域配置。
AI Studio 免费额度适合试用,正式生产成本需按 Google Cloud 账单核算。
平台能力成熟,但国内网络和账号区域会影响稳定性。
主要优点
- Gemini 3.5 Flash 适合多模态和低延迟场景,Gemini 3.1 Pro Preview 更适合长上下文与复杂任务测试
- 长上下文适合大文档、代码库和资料批量分析
- AI Studio 上手快,适合快速创建测试 Key
需要注意
- 国内访问通常需要稳定代理,网络质量会直接影响调用体验
- 付费生产一般涉及 Google Cloud 账号、账单和国际支付
- 配额、区域、模型命名、预览模型稳定性和 API 版本变化需要持续关注
常见问题
测评分数怎么用?
综合评分按 质量 45%、稳定性 25%、速度 20%、性价比 10% 计算,适合快速横向对比。但选 API 时建议重点看你最在意的单维度分数,比如编程场景重点看质量和稳定性。
测评数据多久更新一次?
模型更新或价格调整时会同步更新测评。建议购买前到官网确认最新的模型名称和定价。
测评结果和我自己测试不一样怎么办?
基准测试是通用场景,你的业务场景可能有差异。建议用自己的真实任务跑 3-5 个样本对比,记录响应质量、速度和成本。
下一步推荐
适合谁
- • 想对比不同 API 的性能、价格和使用体验
- • 需要根据具体场景(编程、翻译、创作)选 API
- • 想了解各 API 的优缺点再做决定
本站测评数据参考以下权威基准和官方来源:
代码能力基准
- • SWE-bench Verified:代码修复能力评测
- • SWE-bench Pro:真实工程任务评测
- • CursorBench:IDE 编码能力评测
综合能力基准
- • GPQA Diamond:科学推理能力评测
- • HLE:综合知识考试评测
- • OSWorld:桌面自动化能力评测
数据来源说明
- • 官方参数:来自各厂商官方文档(Anthropic、OpenAI、Google 等)
- • 第三方基准:来自 DataLearnerAI、知乎、火山引擎等权威评测机构
- • 更新时间:最后更新 2026-05-07