AI API 新手应该怎么选？

新手优先选择国内直连、有免费额度、兼容 OpenAI 接口格式、购买教程完整的 API。先用小额或免费额度跑通真实任务，再决定是否长期使用。

国内用户可以直接使用哪些 AI API？

国内用户可以优先查看 DeepSeek、通义千问、智谱 GLM、Kimi、腾讯混元、豆包等无需代理或接入门槛较低的 API，并根据官网说明确认最新注册和支付要求。

购买 API 前需要确认什么？

购买前应确认官网入口、注册验证方式、支付方式、免费额度、限速规则、API Key 保存方式、Base URL 和模型名称。

API Key 拿到后怎么接入工具？

一般需要在工具中填写 API Key、Base URL 和模型名称。若工具支持 OpenAI 兼容接口，可以优先使用兼容格式；多工具切换可使用 CC Switch 管理配置。

Reviews

AI API 测评对比

详细的 API 性能评测与使用体验分享，帮助你选择最适合的 AI 服务。

2026-06-02 信息更新

本页已补充 MiniMax M3、Claude Opus 4.8、Qwen3.7-Max、Gemini 3.5 Flash、Kimi K2.6、GLM-5 / 5.1、Doubao-Seed-1.6、腾讯 TokenHub 迁移和 DeepSeek V4 价格/别名变化。模型名、免费额度和价格变动很快，正式购买前仍以各家官方控制台为准。

结论先行

代码 / 推理：性价比优先看 DeepSeek V4 Flash；开源推理与代码能力可重点看 DeepSeek V4 Pro；长上下文 Agent 和 AI Coding 可评估 MiniMax M3；闭源旗舰能力可看 Claude Opus、OpenAI GPT-5.5。

通用对话 / 内容创作 / 写文案：中文写作、文案生成、知识整理优先看通义千问（Qwen）、Kimi、DeepSeek；需要更稳定的商业文案、复杂改写和英文内容时，可评估 Claude Opus、OpenAI GPT-5.5。

长文档 / 多模态：海外模型先看 Gemini 3.5 Flash，再用 Gemini 3.1 Pro Preview 验证复杂任务；安全长文本看 Claude Opus 4.8。

国内生态：阿里云项目看 Qwen3.7-Max / Qwen3.6；火山方舟看 Doubao-Seed-1.6 / Seed-Code；腾讯云项目先确认 TokenHub 迁移。

海外闭源旗舰：OpenAI GPT-5.5、Claude Opus、Gemini 系列适合复杂专业工作、编码和工具型 Agent，但价格通常更高。

策略：所有价格、额度和模型名优先看官方控制台；MiniMax 需要特别区分 Token Plan Key、Credits 和 Pay-as-you-go API Key。

购买教程 API 列表场景推荐

结论先行（点开查看）

长文档 / 多模态：海外模型先看 Gemini 3.5 Flash，再用 Gemini 3.1 Pro Preview 验证复杂任务；安全长文本看 Claude Opus 4.8。

国内生态：阿里云项目看 Qwen3.7-Max / Qwen3.6；火山方舟看 Doubao-Seed-1.6 / Seed-Code；腾讯云项目先确认 TokenHub 迁移。

海外闭源旗舰：OpenAI GPT-5.5、Claude Opus、Gemini 系列适合复杂专业工作、编码和工具型 Agent，但价格通常更高。

策略：所有价格、额度和模型名优先看官方控制台；MiniMax 需要特别区分 Token Plan Key、Credits 和 Pay-as-you-go API Key。

购买教程 API 列表场景推荐

OpenAI GPT-5.5

OpenAI 最新旗舰模型 gpt-5.5（快照 2026-04-23），适合复杂编码、Agent、长上下文检索和生产级助手；标准价 $5 输入 / $30 输出每百万 token。

综合评分4.6

需代理付费官方快照 2026-04-23

省流版

推荐指数：4.6/5 | OpenAI 最新旗舰模型 gpt-5.5（快照 2026-04-23），适合复杂编码、Agent、长上下文检索和生产级助手；标准价 $5 输入 / $30 输出每百万 token。

质量4.9

★★★★☆4.9

官方定位为 newest frontier model，适合复杂专业工作、编码、推理和 Agent 工作流。

速度4.4

★★★★★4.4

默认 reasoning.effort 为 medium，可按任务调低到 low 或 none 来平衡质量、延迟和成本。

性价比3.2

★★★★★3.2

标准价 $5/$30 每百万 token，Batch/Flex 可降至 $2.5/$15；长上下文和 Pro 场景成本明显更高。

稳定性4.6

★★★★☆4.6

支持 Responses API、Chat Completions、Batch、工具调用和企业级数据驻留选项。

主要优点

官方模型 ID 为 gpt-5.5，当前快照为 gpt-5.5-2026-04-23
支持 1M token 上下文窗口，适合长文档、代码库、检索增强和多轮 Agent 状态管理
支持 Responses API、Chat Completions、Batch、function calling、web search、file search、tool search、code interpreter、hosted shell、computer use、MCP 和结构化输出

需要注意

价格较高：GPT-5.5 标准价 $5/$30 每百万 token，GPT-5.5 Pro 标准价 $30/$180 每百万 token
国内访问需要代理
需要国际信用卡支付

MMMiniMax M3

MiniMax M3 是 2026-06-01 发布的最新 M 系列模型，主打代码、Agent、1M 上下文和原生多模态；适合 AI Coding 工具、长上下文仓库分析和多步骤 Agent，但购买前要分清 Token Plan、Credits 与 Pay-as-you-go 的 Key 和计费体系。

综合评分4.3

M3最新Token Plan1M上下文

省流版

推荐指数：4.3/5 | MiniMax M3 是 2026-06-01 发布的最新 M 系列模型，主打代码、Agent、1M 上下文和原生多模态；适合 AI Coding 工具、长上下文仓库分析和多步骤 Agent，但购买前要分清 Token Plan、Credits 与 Pay-as-you-go 的 Key 和计费体系。

质量4.6

★★★★☆4.6

官方定位为 Coding & Agentic Frontier，在 SWE-Bench Pro、Terminal-Bench、MCP Atlas 等代码和 Agent 基准上给出较强成绩。

速度4.2

★★★★★4.2

M3 支持 thinking 开关；关闭 thinking 更适合低延迟对话和补全，复杂 Agent 任务开启 thinking 但延迟会更高。

性价比4.4

★★★★★4.4

官方 Token Plan 口径为 Plus $20/月、Max $50/月、Ultra $120/月；PAYG 标准通道当前显示 M3 ≤512K 为 ¥2.1/百万输入、¥8.4/百万输出。

稳定性4.0

★★★★★4.0

M3 刚发布，API、Token Plan、Priority 通道和区域价格仍可能快速调整，生产接入前建议小流量压测。

主要优点

MiniMax-M3 支持 1,000,000 token 上下文，官方说明 512K 以内覆盖多数对话和编程场景
原生多模态，支持文本、图像、视频、工具调用和 thinking block，适合复杂 Agent 工作流
Token Plan 适合个人开发者和小团队固定预算使用，文本、图像、语音、音乐资源共享额度池

需要注意

Token Plan Subscription Key、Credits 和 Pay-as-you-go API Key 是不同体系，初次接入容易填错 Key
M3 刚发布，价格、额度、Priority 开放状态和区域支付口径变化较快
超过 512K 输入 token 会进入更高长上下文价格，仓库级分析和长视频任务需要提前预算

阿里云通义千问

国内用户和阿里云生态项目的稳妥选择。2026 年 5 月重点看 Qwen3.7-Max、Qwen3.6-Plus / Qwen3.6-Flash 以及百炼模型广场；Qwen3.7-Max 更偏 Agent、代码工程、办公自动化和长周期工具调用。

综合评分4.8

无需代理免费额度Qwen3.7-Max

省流版

推荐指数：4.8/5 | 国内用户和阿里云生态项目的稳妥选择。2026 年 5 月重点看 Qwen3.7-Max、Qwen3.6-Plus / Qwen3.6-Flash 以及百炼模型广场；Qwen3.7-Max 更偏 Agent、代码工程、办公自动化和长周期工具调用。

质量4.8

★★★★☆4.8

Qwen3.7-Max 在复杂推理、代码工程、工具调用和多语言任务上明显增强，普通中文内容任务仍可用 Qwen3.6 控本。

速度4.8

★★★★☆4.8

国内部署，响应延迟低，高并发场景下也保持稳定速度。

性价比4.7

★★★★☆4.7

qwen3.7-max 国内百炼当前为 12 元/百万输入、36 元/百万输出；Qwen3.6-Flash / Plus 更适合日常控本。

稳定性4.7

★★★★☆4.7

阿里云基础设施保障，SLA 99.9%，企业级可用性。

主要优点

免费额度、试用模型和价格经常调整，购买前以百炼控制台为准
国内直接访问，无需代理，响应速度快
中文场景深度优化，理解和生成质量优秀

需要注意

复杂 Agent 任务建议优先测试 Qwen3.7-Max，同时对比 DeepSeek V4 Pro、Claude Opus 4.8 或 GPT-5.5
Qwen3.7-Max 成本高于 Qwen3.6-Plus / Flash，不适合所有轻量高频任务
英文和跨语言场景表现不如原生英文模型

Anthropic Claude

长文本处理、安全性和代码协作能力突出。当前重点看 Claude Opus 4.8、Sonnet 4.6 和 Haiku 4.5；Opus/Sonnet 支持 1M 上下文，适合长文档和复杂代码任务。

综合评分4.6

需代理付费

省流版

推荐指数：4.6/5 | 长文本处理、安全性和代码协作能力突出。当前重点看 Claude Opus 4.8、Sonnet 4.6 和 Haiku 4.5；Opus/Sonnet 支持 1M 上下文，适合长文档和复杂代码任务。

质量4.8

★★★★☆4.8

文本理解和生成长文本方向顶尖，安全对齐做得最好的模型。

速度4.0

★★★★★4.0

推理速度中规中矩，长文本处理时延迟有所增加。

性价比3.8

★★★☆★3.8

价格处在海外高端模型区间，适合高价值长文档和代码协作任务。

稳定性4.9

★★★★☆4.9

Anthropic 服务成熟，API 可用性极高，企业级可靠。

主要优点

Opus 4.8 / Sonnet 4.6 支持 1M 上下文，适合长文档分析、合同审查和代码仓库理解
安全对齐做得最好，Constitutional AI 确保输出安全可靠
代码能力强劲，Claude Code 是顶级 AI 编程助手

需要注意

国内访问需要代理
推理速度相对较慢
价格较高，需要结合任务效果与 OpenAI GPT-5.5 分别实测

智谱AI GLM

GLM-5 / GLM-5.1 已经把重点放到 200K 上下文、Agentic Coding 和复杂知识工作。适合国内团队做代码助手、企业知识库和可控部署。

综合评分4.3

无需代理免费试用

省流版

推荐指数：4.3/5 | GLM-5 / GLM-5.1 已经把重点放到 200K 上下文、Agentic Coding 和复杂知识工作。适合国内团队做代码助手、企业知识库和可控部署。

质量4.2

★★★★★4.2

GLM-5 系列在中文知识工作、代码和长上下文任务上更强，云端旗舰和开源版本要分开评估。

速度4.5

★★★★☆4.5

国内部署延迟低，本地部署速度取决于硬件配置。

性价比4.8

★★★★☆4.8

免费试用 + 开源可自部署，长期成本极低。

稳定性4.0

★★★★★4.0

云端版本稳定，本地部署稳定性取决于运维能力。

主要优点

GLM-5 支持 200K 上下文和较长输出，适合代码、知识库和复杂文档工作流
国内直接访问，无需代理
免费试用额度充足，降低入门门槛

需要注意

不同 GLM 云端模型和开源模型能力差异较大，不要用开源版表现直接代表旗舰 API
代码和复杂推理能力偏弱
本地部署需要较强硬件和运维能力

月之暗面 Kimi

Kimi 适合长文档、资料问答、中文知识工作流和 Agent 原型。当前重点关注 Kimi K2.5 / K2.6、256K 上下文和 OpenAI 兼容接入。（K2.5/K2.6 模型名称和 256K 上下文信息待官方确认）

综合评分4.5

无需代理长上下文免费额度K2.5/K2.6 待确认

省流版

推荐指数：4.5/5 | Kimi 适合长文档、资料问答、中文知识工作流和 Agent 原型。当前重点关注 Kimi K2.5 / K2.6、256K 上下文和 OpenAI 兼容接入。（K2.5/K2.6 模型名称和 256K 上下文信息待官方确认）

质量4.5

★★★★☆4.5

Kimi K2.5 / K2.6 适合长资料、复杂问答和中文知识工作流，需用真实文档验证成本。

速度4.4

★★★★★4.4

国内访问延迟友好，长上下文任务会随输入长度增加耗时。

性价比4.6

★★★★☆4.6

有免费额度，日常文档处理和中等规模应用成本较好控制。

稳定性4.5

★★★★☆4.5

开放平台接入体验成熟，仍需关注模型列表和额度调整。

主要优点

Kimi K2.5 / K2.6 支持更长上下文，适合合同、论文、资料库、报告和代码资料分析
中文表达自然，摘要、改写、问答等常见任务完成度高
OpenAI 兼容接口迁移成本低，现有 SDK 项目容易接入

需要注意

工具调用、复杂 Agent 和极高难度推理场景不一定是首选
多模态和企业生态覆盖不如部分云厂商完整
Kimi K2.6 等新模型价格、上下文和限流策略需要以 Moonshot 控制台为准

混腾讯混元

腾讯混元更适合已经在腾讯云、微信生态或企业服务体系里的团队。当前要特别关注 TokenHub 迁移提示：新模型和后续能力可能逐步转向 TokenHub。

综合评分4.5

无需代理腾讯云生态企业友好

省流版

推荐指数：4.5/5 | 腾讯混元更适合已经在腾讯云、微信生态或企业服务体系里的团队。当前要特别关注 TokenHub 迁移提示：新模型和后续能力可能逐步转向 TokenHub。

质量4.4

★★★★★4.4

通用中文任务表现可靠，多模型覆盖能满足大多数业务接入。

速度4.6

★★★★☆4.6

国内云服务延迟低，适合面向国内用户的在线应用。

性价比4.4

★★★★★4.4

轻量模型和资源包适合规模化调用，具体成本取决于模型选择。

稳定性4.7

★★★★☆4.7

腾讯云基础设施成熟，企业级运维和权限体系较完整。

主要优点

腾讯云账号体系、费用中心、权限管理和企业运维流程完整
国内访问稳定，适合在线客服、办公系统和内部业务工具
多模型路线覆盖文本、视觉、轻量和推理场景，但新增能力要查看 TokenHub 与腾讯云最新公告

需要注意

控制台概念较多，新手需要理解地域、密钥、Endpoint 和模型名
如果没有腾讯云使用基础，开通链路会比独立开放平台稍重
最前沿推理和代码场景不一定优于国际旗舰或专项模型

字节豆包

豆包 API 适合高频中文对话、内容生成、Agent 原型和成本敏感应用。当前重点关注 Doubao-Seed-1.6、Seed-Code、Responses API 和火山方舟的模型编排能力。

综合评分4.5

无需代理高性价比免费额度

省流版

推荐指数：4.5/5 | 豆包 API 适合高频中文对话、内容生成、Agent 原型和成本敏感应用。当前重点关注 Doubao-Seed-1.6、Seed-Code、Responses API 和火山方舟的模型编排能力。

质量4.3

★★★★★4.3

Doubao-Seed-1.6 覆盖通用与多模态任务，Seed-Code 更适合代码场景，复杂任务要按模型实测。

速度4.7

★★★★☆4.7

轻量模型响应快，适合聊天、客服和内容生产类高频调用。

性价比4.8

★★★★☆4.8

成本控制友好，适合从免费额度、小额测试逐步放量。

稳定性4.5

★★★★☆4.5

火山引擎云服务成熟，正式接入建议配置预算和告警。

主要优点

高性价比，适合高频调用和成本敏感型产品
国内直连，面向国内用户的延迟体验较好
Doubao-Seed-1.6、Seed-Code、视觉、语音、Embedding 等方向覆盖较全，适合在火山方舟里统一调度

需要注意

火山方舟里的模型、Endpoint、地域概念对新手有一定学习成本
复杂推理、严肃代码修复需要与 DeepSeek、Claude、OpenAI 等交叉测试
Doubao-Seed-1.6、Seed-Code、Responses API、免费额度和价格变化较快，正式购买前必须核对火山方舟控制台

DeepSeek V4 系列

DeepSeek V4 当前重点是 deepseek-v4-flash 和 deepseek-v4-pro：两者均支持 1M 上下文、最高 384K 输出、思考/非思考双模式、OpenAI/Anthropic 兼容接口。deepseek-chat 和 deepseek-reasoner 当前只是兼容别名，将在 2026-07-24 15:59 UTC 后完全退役。

综合评分4.6

无需代理高性价比代码/推理开源可商用

省流版

推荐指数：4.6/5 | DeepSeek V4 当前重点是 deepseek-v4-flash 和 deepseek-v4-pro：两者均支持 1M 上下文、最高 384K 输出、思考/非思考双模式、OpenAI/Anthropic 兼容接口。deepseek-chat 和 deepseek-reasoner 当前只是兼容别名，将在 2026-07-24 15:59 UTC 后完全退役。

质量4.8

★★★★☆4.8

官方定位 V4 Pro 为面向 Agent 编码、世界知识、数学/STEM/代码推理的旗舰开源模型；Flash 更偏快速和高性价比。

速度4.6

★★★★☆4.6

Flash 参数规模更小，适合实时对话和高频任务；Pro 更适合高难推理和长上下文任务。

性价比5.0

★★★★★5.0

官方按人民币/百万 token 计费，V4 Flash 成本低；V4 Pro 当前有折扣期，正式上线前必须复核官方定价页。

稳定性4.2

★★★★★4.2

高峰期算力紧张，Pro 可能变慢或排队。建议做好重试和备用方案。

主要优点

官方 V4 模型名为 deepseek-v4-flash 和 deepseek-v4-pro，新项目应优先使用这两个模型名
V4 Pro：1.6T 总参数、49B 激活参数，官方定位为性能接近世界顶级闭源模型
V4 Flash：284B 总参数、13B 激活参数，参数更小、响应更快、API 成本更低

需要注意

deepseek-chat / deepseek-reasoner 将在 2026-07-24 15:59 UTC 后退役，旧项目必须提前迁移
高峰期算力紧张：热门时段 Pro 响应可能变慢或需排队
审美与前端偏弱：能写好逻辑代码，但生成的网页界面不美观，需人工润色

GGoogle Gemini

Gemini 的优势是多模态、长上下文和 Google 生态。当前重点看 Gemini 3.5 Flash、Gemini 3.1 Pro Preview 和 Gemini 3 Flash Preview；国内访问、账号、支付和区域限制仍是主要成本。

综合评分4.5

需代理多模态免费额度

省流版

推荐指数：4.5/5 | Gemini 的优势是多模态、长上下文和 Google 生态。当前重点看 Gemini 3.5 Flash、Gemini 3.1 Pro Preview 和 Gemini 3 Flash Preview；国内访问、账号、支付和区域限制仍是主要成本。

质量4.7

★★★★☆4.7

Gemini 3.5 Flash 强在多模态和速度，Gemini 3.1 Pro Preview 更适合长上下文与复杂任务测试。

速度4.6

★★★★☆4.6

海外网络环境下响应快，国内体验取决于代理质量和区域配置。

性价比4.4

★★★★★4.4

AI Studio 免费额度适合试用，正式生产成本需按 Google Cloud 账单核算。

稳定性4.3

★★★★★4.3

平台能力成熟，但国内网络和账号区域会影响稳定性。

主要优点

Gemini 3.5 Flash 适合多模态和低延迟场景，Gemini 3.1 Pro Preview 更适合长上下文与复杂任务测试
长上下文适合大文档、代码库和资料批量分析
AI Studio 上手快，适合快速创建测试 Key

需要注意

国内访问通常需要稳定代理，网络质量会直接影响调用体验
付费生产一般涉及 Google Cloud 账号、账单和国际支付
配额、区域、模型命名、预览模型稳定性和 API 版本变化需要持续关注

购买前建议同时查看官网、购买教程和测评结论，再用自己的真实任务小规模测试。

常见问题

测评分数怎么用？

综合评分按质量 45%、稳定性 25%、速度 20%、性价比 10% 计算，适合快速横向对比。但选 API 时建议重点看你最在意的单维度分数，比如编程场景重点看质量和稳定性。

测评数据多久更新一次？

模型更新或价格调整时会同步更新测评。建议购买前到官网确认最新的模型名称和定价。

测评结果和我自己测试不一样怎么办？

基准测试是通用场景，你的业务场景可能有差异。建议用自己的真实任务跑 3-5 个样本对比，记录响应质量、速度和成本。

下一步推荐

购买教程

按步骤完成注册、支付与 API Key 创建

场景推荐

按编程、翻译、创作等场景选 API

常见问题

适合谁

• 想对比不同 API 的性能、价格和使用体验
• 需要根据具体场景（编程、翻译、创作）选 API
• 想了解各 API 的优缺点再做决定

不适合谁

• 已经确定 API，需要注册和购买指导（请看购买教程）
• 只想查官网入口和免费额度（请看 API 列表）
• 想按编程、翻译等场景直接选 API（请看场景推荐）

权威基准与数据来源

本站测评数据参考以下权威基准和官方来源：

代码能力基准

• SWE-bench Verified：代码修复能力评测
• SWE-bench Pro：真实工程任务评测
• CursorBench：IDE 编码能力评测

综合能力基准

• GPQA Diamond：科学推理能力评测
• HLE：综合知识考试评测
• OSWorld：桌面自动化能力评测

数据来源说明

• 官方参数：来自各厂商官方文档（Anthropic、OpenAI、Google 等）
• 第三方基准：来自 DataLearnerAI、知乎、火山引擎等权威评测机构
• 更新时间：最后更新 2026-05-07