教程
AI大模型本地部署教程
本教程面向初学者,教您如何使用 Ollama 在笔记本电脑上部署和运行 AI 大模型。 最小可从 2GB 内存的超轻量模型开始体验;建议至少 8GB 内存以运行常用开源模型,16GB 或以上可获得更流畅的体验。
优先用本地模型
- 处理隐私资料、内部文档或离线环境任务
- 只是学习 Prompt、试验工作流或轻量问答
- 希望零调用成本,能接受模型能力弱一些
优先用云端 API
- 需要稳定代码生成、复杂推理或生产环境 SLA
- 任务需要多模态、长上下文、函数调用或高并发
- 不想占用本机资源,希望直接接入应用或工具
推荐混合使用
- 本地模型做草稿、分类、轻量摘要,云端 API 做最终高质量结果
- 通过 CC Switch 管理本地 Ollama 和 DeepSeek、OpenAI 等云端模型
- 上线前用真实样本测试质量、延迟、成本和失败率
适合谁
- • 想零成本体验 AI 对话和代码生成的初学者
- • 处理隐私资料、不希望数据上传到云端的用户
- • 在没有网络的环境下也需要使用 AI 的人
- • 想学习 AI 模型原理、Prompt 工程的学生和研究者
不适合谁
- • 需要稳定代码生成、复杂推理或生产环境 SLA(请看 云端 API 官网入口)
- • 电脑内存低于 2GB 且不想升级硬件
- • 需要多模态、长上下文、函数调用等高级能力
- • 不想占用本机资源,希望直接接入应用(请看 AI API 购买教程)
了解本地部署
在开始之前,先了解什么是本地部署以及为什么需要它。
- 本地部署:将AI模型下载到自己的电脑上运行,不需要联网
- 优势:完全免费、数据隐私有保障、无需网络、可离线使用
- 适用场景:学习AI、隐私敏感任务、离线环境、轻度使用
- 限制:模型能力通常弱于云端大模型、需要一定的电脑配置
检查电脑配置
本地部署对电脑配置有一定要求,请先确认您的电脑是否满足。
- 内存(RAM):轻量模型 2-4GB 可运行,主流模型建议 8GB,推荐 16GB 或以上
- 存储空间:至少10GB可用空间(用于存放模型文件)
- 显卡(可选):NVIDIA显卡可加速推理,无显卡也可用CPU运行
- 操作系统:Windows 10/11、macOS、Linux 均支持
# Windows 用户查看内存:
# 右键"此电脑" → 属性 → 查看"已安装的RAM"
# 或者在 PowerShell 中运行:
wmic memorychip get capacity运行后会显示内存条容量(单位是字节),除以 1073741824 就是 GB 数。
安装 Ollama
Ollama 是最简单的本地大模型部署工具,支持一键安装和运行模型。
- 访问 Ollama 官网:ollama.ai
- 点击页面上的 Download 按钮
- 选择对应的操作系统(Windows/macOS/Linux)
- 下载完成后,双击安装包,按默认选项一路安装即可
# 安装完成后,打开终端(Windows用户打开PowerShell或CMD)
# 输入以下命令验证安装是否成功
ollama --version如果显示版本号(如 ollama version 0.x.x),说明安装成功。如果提示"命令不存在",请重新打开终端或重启电脑。
下载并运行模型
Ollama 支持多种开源模型,这里推荐适合笔记本的小模型。
- Qwen3 0.6B:超轻量,2GB内存即可运行,入门首选
- Qwen3 1.7B:轻量级,4GB内存可运行,中文能力强
- Gemma 4 1B:轻量多模态,3GB内存可运行
- Qwen3 4B/8B:平衡版,8GB内存可运行
- Gemma 4 4B:支持图片理解,8GB内存可运行
- Qwen3.6 35B-A3B:MoE架构,激活参数仅3B,编程能力强
# 下载并运行 Qwen3 0.6B 模型(最轻量,2GB内存即可)
ollama run qwen3:0.6b
# 或者下载 Qwen3 1.7B(4GB内存,中文能力强)
ollama run qwen3:1.7b
# 或者下载 Gemma 4 1B(3GB内存,支持多模态)
ollama run gemma4:1b
# 或者下载 Qwen3 8B(8GB内存,性能均衡)
ollama run qwen3:8b
# 高配:下载 Qwen3.6 27B(16GB内存,编程能力强)
ollama run qwen3.6:27b首次运行会自动下载模型,下载完成后即可开始对话。输入问题后按回车即可得到回答,输入 /bye 退出。
常用操作命令
掌握这些常用命令,可以更好地管理本地模型。
- ollama list:查看已下载的所有模型
- ollama pull <模型名>:下载模型但不运行
- ollama rm <模型名>:删除不需要的模型
- ollama show <模型名>:查看模型详细信息
# 查看已下载的模型
ollama list
# 下载模型(不运行)
ollama pull gemma4:4b
# 删除模型(释放空间)
ollama rm gemma4:4b
# 查看模型信息
ollama show gemma4:4b这些命令可以帮助您管理本地模型,释放存储空间。
启动 API 服务
如果您需要在其他应用中使用本地模型,可以启动 API 服务,并用 CC Switch 把本地兼容接口接入 Claude Code、Codex、OpenCode 等 AI 工具。
- Ollama 默认会启动 API 服务,端口为 11434
- 可以通过 localhost:11434 访问 API
- 支持 OpenAI 兼容格式,可以替代云端 API 使用
- 可以配合 ChatBox、Open WebUI 等工具使用
- 推荐使用 CC Switch 统一管理本地接口、云端 API 和多个 AI 工具的配置
# 测试 API 是否正常工作
curl http://localhost:11434/api/generate -d '{"model": "gemma4:4b", "prompt": "你好"}'
# 如果安装了 jq,可以格式化输出
curl http://localhost:11434/api/generate -d '{"model": "gemma4:4b", "prompt": "你好"}' | jq如果返回 JSON 格式的响应,说明 API 服务正常工作。
配置推荐:用 CC Switch 管理本地和云端模型
启动 Ollama API 后,如果要接入 Claude Code、Codex、Gemini CLI、OpenCode 或 OpenClaw,建议使用 CC Switch 统一管理 Base URL、模型名和供应商切换。云端 API 与本地兼容接口可以放在同一个工具里管理,后续切换更方便。
推荐模型
以下是适合笔记本电脑运行的小模型,按配置要求从低到高排列:
| 模型 | 大小 | 最低内存 | 显卡要求 | 特点 | 命令 |
|---|---|---|---|---|---|
| Qwen3 0.6B新 | 0.6B | 2GB | 无需 | 超轻量入门 | ollama run qwen3:0.6b |
| Qwen3 1.7B新 | 1.7B | 4GB | 无需 | 轻量中文首选 | ollama run qwen3:1.7b |
| Gemma 4 1B新 | 1B | 3GB | 无需 | 轻量多模态 | ollama run gemma4:1b |
| Qwen3 4B新 | 4B | 8GB | 4GB+ | 中文能力最强 | ollama run qwen3:4b |
| Gemma 4 4B新 | 4B | 8GB | 4GB+ | 支持图片理解 | ollama run gemma4:4b |
| Qwen3 8B新 | 8B | 8GB | 4GB+ | 性能均衡 | ollama run qwen3:8b |
| Qwen3.6 35B-A3B新 | 35B(激活3B) | 32GB | 8GB+ | MoE架构,编程能力强 | ollama run qwen3.6:27b |
| Gemma 4 12B新 | 12B | 16GB | 8GB+ | 高配多模态 | ollama run gemma4:12b |
| Qwen3 14B新 | 14B | 16GB | 8GB+ | 高性能中文 | ollama run qwen3:14b |
Qwen3.6 特性介绍
MoE 架构优势
- 总参数 35B,激活参数仅 3B
- 推理速度快,资源占用少
- 编程和代码能力突出
部署方式
- Ollama:ollama run qwen3.6:27b
- LM Studio:图形界面,零配置
- llama.cpp:极客路线,WSL2 编译
Gemma 4 特性介绍
架构创新
- Sparse MoE(稀疏混合专家)架构
- 只激活部分参数,笔记本也能跑
- 更少的计算资源,更高的效率
功能特性
- 原生支持文本+视觉多模态
- 128K 超长上下文
- 原生函数调用支持
- 生成速度快,交互体验好
常见问题
Qwen3.6 是什么?和 Qwen3 有什么区别?
Qwen3.6 是阿里云发布的新一代模型,采用 MoE(混合专家)架构,总参数 35B 但激活参数仅 3B,推理速度快。相比 Qwen3,Qwen3.6 编程能力更强,适合代码生成和编程辅助任务。
Gemma 4 和 Gemma 3 有什么区别?
Gemma 4 是 Google 于 2026 年 3 月发布的新一代模型,采用 Sparse MoE(稀疏混合专家)架构,只激活部分参数,速度更快。相比 Gemma 3,Gemma 4 支持更长的上下文(128K)、原生多模态和函数调用能力。
下载模型很慢怎么办?
Ollama 默认从国外服务器下载,国内用户可能较慢。解决方案:①使用代理;②在网络较好的时段下载(如凌晨);③耐心等待,首次下载后会缓存到本地。
运行模型时电脑很卡怎么办?
模型运行会占用大量内存和CPU。解决方案:①关闭其他大型应用;②使用更小的模型(如 Gemma4-1B);③减少上下文长度;④保持电源连接并启用高性能模式。
模型回答质量不好怎么办?
小模型能力有限,可以尝试:①使用更大的模型(如从1B升级到4B);②优化提问方式,问题要具体明确;③对于复杂任务,考虑使用云端API。
如何更新模型到最新版本?
运行 ollama pull <模型名> 即可更新到最新版本。例如:ollama pull gemma4:4b。Ollama 会自动检测并下载更新。
Qwen3.6 35B 在笔记本上能跑吗?
可以,但需要较高配置。Qwen3.6 采用 MoE 架构,激活参数仅 3B,量化后约 21GB。建议配置:①32GB 内存 + 8GB 显存;②使用 Q4_K_S 量化版本;③限制上下文长度(8k-32k);④增大 Windows 页面文件到 64GB。配置较低建议使用 Qwen3-8B 或更小模型。
ollama 命令提示"不是内部或外部命令"怎么办?
这说明 Ollama 没有正确安装或环境变量没有配置好。解决方案:①重新安装 Ollama;②安装完成后重启电脑;③如果还是不行,手动将 Ollama 安装目录添加到 PATH 环境变量。
模型下载到一半失败了怎么办?
重新运行相同的 ollama run 命令即可,Ollama 会自动断点续传。如果还是失败,可以尝试:①检查网络连接;②使用代理;③删除不完整的文件后重新下载。
本地模型和云端 API 哪个更好?
各有优劣:①本地模型:免费、隐私好、离线可用,但能力较弱;②云端 API:能力强、无需硬件,但需要付费和网络。建议:轻度使用用本地,重度使用用云端。
如何查看我的电脑有多少内存?
Windows:右键"此电脑" → 属性 → 查看"已安装的RAM"。Mac:点击左上角苹果图标 → 关于本机 → 查看"内存"。Linux:在终端运行 free -h。
Ollama 安装后模型文件在哪里?
Windows:C:\Users\你的用户名\.ollama\models。Mac/Linux:~/.ollama/models。如果 C 盘空间不足,可以设置环境变量 OLLAMA_MODELS 指向其他盘符。
使用提示
- 首次下载模型需要一定时间,请耐心等待
- 模型文件会缓存到本地,下次启动无需重新下载
- 可以同时下载多个模型,按需切换使用
- 遇到问题可以查看 Ollama 官方文档
注意事项
- 本地模型能力有限,复杂任务建议使用云端API
- 模型运行时会占用较多系统资源
- 定期更新模型以获得最佳体验
- 重要数据请勿完全依赖本地模型处理
相关内容
下一步推荐
本地部署遇到问题?查看我们的 FAQ 或访问 Ollama 官方文档获取帮助。