返回首页|本地部署教程

教程

AI大模型本地部署教程

本教程面向初学者,教您如何使用 Ollama 在笔记本电脑上部署和运行 AI 大模型。 最小可从 2GB 内存的超轻量模型开始体验;建议至少 8GB 内存以运行常用开源模型,16GB 或以上可获得更流畅的体验。

优先用本地模型

  • 处理隐私资料、内部文档或离线环境任务
  • 只是学习 Prompt、试验工作流或轻量问答
  • 希望零调用成本,能接受模型能力弱一些

优先用云端 API

  • 需要稳定代码生成、复杂推理或生产环境 SLA
  • 任务需要多模态、长上下文、函数调用或高并发
  • 不想占用本机资源,希望直接接入应用或工具

推荐混合使用

  • 本地模型做草稿、分类、轻量摘要,云端 API 做最终高质量结果
  • 通过 CC Switch 管理本地 Ollama 和 DeepSeek、OpenAI 等云端模型
  • 上线前用真实样本测试质量、延迟、成本和失败率

适合谁

  • • 想零成本体验 AI 对话和代码生成的初学者
  • • 处理隐私资料、不希望数据上传到云端的用户
  • • 在没有网络的环境下也需要使用 AI 的人
  • • 想学习 AI 模型原理、Prompt 工程的学生和研究者

不适合谁

  • • 需要稳定代码生成、复杂推理或生产环境 SLA(请看 云端 API 官网入口
  • • 电脑内存低于 2GB 且不想升级硬件
  • • 需要多模态、长上下文、函数调用等高级能力
  • • 不想占用本机资源,希望直接接入应用(请看 AI API 购买教程
1

了解本地部署

在开始之前,先了解什么是本地部署以及为什么需要它。

  • 本地部署:将AI模型下载到自己的电脑上运行,不需要联网
  • 优势:完全免费、数据隐私有保障、无需网络、可离线使用
  • 适用场景:学习AI、隐私敏感任务、离线环境、轻度使用
  • 限制:模型能力通常弱于云端大模型、需要一定的电脑配置
提示:简单理解:本地部署就像是把AI助手"请"到你的电脑里住,不用联网也能聊天。
2

检查电脑配置

本地部署对电脑配置有一定要求,请先确认您的电脑是否满足。

  • 内存(RAM):轻量模型 2-4GB 可运行,主流模型建议 8GB,推荐 16GB 或以上
  • 存储空间:至少10GB可用空间(用于存放模型文件)
  • 显卡(可选):NVIDIA显卡可加速推理,无显卡也可用CPU运行
  • 操作系统:Windows 10/11、macOS、Linux 均支持
命令
# Windows 用户查看内存:
# 右键"此电脑" → 属性 → 查看"已安装的RAM"

# 或者在 PowerShell 中运行:
wmic memorychip get capacity

运行后会显示内存条容量(单位是字节),除以 1073741824 就是 GB 数。

注意:如果您的电脑内存低于 8GB,可以尝试轻量模型(如 Qwen3 0.6B),但运行主流模型建议 8GB 或以上,否则建议使用云端 API 服务。
3

安装 Ollama

Ollama 是最简单的本地大模型部署工具,支持一键安装和运行模型。

  • 访问 Ollama 官网:ollama.ai
  • 点击页面上的 Download 按钮
  • 选择对应的操作系统(Windows/macOS/Linux)
  • 下载完成后,双击安装包,按默认选项一路安装即可
命令
# 安装完成后,打开终端(Windows用户打开PowerShell或CMD)
# 输入以下命令验证安装是否成功
ollama --version

如果显示版本号(如 ollama version 0.x.x),说明安装成功。如果提示"命令不存在",请重新打开终端或重启电脑。

提示:Windows 用户:按 Win+R,输入 powershell,回车即可打开终端。
4

下载并运行模型

Ollama 支持多种开源模型,这里推荐适合笔记本的小模型。

  • Qwen3 0.6B:超轻量,2GB内存即可运行,入门首选
  • Qwen3 1.7B:轻量级,4GB内存可运行,中文能力强
  • Gemma 4 1B:轻量多模态,3GB内存可运行
  • Qwen3 4B/8B:平衡版,8GB内存可运行
  • Gemma 4 4B:支持图片理解,8GB内存可运行
  • Qwen3.6 35B-A3B:MoE架构,激活参数仅3B,编程能力强
命令
# 下载并运行 Qwen3 0.6B 模型(最轻量,2GB内存即可)
ollama run qwen3:0.6b

# 或者下载 Qwen3 1.7B(4GB内存,中文能力强)
ollama run qwen3:1.7b

# 或者下载 Gemma 4 1B(3GB内存,支持多模态)
ollama run gemma4:1b

# 或者下载 Qwen3 8B(8GB内存,性能均衡)
ollama run qwen3:8b

# 高配:下载 Qwen3.6 27B(16GB内存,编程能力强)
ollama run qwen3.6:27b

首次运行会自动下载模型,下载完成后即可开始对话。输入问题后按回车即可得到回答,输入 /bye 退出。

提示:下载时间取决于网络速度,0.6B 模型约 500MB,8B 模型约 4GB。下载完成后会缓存到本地,下次启动无需重新下载。
5

常用操作命令

掌握这些常用命令,可以更好地管理本地模型。

  • ollama list:查看已下载的所有模型
  • ollama pull <模型名>:下载模型但不运行
  • ollama rm <模型名>:删除不需要的模型
  • ollama show <模型名>:查看模型详细信息
命令
# 查看已下载的模型
ollama list

# 下载模型(不运行)
ollama pull gemma4:4b

# 删除模型(释放空间)
ollama rm gemma4:4b

# 查看模型信息
ollama show gemma4:4b

这些命令可以帮助您管理本地模型,释放存储空间。

提示:如果磁盘空间不足,可以用 ollama rm 删除不用的模型。模型文件通常在 C:\Users\用户名\.ollama\models 目录下。
6

启动 API 服务

如果您需要在其他应用中使用本地模型,可以启动 API 服务,并用 CC Switch 把本地兼容接口接入 Claude Code、Codex、OpenCode 等 AI 工具。

  • Ollama 默认会启动 API 服务,端口为 11434
  • 可以通过 localhost:11434 访问 API
  • 支持 OpenAI 兼容格式,可以替代云端 API 使用
  • 可以配合 ChatBox、Open WebUI 等工具使用
  • 推荐使用 CC Switch 统一管理本地接口、云端 API 和多个 AI 工具的配置
命令
# 测试 API 是否正常工作
curl http://localhost:11434/api/generate -d '{"model": "gemma4:4b", "prompt": "你好"}'

# 如果安装了 jq,可以格式化输出
curl http://localhost:11434/api/generate -d '{"model": "gemma4:4b", "prompt": "你好"}' | jq

如果返回 JSON 格式的响应,说明 API 服务正常工作。

提示:Windows 用户如果没有 curl 命令,可以用 PowerShell 的 Invoke-WebRequest 代替,或者直接在浏览器访问 localhost:11434 查看服务状态。

配置推荐:用 CC Switch 管理本地和云端模型

启动 Ollama API 后,如果要接入 Claude Code、Codex、Gemini CLI、OpenCode 或 OpenClaw,建议使用 CC Switch 统一管理 Base URL、模型名和供应商切换。云端 API 与本地兼容接口可以放在同一个工具里管理,后续切换更方便。

查看 CC Switch 详细教程

推荐模型

以下是适合笔记本电脑运行的小模型,按配置要求从低到高排列:

模型大小最低内存显卡要求特点命令
Qwen3 0.6B0.6B2GB无需超轻量入门ollama run qwen3:0.6b
Qwen3 1.7B1.7B4GB无需轻量中文首选ollama run qwen3:1.7b
Gemma 4 1B1B3GB无需轻量多模态ollama run gemma4:1b
Qwen3 4B4B8GB4GB+中文能力最强ollama run qwen3:4b
Gemma 4 4B4B8GB4GB+支持图片理解ollama run gemma4:4b
Qwen3 8B8B8GB4GB+性能均衡ollama run qwen3:8b
Qwen3.6 35B-A3B35B(激活3B)32GB8GB+MoE架构,编程能力强ollama run qwen3.6:27b
Gemma 4 12B12B16GB8GB+高配多模态ollama run gemma4:12b
Qwen3 14B14B16GB8GB+高性能中文ollama run qwen3:14b

Qwen3.6 特性介绍

MoE 架构优势

  • 总参数 35B,激活参数仅 3B
  • 推理速度快,资源占用少
  • 编程和代码能力突出

部署方式

  • Ollama:ollama run qwen3.6:27b
  • LM Studio:图形界面,零配置
  • llama.cpp:极客路线,WSL2 编译

Gemma 4 特性介绍

架构创新

  • Sparse MoE(稀疏混合专家)架构
  • 只激活部分参数,笔记本也能跑
  • 更少的计算资源,更高的效率

功能特性

  • 原生支持文本+视觉多模态
  • 128K 超长上下文
  • 原生函数调用支持
  • 生成速度快,交互体验好

常见问题

Qwen3.6 是什么?和 Qwen3 有什么区别?

Qwen3.6 是阿里云发布的新一代模型,采用 MoE(混合专家)架构,总参数 35B 但激活参数仅 3B,推理速度快。相比 Qwen3,Qwen3.6 编程能力更强,适合代码生成和编程辅助任务。

Gemma 4 和 Gemma 3 有什么区别?

Gemma 4 是 Google 于 2026 年 3 月发布的新一代模型,采用 Sparse MoE(稀疏混合专家)架构,只激活部分参数,速度更快。相比 Gemma 3,Gemma 4 支持更长的上下文(128K)、原生多模态和函数调用能力。

下载模型很慢怎么办?

Ollama 默认从国外服务器下载,国内用户可能较慢。解决方案:①使用代理;②在网络较好的时段下载(如凌晨);③耐心等待,首次下载后会缓存到本地。

运行模型时电脑很卡怎么办?

模型运行会占用大量内存和CPU。解决方案:①关闭其他大型应用;②使用更小的模型(如 Gemma4-1B);③减少上下文长度;④保持电源连接并启用高性能模式。

模型回答质量不好怎么办?

小模型能力有限,可以尝试:①使用更大的模型(如从1B升级到4B);②优化提问方式,问题要具体明确;③对于复杂任务,考虑使用云端API。

如何更新模型到最新版本?

运行 ollama pull <模型名> 即可更新到最新版本。例如:ollama pull gemma4:4b。Ollama 会自动检测并下载更新。

Qwen3.6 35B 在笔记本上能跑吗?

可以,但需要较高配置。Qwen3.6 采用 MoE 架构,激活参数仅 3B,量化后约 21GB。建议配置:①32GB 内存 + 8GB 显存;②使用 Q4_K_S 量化版本;③限制上下文长度(8k-32k);④增大 Windows 页面文件到 64GB。配置较低建议使用 Qwen3-8B 或更小模型。

ollama 命令提示"不是内部或外部命令"怎么办?

这说明 Ollama 没有正确安装或环境变量没有配置好。解决方案:①重新安装 Ollama;②安装完成后重启电脑;③如果还是不行,手动将 Ollama 安装目录添加到 PATH 环境变量。

模型下载到一半失败了怎么办?

重新运行相同的 ollama run 命令即可,Ollama 会自动断点续传。如果还是失败,可以尝试:①检查网络连接;②使用代理;③删除不完整的文件后重新下载。

本地模型和云端 API 哪个更好?

各有优劣:①本地模型:免费、隐私好、离线可用,但能力较弱;②云端 API:能力强、无需硬件,但需要付费和网络。建议:轻度使用用本地,重度使用用云端。

如何查看我的电脑有多少内存?

Windows:右键"此电脑" → 属性 → 查看"已安装的RAM"。Mac:点击左上角苹果图标 → 关于本机 → 查看"内存"。Linux:在终端运行 free -h。

Ollama 安装后模型文件在哪里?

Windows:C:\Users\你的用户名\.ollama\models。Mac/Linux:~/.ollama/models。如果 C 盘空间不足,可以设置环境变量 OLLAMA_MODELS 指向其他盘符。

使用提示

  • 首次下载模型需要一定时间,请耐心等待
  • 模型文件会缓存到本地,下次启动无需重新下载
  • 可以同时下载多个模型,按需切换使用
  • 遇到问题可以查看 Ollama 官方文档

注意事项

  • 本地模型能力有限,复杂任务建议使用云端API
  • 模型运行时会占用较多系统资源
  • 定期更新模型以获得最佳体验
  • 重要数据请勿完全依赖本地模型处理

相关内容

下一步推荐

本地部署遇到问题?查看我们的 FAQ 或访问 Ollama 官方文档获取帮助。