本地部署

学习如何在本地部署开源AI模型，从环境准备到服务启动，掌握完整的本地部署流程

开源模型部署方案

Ollama

硬件要求指南

低

最低配置

内存

8GB RAM

GPU

CPU推理（速度慢）

推荐模型

Llama 2 7B（量化版）

中

推荐配置

内存

16GB RAM

GPU

RTX 3060 12GB / 4060 Ti 16GB

推荐模型

Llama 2 13B / Qwen 14B

高

高性能配置

内存

32GB+ RAM

GPU

RTX 4090 / A100 40GB+

推荐模型

Llama 2 70B / Qwen 72B

云端GPU租赁方案

没有高性能显卡？可以租用云端GPU

AutoDL

国内GPU租赁平台，价格实惠

国内访问快

Featurize

提供多种GPU配置

环境丰富

Google Colab Pro

免费版可用，Pro版更强

易上手

部署步骤详解

环境准备

Python环境

推荐Python 3.10+，使用conda管理虚拟环境

conda create -n llm python=3.10

CUDA环境

如有NVIDIA显卡，安装CUDA 11.8+和cuDNN

nvidia-smi # 检查GPU状态

Docker（可选）

使用Docker可简化环境配置

docker pull ollama/ollama

模型下载与配置

Ollama 方式（最简单）

# 下载模型ollama pull llama2# 查看已下载模型ollama list

服务启动与测试

启动服务

# Ollama启动API服务（默认端口11434）ollama serve# 测试APIcurl http://localhost:11434/api/generate -d '{"model": "llama2", "prompt": "Hello"}'

API接口暴露

本地API服务搭建

使用FastAPI或Flask封装模型服务

FastAPI示例

from fastapi import FastAPI
from pydantic import BaseModel

app = FastAPI()

class Prompt(BaseModel):
    text: str

@app.post("/generate")
async def generate(prompt: Prompt):
    result = model.generate(prompt.text)
    return {"text": result}

安全配置

认证、限流等安全措施

认证机制

• API Key认证
• JWT Token验证
• IP白名单限制

限流措施

• 请求频率限制
• 并发连接数控制
• Token消耗统计