本地部署
学习如何在本地部署开源AI模型,从环境准备到服务启动,掌握完整的本地部署流程
开源模型部署方案
硬件要求指南
低
最低配置内存
8GB RAM
GPU
CPU推理(速度慢)
推荐模型
Llama 2 7B(量化版)
中
推荐配置内存
16GB RAM
GPU
RTX 3060 12GB / 4060 Ti 16GB
推荐模型
Llama 2 13B / Qwen 14B
高
高性能配置内存
32GB+ RAM
GPU
RTX 4090 / A100 40GB+
推荐模型
Llama 2 70B / Qwen 72B
云端GPU租赁方案
没有高性能显卡?可以租用云端GPU
AutoDL
国内GPU租赁平台,价格实惠
国内访问快Featurize
提供多种GPU配置
环境丰富Google Colab Pro
免费版可用,Pro版更强
易上手部署步骤详解
1
环境准备Python环境
推荐Python 3.10+,使用conda管理虚拟环境
conda create -n llm python=3.10CUDA环境
如有NVIDIA显卡,安装CUDA 11.8+和cuDNN
nvidia-smi # 检查GPU状态Docker(可选)
使用Docker可简化环境配置
docker pull ollama/ollama2
模型下载与配置Ollama 方式(最简单)
# 下载模型ollama pull llama2# 查看已下载模型ollama list3
服务启动与测试启动服务
# Ollama启动API服务(默认端口11434)ollama serve# 测试APIcurl http://localhost:11434/api/generate -d '{"model": "llama2", "prompt": "Hello"}'API接口暴露
本地API服务搭建
使用FastAPI或Flask封装模型服务
FastAPI示例
from fastapi import FastAPI
from pydantic import BaseModel
app = FastAPI()
class Prompt(BaseModel):
text: str
@app.post("/generate")
async def generate(prompt: Prompt):
result = model.generate(prompt.text)
return {"text": result}安全配置
认证、限流等安全措施
认证机制
- • API Key认证
- • JWT Token验证
- • IP白名单限制
限流措施
- • 请求频率限制
- • 并发连接数控制
- • Token消耗统计