内部资料，请扫码登录

pigcloud

私有模型接入要求

PIG AI 支持通过在线配置接入私有化（ollama/vllm）模型，部署前请确保满足以下基础要求：

硬件资源：使用专业级GPU服务器，CPU不适用（两个并发推理 100%宕机）显存要求：根据模型规模需预留充足VRAM（32B模型建议48G+，70B模型建议80G+）生产环境：推荐使用NVIDIA A/H及以上专业计算卡，消费级显卡可能无法满足持续推理需求

模型类型	模型名称	说明
聊天模型	qwen2.5:72b	72b参数量聊天模型，更准确需要更多资源
推理模型	deepseek-r1:32b	R1 推理模型
向量模型	bge-m3:latest
视觉模型	minicpm-v:latest

# 安装 ollama

下载 ollama 安装包 (opens new window) 请注意，ollama 版本需要 0.5.0 +

-【可选】配置 ollama 对外服务 (opens new window) ，默认情况下 ollla 默认只允许本地 11434 端口访问，需要配置 ollama 对外服务。

systemctl edit ollama.service

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

systemctl daemon-reload
systemctl restart ollama

# 运行私有模型

# 聊天模型，70b 代表参数集合数量，越大越准确，但是消耗资源越多
ollama run qwen2.5:72b
# 推理模型 R1 模型
ollama run deepseek-r1:32b
# 向量模型
ollama run bge-m3:latest
# 视觉模型
ollama run minicpm-v:latest

请注意运行 70b 模型为生产级模型，需要 GPU 80G+ 的显存，无法在普通 CPU 条件推理，模型推理速度（可以理解为提问响应速度）取决于硬件配置。
如下图：两块（A6000 + 48GB）

# 模型接入

请注意配置的模型和如上 ollama 运行时模型名称一致，否则无法正常调用。

模型配置 > 新增模型
- 供应商：选择 Ollama
- 类型：根据需求选择聊天或推理模型
- 模型名称：选择已在 Ollama 运行的模型，如 PIG AI 前端没有此模型选项可以输入添加

基础使用解析增强

安装 ollama
运行私有模型