使用16C16G云服务器部署本地AI模型供给sub2api中转写代码

分享 2026-04-13 73 0

还是最近codex账号不够用，所以我想了个笨办法。也是受到别的大佬的启发，他提供了一个公开的接口，说是本地部署的GLM-4.7，我试了一下，新业务可以用这个api来写，但是接口限制了1000QPS，用的人太多，后面挤不进去就玩完。

所以我觉得自己有必要也部署一个备用。

使用闲置的高配 16C 16G （对我来说是高配）vps进行本地部署模型写代码。

通过好几家的ai建议，我的选择是ollama+qwen2.5-coder:7b小参数模型进行部署。

经过查询，发现我的vps无法部署GLM-4.7，只能退而求其次选择qwen2.5，毕竟经过了3年的时间证明，而且我的需求就是写代码，这个模型也专门用于写代码的，备用足够。

vps搭建步骤：

安装ollama：

curl -fsSL https://ollama.com/install.sh | sh

下载模型：

ollama run qwen2.5-coder:7b

直接运行，没有这个模型会自动pull下载。

启动ollama，加载模型：

ollama run qwen2.5-coder:7b "hi"

ollama的管理命令：

# 启动服务
sudo systemctl start ollama
# 设置开机自启动
sudo systemctl enable ollama
# 查看服务状态
sudo systemctl status ollama
# 查看日志(如果有问题)
journalctl -u ollama -f

到这里，算是部署完成了，但是我使用的vps，对于vps来说，是有限制的，cpu不允许常驻100%，所以要做限制。

新建配置文件：

sudo nano /etc/systemd/system/ollama.service.d/override.conf

给配置文件填写参数：

[Service]
# 1. 允许外部访问
Environment="OLLAMA_HOST=0.0.0.0"
# 2. 内存常驻(模型永不卸载)
Environment="OLLAMA_KEEP_ALIVE=-1"
# 3. CPU 性能限制 (16核 * 60% = 960%)
CPUQuota=960%
# 4. 优化推理线程(建议 8-10 线程以匹配 60% 限制)
Environment="OLLAMA_NUM_THREAD=10"
# 5. 降低调度优先级,不影响系统响应
Nice=10

之后保存重启即可：

# 重新加载 systemd 配置
sudo systemctl daemon-reload
# 重启服务使限制生效
sudo systemctl restart ollama

同时还发现，如果需要使用api，那就需要把模型加载到内存中，并且常驻内存，不然api调用会出现cpu爆满但模型不输出的问题。

上面的配置已经填写了，按照我的这个配置重新加载即可。

之后就可以在sub2api中配置好api信息（ollama配置一般不需要sktoken验证，所以不要把这个api暴露在公网环境下）直接使用同一台机器部署sub2api即可，我用的sub2api是我使用ai修改后的版本，把原数据库修改为mysql了，且直接打包二进制文件，所以我的部署很方便。

正文结束

使用16C16G云服务器部署本地AI模型供给sub2api中转写代码

vps搭建步骤：

相关推荐

评论区