首页/分享/文章阅读

使用16C16G云服务器部署本地AI模型供给sub2api中转写代码

分享 2026-04-13 73 0

还是最近codex账号不够用,所以我想了个笨办法。也是受到别的大佬的启发,他提供了一个公开的接口,说是本地部署的GLM-4.7,我试了一下,新业务可以用这个api来写,但是接口限制了1000QPS,用的人太多,后面挤不进去就玩完。

所以我觉得自己有必要也部署一个备用。

使用闲置的高配 16C 16G (对我来说是高配)vps进行本地部署模型写代码。

通过好几家的ai建议,我的选择是ollama+qwen2.5-coder:7b小参数模型进行部署。

经过查询,发现我的vps无法部署GLM-4.7,只能退而求其次选择qwen2.5,毕竟经过了3年的时间证明,而且我的需求就是写代码,这个模型也专门用于写代码的,备用足够。

vps搭建步骤:

安装ollama:

curl -fsSL https://ollama.com/install.sh | sh

下载模型:

ollama run qwen2.5-coder:7b

直接运行,没有这个模型会自动pull下载。

启动ollama,加载模型:

ollama run qwen2.5-coder:7b "hi"

ollama的管理命令:

# 启动服务
sudo systemctl start ollama
# 设置开机自启动
sudo systemctl enable ollama
# 查看服务状态
sudo systemctl status ollama
# 查看日志(如果有问题)
journalctl -u ollama -f

到这里,算是部署完成了,但是我使用的vps,对于vps来说,是有限制的,cpu不允许常驻100%,所以要做限制。

新建配置文件:

sudo nano /etc/systemd/system/ollama.service.d/override.conf

给配置文件填写参数:

[Service]
# 1. 允许外部访问
Environment="OLLAMA_HOST=0.0.0.0"
# 2. 内存常驻(模型永不卸载)
Environment="OLLAMA_KEEP_ALIVE=-1"
# 3. CPU 性能限制 (16核 * 60% = 960%)
CPUQuota=960%
# 4. 优化推理线程(建议 8-10 线程以匹配 60% 限制)
Environment="OLLAMA_NUM_THREAD=10"
# 5. 降低调度优先级,不影响系统响应
Nice=10

之后保存重启即可:

# 重新加载 systemd 配置
sudo systemctl daemon-reload
# 重启服务使限制生效
sudo systemctl restart ollama

同时还发现,如果需要使用api,那就需要把模型加载到内存中,并且常驻内存,不然api调用会出现cpu爆满但模型不输出的问题。

上面的配置已经填写了,按照我的这个配置重新加载即可。

之后就可以在sub2api中配置好api信息(ollama配置一般不需要sktoken验证,所以不要把这个api暴露在公网环境下)直接使用同一台机器部署sub2api即可,我用的sub2api是我使用ai修改后的版本,把原数据库修改为mysql了,且直接打包二进制文件,所以我的部署很方便。

正文结束

当前最新版本Claude Code v2.1.104 强制登录的解决办法第三个go重构的应用,nodewarden已经完成部署使用

评论区

还没有评论,来坐沙发吧。