使用16C16G云服务器部署本地AI模型供给sub2api中转写代码
还是最近codex账号不够用,所以我想了个笨办法。也是受到别的大佬的启发,他提供了一个公开的接口,说是本地部署的GLM-4.7,我试了一下,新业务可以用这个api来写,但是接口限制了1000QPS,用的人太多,后面挤不进去就玩完。
所以我觉得自己有必要也部署一个备用。
使用闲置的高配 16C 16G (对我来说是高配)vps进行本地部署模型写代码。
通过好几家的ai建议,我的选择是ollama+qwen2.5-coder:7b小参数模型进行部署。
经过查询,发现我的vps无法部署GLM-4.7,只能退而求其次选择qwen2.5,毕竟经过了3年的时间证明,而且我的需求就是写代码,这个模型也专门用于写代码的,备用足够。
vps搭建步骤:
安装ollama:
curl -fsSL https://ollama.com/install.sh | sh 下载模型:
ollama run qwen2.5-coder:7b 直接运行,没有这个模型会自动pull下载。
启动ollama,加载模型:
ollama run qwen2.5-coder:7b "hi" ollama的管理命令:
# 启动服务
sudo systemctl start ollama
# 设置开机自启动
sudo systemctl enable ollama
# 查看服务状态
sudo systemctl status ollama
# 查看日志(如果有问题)
journalctl -u ollama -f 到这里,算是部署完成了,但是我使用的vps,对于vps来说,是有限制的,cpu不允许常驻100%,所以要做限制。
新建配置文件:
sudo nano /etc/systemd/system/ollama.service.d/override.conf 给配置文件填写参数:
[Service]
# 1. 允许外部访问
Environment="OLLAMA_HOST=0.0.0.0"
# 2. 内存常驻(模型永不卸载)
Environment="OLLAMA_KEEP_ALIVE=-1"
# 3. CPU 性能限制 (16核 * 60% = 960%)
CPUQuota=960%
# 4. 优化推理线程(建议 8-10 线程以匹配 60% 限制)
Environment="OLLAMA_NUM_THREAD=10"
# 5. 降低调度优先级,不影响系统响应
Nice=10 之后保存重启即可:
# 重新加载 systemd 配置
sudo systemctl daemon-reload
# 重启服务使限制生效
sudo systemctl restart ollama 同时还发现,如果需要使用api,那就需要把模型加载到内存中,并且常驻内存,不然api调用会出现cpu爆满但模型不输出的问题。
上面的配置已经填写了,按照我的这个配置重新加载即可。
之后就可以在sub2api中配置好api信息(ollama配置一般不需要sktoken验证,所以不要把这个api暴露在公网环境下)直接使用同一台机器部署sub2api即可,我用的sub2api是我使用ai修改后的版本,把原数据库修改为mysql了,且直接打包二进制文件,所以我的部署很方便。
正文结束
还没有评论,来坐沙发吧。