RTX5070ti部署Gpustack 踩坑指南-部署VLLM最新版本

2025年7月18日 844点热度 0人点赞 0条评论

智能摘要

文章介绍了在RTX 5070ti显卡上部署Gpustack和最新版本VLLM的注意事项和具体步骤。由于版本依赖较强，需使用CUDA 12.8以避免出现sm_120不可用的错误。作者推荐使用NVIDIA官网下载CUDA 12.8.1并以runfile方式安装，避免覆盖已有的显卡驱动。随后通过配置环境变量和创建虚拟环境安装VLLM，并通过软链接将VLLM接入GPUstack的指定路径以成功运行后端服务。整个流程强调版本适配和安装方法选择。

— 此摘要由AI生成仅供参考。

对于50系显卡，我的是5070ti，cuda版本要12.8的版本不然会报sm_120不可用，建议pip安装之前先切到阿里源，清华源不稳定会报403

因此需要进行踩坑处理；

RTx5070ti 对于 cuda 、pytorch 、vllm 版本有非常强的版本号依赖；

1.下载CUDA
由于我装完 Ubuntu22.04 后就自动带了最新的显卡驱动，就没有再去配置驱动。

先查看驱动能支持的CUDA最高版本，这里显示可支持到12.8。

nvidia-smi

在CUDA的说明文档可查看CUDA对应的驱动版本要求。

在 CUDA Toolkit Archive 查找需要的 CUDA 版本，这里采用版本 12.8.1，也可以采用其它版本。

选择对应的12.8安装版本进行下载，为了不覆盖已经安装的驱动程序，这里采用了 "runfile (local)" 类型安装：

# 下载安装包
wget https://developer.download.nvidia.com/compute/cuda/12.8.1/local_installers/cuda_12.8.1_570.124.06_linux.run

2. 安装CUDA
下载好之后开始安装：

# 设置安装包可执行
chmod +x cuda_12.8.1_570.124.06_linux.run

# 运行安装，需要等待几十秒
sudo sh cuda_12.8.1_570.124.06_linux.run
、
1.等待终端出现下面的界面后，按方向键选择 “Continue” 按 Enter 确认：

2.输入 “accept” 接受协议：

3.选择是否安装Driver，因已经安装了最新的驱动，这里按 Enter 取消选中，选择不安装，然后移动至 “Install” 按 Enter 确认安装：

等待几十秒，安装完成后显示如下：

3.配置环境

在 ~/.bashrc 最后添加 CUDA 的路径：

# cuda 12.8
export PATH=$PATH:/usr/local/cuda-12.8/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.8/lib64

配置后需要更新：

source ~/.bashrc

如上安装完毕；

2. 安装 vllm；

这条指令可以解决50系显卡安装vllm的问题且不需要编译，NVCC工具链需要12.8版本。

可以创建虚拟环境：

#创建虚拟环境：

python3 -m venv vllm_5070

#激活虚拟环境

source vllm_5070/bin/activate

安装：pip install -U vllm --extra-index-url https://download.pytorch.org/whl/cu128 --extra-index-url https://wheels.vllm.ai/nightly

将vllm 链接到指定目录：

sudo ln -s ~/vllm_5070/vllm_5070/bin/vllm /var/lib/gpustack/bin/vllm_v0.9.2

GPUstack 运行后端，选择版本填入v0.9.2 ; 就可以成功啦；

本作品采用知识共享署名 4.0 国际许可协议进行许可

RTX5070ti部署Gpustack 踩坑指南-部署VLLM最新版本

文章评论