操作指南

GPU 云服务器

更新时间 2020-12-01

为了满足用户对高性能计算、视频处理或图形渲染的需求，山河特推出GPU云服务器给有需求的用户使用，用户可以在山河控制台上进行GPU云服务器的创建和使用。

GPU云服务器特性：

1、GPU资源灵活配置

用户可以自定义GPU云服务器的配置，可灵活指定CPU、内存、GPU类型和数量、系统盘大小等，既可以新创建云服务器，也可以对已有云服务器进行 GPU 资源的绑定。

2、高配置GPU

为满足高性能计算的需求，系统提供NVIDIA Tesla P100型号的GPU，单台云服务器可配置2张GPU卡，单机单浮点峰值计算能力最多可达20Tflops，且无虚拟化性能损耗。

Deep Learning App

如果您的需求是深度学习，请优先选择 AppCenter 中的 Deep Learning on ShanHe 应用。

Deep Learning on ShanHe 是一款预配置的深度学习开发环境，其上搭载了多款主流的深度学习框架，可以配合GPU资源加速计算，用于AI开发和模型训练，功能丰富，使用灵活。部署后即可使用，可以省去安装驱动、框架等步骤，提高工作效率。

创建Deep Learning App时可选择云服务器规格以及GPU数量。

GPU云服务器使用步骤

如果您需要针对自己的应用创建GPU云服务器，请按照下述步骤进行。

一、创建GPU云服务器

创建GPU云服务器和创建普通云服务器的步骤是相同的，选择 GPU 云服务器，根据需要选择 GPU 的类型和数量，按照页面向导完善其他信息后即可创建 GPU 云服务器。

GPU云服务器用户可以根据需要选择使用的操作系统，推荐使用Ubuntu Server 16.04.4 LTS 64bit。

二、配置GPU云服务器

以深度学习这一场景为例，创建搭载NVIDIA Tesla P100 GPU的云服务器后，需要自行配置云服务器的驱动和CUDA。下面以Ubuntu Server 16.04.4 LTS 64bit为例，讲解配置过程。

经过测试，CUDA 8.0 和 CUDA 9.1 配合其内置驱动，分别为 375.26 (CUDA 8.0) 和 387.26 (CUDA 9.1) ，均可正常工作，其他版本驱动暂无法正常工作，请依据您的需求选择一个 CUDA 版本。只需下载并安装 CUDA 即可，无需单独安装驱动之后再安装 CUDA 。

(1) 安装前准备工作： CUDA 安装需要 gcc 和 make 的支持，先安装 gcc 和 make

sudo apt-get update
sudo apt-get install gcc make

可选: 安装32位库支持

sudo dpkg --add-architecture i386
sudo apt-get update
sudo apt-get install libc6:i386 libstdc++6:i386

(2) 下载 CUDA： CUDA 8.0 下载地址： https://developer.nvidia.com/cuda-80-ga2-download-archive CUDA 9.1 下载地址： https://developer.nvidia.com/cuda-91-download-archive

请选择 runfile(local) 方式安装，CUDA 8.0 需要下载 Base Installer 和 Patch 2 (Released Jun 26, 2017) ， CUDA 9.1 需要下载 Base Installer ， Patch 1 (Released Jan 25, 2018)， Patch 2 (Released Feb 27, 2018) 和 Patch 3 (Released Mar 5, 2018)。下载后按照 Base ， Patch 1 ， Patch 2 ， Patch 3 的顺序安装。

CUDA 8.0 下载界面：

CUDA 9.1 下载界面：

按照下载页面的说明，依次 sudo sh 对应的 run 文件进行安装。 (3) 验证安装安装完成后，先运行 nvidia-smi 查看显卡信息及驱动版本，确认驱动安装成功。

在本文的安装过程中，必须确认驱动版本为 375.26 (CUDA 8.0) 和 387.26 (CUDA 9.1)。

运行一个 CUDA 计算测试例程，确认 CUDA 正常工作(安装 CUDA 时，会安装对应的例程，在安装过程中提示的文件夹可找到，默认为/home/ubuntu/NVIDIA_CUDA-9.1_Samples，如果make遇到问题，请先安装 gcc， g++ 和 make 工具包)。

cd NVIDIA_CUDA-9.1_Samples/0_Simple/matrixMul
make
./matrixMul

如果CUDA正常工作，将会输出结果 PASS 并测量性能指标。

以上步骤完成后，CUDA 已正常工作，可以继续安装 cuDNN 和深度学习框架，或者其他使用 CUDA 的应用程序。

下一页: 弹性裸金属服务器

这篇文档解决了您的问题吗？

操作指南

本页目录

操作指南

GPU 云服务器

GPU云服务器特性：

Deep Learning App

GPU云服务器使用步骤