Nvidia MPS 的简单介绍

本文最后更新于：2023年11月6日晚上

背景

对于这样一个 cuda 进程 :

发射一个进程和同时发射四个进程, 四个进程的 每个进程 执行时间都是单个进程的 4 倍, 说明实际上进程是「串行执行」的

这里以三个进程切换为例:

实际上 GPU 的进程执行是一种 「轮转调度」 的方式, 每个进程的 context 在不断被切换, 每个时刻只有一个进程在 GPU 上执行, 无法达到「并行」, 并且由于上下文切换的开销, 吞吐率反而下降.

Hyper-Q 是一个需要 硬件支持 的特性, 允许多个 CPU 线程或者进程同时 加载任务 到一个 GPU 上, 实现 CUDA kernels 的 并发执行

示例代码:

当没有 Hyper Q 时 (只有前一个 stream 的最后一个 kernel 和下一个 stream 的第一个 kernel 存在 overlap):

当存在 Hyper Q 时:

最大用户连接数量即 可并发执行的进程数量

MPS 的使用无须修改程序代码, 只需要修改程序运行的「模式」

相当于设置 GPU 上只允许有一个 context

1	`sudo nvidia-smi -i 0 -c EXCLUSIVE_PROCESS`

1	`nvidia-cuda-mps-control -d`

1	`ps -ef \| grep mps`

阅读

#GPU #Nvidia #Hyper Q #MPS

Nvidia MPS 的简单介绍

https://blog.roccoshi.top/posts/1991/

作者

Moreality

发布于

2023年11月6日

许可协议