Kepler GK110 71 亿个晶体管组成,速度最快,是有史以来架构最复杂的微处理器,GK110 新加了许多注重计算性能的创新功能。GK110提供超过每秒 1 万亿次双精度浮点计算的吞吐量,性能效率明显高于之前的 Fermi 架构。除大大提高的性能之外,Kepler 架构在电源效率方面有 3 次巨大的飞跃,使Fermi的性能/功率比提高了3倍。
    
完整 KeplerGK110 架构包括 15个SMX 单元和六个 64 位内存控制器。不同的产品将使用 GK110 不同的配置。例如,某些产品可能部署 13 或 14 个 SMX。

NVIDIA GPU架构与原理分析(五)——Kepler 架构 GPU 概述-LMLPHP

Kepler GK110 的以下新功能提高 GPU 的利用率,简化了并行程序设计,并有助于 GPU 在各种计算环境中部署:

(1)Dynamic Parallelism

能够让 GPU 在无需 CPU 介入的情况下,通过专用加速硬件路径为自己创建新的线程,对结果同步,并控制这些线程的调度。

(2)Hyper-Q

Hyper - Q 允许多个 CPU 核同时在单一 GPU 上启动线程,从而大大提高了 GPU 的利用率并削减了 CPU 空闲时间。Hyper‐Q 增加了主机和 Kepler GK110 GPU 之间的连接总数(工作队列),允许 32 个并发、硬件管理的连接(与 Fermi 相比,Fermi 只允许单个连接)。Hyper - Q 是一种灵活的解决方案,允许来自多个 CUDA 流、多个消息传递接口(MPI)进程,甚至是进程内多个线程的单独连接。

(3)Grid Management Unit

使 DynamicParallelism 能够使用先进、灵活的 GRID 管理和调度控制系统。新 GK110 Grid Management Unit (GMU) 管理按优先顺序在 GPU上执行的Grid。GMU 可以暂停新 GRID 和等待队列的调度,并能中止 GRID,直到其能够执行时为止,为 Dynamic Parallelism 的运行提供了灵活性。GMU 确保 CPUGPU产生的工作负载得到妥善的管理和调度。

(4)英伟达GPUDirect

英伟达GPUDirect能够使单个计算机内的 GPU 或位于网络内不同服务器内的 GPU 直接交换数据,无需进入CPU 系统内存。GPUDirect 中的 RDMA 功能允许第三方设备,例如 SSD、NIC、和 IB 适配器,直接访问相同系统内多个 GPU 上的内存,大大降低MPI 从 GPU 内存发送/接收信息的延迟。还降低了系统内存带宽的要求并释放其他 CUDA 任务使用的 GPUDMA 引擎。Kepler GK110 还支持其他的GPUDirect 功能,包括 Peer-to-Peer 和 GPUDirect for Video。

在下面进一步讨论的该架构的主要功能,包括:

?  新 SMX 处理器架构

?  增强的内存子系统,在每个层次提供额外的缓存能力,更多的带宽,且完全进行了重新设计,DRAM I/O 实施的速度大大加快。

?  贯穿整个设计的硬件支持使其具有新的编程模型功能 
NVIDIA GPU架构与原理分析(五)——Kepler 架构 GPU 概述-LMLPHP

12-17 01:50