NVIDIA GPU架构与原理分析（四）——Fermi 架构的 GPU 产品

1. Fermi架构产品型号

Tesla Fermi架构的产品有：

? Tesla C1060

n 1个Tesla GPU（240个处理器核）

n 4GB专用内存

n 标准长度、双插槽,适合PCI Express x16(1代或2代)插槽(获取最佳结果推荐使用2代)

? Tesla C2050/C2070

? Tesla C2075

? Tesla C870

? Tesla D870

? Tesla S870 1U系统

n 4个Tesla C870GPU

? Tesla M2050/M2070

? Tesla M2075

? Tesla M2090

? Tesla S2050 1 U系统

n 4个Tesla C2050GPU

2. Tesla GPU框图

下图是Tesla GPU的框图，可以看到GPU卡的主要部分包括GPU、内存控制器和主机PCIe接口，不同的GPU卡使用的GPU型号不同，但以上三个部分的构成是不变的。
NVIDIA GPU架构与原理分析（四）——Fermi 架构的 GPU 产品-LMLPHP

3. Tesla Fermi GPU的共同特性

以下是Fermi架构各种GPU的共同特性：

ECC内存	杰出的计算精度与可靠性能够满足关键应用的重要需求。能够为存储器中的数据提供保护功能，从而为应用程序增强数据完整性和可靠性。寄存器文件、L1/L2高速缓存、共享存储器以及DRAM均受ECC的保护。
Parallel DataCache	能够为物理效果解算器、光线追踪以及稀疏矩阵乘法等诸多算法加速，在这些算法中，数据地址事先都是未知的。每个流式多处理器模块均包含一个可配置的L1高速缓存，所有处理器核心使用统一的L2高速缓存
GigaThread 引擎	通过多项技术实现了吞吐量的最大化，其中包括10倍于上一代架构的高速上下文切换、并发内核执行以及改良的线程块调度。
CUDA 编程环境广泛支持编程语言与APIs	开发人员无论选择C语言、C++、OpenCL、DirectCompute还是选择Fortran语言，都能够实现应用程序的并行机制，进而利用“Fermi”GPU的创新架构
异步传输功能	计算核心在处理其它数据的同时还能够在PCIe总线上传输数据，因而增强了系统性能。即便是地震处理这类需要大量数据传输的应用程序，也能够通过事先将数据传输至本地存储器的方法来最大限度提升计算效率。
高速PCI-E2.0数据传输	CPU和GPU之间更快、更高的带宽通信
IEEE 754 单精度&双精度浮点运算单元	单片上获取最高的浮点性能，满足应用程序的精度需求
每颗GPU最多配备6GB 的GDDR5内存	在附属于GPU的本地内存存储更大的数据集，最大化性能同时减少了数据传输
共享数据内存	几组处理器核可以共同使用低延迟的内存
支持的操作系统	Windows XP，Windows Vista，Windows 7 (64位和32位) Linux (64位和32位)

4. Tesla S2050 1U 系统

计算处理器：

? 4个Tesla C2050GPU

? 12 GB的总内存（每个GPU 3GB）

系统架构

Tesla S2050 GPU 计算系统基于20系列GPU构建，可以通过两个PCIe连接到单个主机，或者通过每个PCIe连接一个主机的方式连接到两个单独的主机上。每个PCIe总线连接到4个GPU中的两个处理器。如果仅连接了一个PCIe线缆，那么仅有两个GPU可用。

NVIDIA GPU架构与原理分析（四）——Fermi 架构的 GPU 产品-LMLPHP

登高望远海