我有一个运行 Ubuntu 12.04 服务器的 headless 工作站,最近安装了新的 Tesla C2070 卡,但是从 CUDA SDK 运行示例时,我收到以下错误:

NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction
[reduction] starting...

Using Device 0: Tesla C2070

Reducing array of type int

16777216 elements
256 threads (max)
64 blocks

reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.

实际上,除了“deviceQuery”之外的所有其他示例都会发生此错误。

我正在使用内核 3.2.0、nvidia 驱动程序 295.41 和 Cuda 4.2.9。

经过大量搜索,找到了禁用 ecc 支持的建议:
   nvidia-smi -g 0 --ecc-config=0

哪个有效。但问题是 GPU 计算的可靠性如何
禁用 ecc 支持?

任何建议、建议或解决方案将不胜感激。

-康斯坦丁

最佳答案

我想知道这是否可能是某种兼容性问题,而不是一张坏卡。我在使用相同 Ubuntu 版本的 Tesla C2075 时遇到了同样的问题。我们联系了 nVidia,他们告诉我们双位 ECC 错误(如在 linux 中使用 nvidia-smi -q 所见)意味着卡可能已损坏。我们获得了替代品,但它有完全相同的问题。

我所拥有的两块板似乎不太可能以相同的方式损坏,所以如果我们能找到合适的,我们将在另一台机器上尝试。

我会发布我们学到的任何有趣的东西。

关于cuda - 禁用对 Tesla C2070 和 Ubuntu 12.04 的 ECC 支持,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/12295768/

10-11 06:36