我正在训练一个模型,当我在Google Cloud Platform控制台中打开TPU时,它向我显示了CPU利用率(我想是在TPU上)。确实非常低(例如0.07%),所以也许是VM CPU?我想知道培训是否真的合适,或者TPU是否那么强大。
还有其他方法可以检查TPU使用情况吗?也许使用ctpu
命令?
最佳答案
我建议使用插入TensorBoard的TPU分析工具。可以在here中找到有关安装和使用这些工具的良好教程。
TPU训练期间,您将运行探查器。它将为您的TensorBoard添加一个额外的标签,其中包含特定于TPU的配置信息。其中最有用的:
平均步伐时间
主机空闲时间(CPU空闲花费的时间)
TPU空闲时间
使用TPU矩阵单元
基于这些指标,探查器将建议一些方法来开始优化模型,以便在TPU上进行良好的训练。您还可以使用更复杂的配置工具,例如跟踪查看器或最昂贵的图形操作列表。
有关性能调优的一些准则(除了已链接的ch_mike之外),您可以查看TPU performance guide。