无论是一般情况还是对称情况,BLAS Level 2中都有一个带状矩阵 vector 乘积的例程(有关MKL实现的链接)。

cblas_?gbmv

cblas_?sbmv

有没有办法使用多个 vector (不使用外部for循环)来在这种情况下最大化性能?

最佳答案

我认为Spike library应该在对称情况下具有这样的例程。不过,我恐怕再也无济于事了,因为我从未使用过它。

[Polizzi & Sameh, Comp. Fluids (36), 2007]中概述了Spike的算法和实现(用于系统求解)。

07-24 14:30