无论是一般情况还是对称情况,BLAS Level 2中都有一个带状矩阵 vector 乘积的例程(有关MKL实现的链接)。
cblas_?gbmv
cblas_?sbmv
有没有办法使用多个 vector (不使用外部for循环)来在这种情况下最大化性能?
最佳答案
我认为Spike library应该在对称情况下具有这样的例程。不过,我恐怕再也无济于事了,因为我从未使用过它。
[Polizzi & Sameh, Comp. Fluids (36), 2007]中概述了Spike的算法和实现(用于系统求解)。