大约 100 × 100 的规模, 当这种规模在微处理器的缓冲中容易解决时, 此法已经不再使用。为了克服此问题, 开发了新的规模更大的 Linpack ,其名称为 High Performance Linpack (HPL) 。 HPL 版 Linpack 一般用于 TOP500 超级计算机站上的并列式超级计算机。为了运行 HPL ,需要 MPI 和基本线性代数子方程(BLAS) 或矢量图形信号处理库(VSIPL) 两者之一。 HPL 可以测试和记录解决问题的时间, 在每个 HPL 问题的解决步骤是相同的, 一旦步骤相同只需要知道解决问题的时间就可以很容易的推出运算的能力。 HPL 的测试值会受到很多因素的影响, 但是主要的有两个因素, 一是网络的性能, 二是平均每个 CPU 获得的内存大小。( 一般针对于 SMP 来说) HPL 与其前辈不同,因为,使用者可以选择矩阵的规模(问题规模) 。对于最好的系统性能, 目标是使用能与内存匹配的最大的问题规模。为此, 推荐接近内存总容量的 80% 的问题规模。如果问题规模太大,则可能出现(与磁盘的)交换而显著降低性能。使用基准测试一般需要和收集的信息包括: R: 它是系统的最大的理论峰值性能,按 GFLOPS 表示。如 10个 Pentium III CPU 的 Rpeak 值。 N: 给出有最高 GFLOPS 值的矩阵规模或问题规模。正如拇指规则,对于最好的性能,此数一般不高于总内存的 80% 。 Rmax: 在 Nmax 规定的问题规模下,达到的最大 GFLOPS 。 NB: 对于数据分配和计算粒度, HPL 使用的块尺度 NB。小心选择 NB 尺度。从数据分配的角度看, 最小的 NB 应是理想的; 但太小的 NB 值也可以限制计算性能。虽然最好值取决于系统的计算/ 通信性能比,但有代表性的良好块规模是 32到 256 个间隔。