了解FMA指令的性能

我想了解如何最大限度地减少我可以在我的CPU上获得的操作数量。 我正在做一个简单的矩阵乘法程序,我有一个Skylake处理器。 我正在查看维基百科页面上关于这个体系结构的拖放信息,并且我正在理解它的缺乏。

根据我的理解,FMA指令允许3路FP输入正确吗? 并允许混合它们之间的相加和相乘。 但是当我只添加两个浮动块时会发生什么? 它是否仅仅乘以一? 我可以在1个周期中添加3个花车,还是将其拆分? 我看到skylake,单精度输入有32个FLOP /周期,但是“ 两个8宽FMA指令 ”的含义是什么?

预先感谢您的解释


FMA在单次操作中计算±a * b±c,并有一个舍入误差。 这就是它所做的,没有别的。 计算a + b + c不能使用FMA指令完成; 你需要两个相关的ADD操作。

根据编译器的不同,您可能必须将编译器选项设置为允许使用FMA指令,因为它们不会给出与乘法和结果相同的结果。 在某些情况下,您可能需要重新安排代码,例如ab + cd + e将计算为x = ab; y = FMA(c,d,x),z = y + e但是e + ab + c * d将被计算为x = FMA(a,b,e)。 z = FMA(c,d,x)。 FFT的基本操作计算可以使用八个浮点运算来执行,并且可以使用四个FMA和两个其他操作重写为十个运算。

“两个8宽FMA指令”意味着它可以执行带有两个256位向量寄存器的FMA指令,每个寄存器包含8个浮点数,其中两个在同一个周期内。

链接地址: http://www.djcxy.com/p/85661.html

上一篇: Understanding FMA instructions performance

下一篇: floating point operations per cycle