fma
Uzyskanie szczytowej przepustowości na Haswell w pamięci podręcznej L1: tylko uzyskanie 62%
[[31]}próbuję uzyskać pełną przepustowość w pamięci podręcznej L1 dla następującej funkcji na procesorach Intela [32]}
floa ... 11, 16*unroll
cmp r9, rcx
jne .L2
sub r8d, 1
jnz .L1
ret
Jak używać instrukcji Fused Multiply-Add (FMA) z SSE / AVX
Dowiedziałem się, że niektóre procesory Intel / AMD potrafią jednocześnie mnożyć i dodawać z SSE / AVX:FLOPS na cykl dla sand ... ll)? Czy _mm_add_ps(sum, _mm_mul_ps(a1, b1)) jest automatycznie konwertowana na pojedynczą instrukcję FMA lub mikroprocesor?
FMA3 w GCC: jak włączyć
Mam i5-4250U, który ma AVX2 i FMA3. Testuję kod mnożenia macierzy w GCC 4.8.1 na Linuksie, który napisałem. Poniżej znajduj ... czytu! innymi słowy, powinienem być w stanie poprawić mój kod GEMM całkiem sporo (chociaż jest już trochę szybszy niż Eigen).