avx

Twój procesor obsługuje instrukcje, że ten plik binarny TensorFlow nie został skompilowany do użycia: AVX AVX2

Jestem nowy w TensorFlow. Niedawno go zainstalowałem (wersja procesora Windows) i otrzymałem następujący komunikat: Pomy ... co wskazuje, że instalacja się powiodła, ale jest jeszcze coś, co jest złe. Wiesz na czym polega problem i jak go rozwiązać?

FLOPS na cykl dla sandy-bridge i haswell SSE2 / AVX/AVX2

Jestem zdezorientowany, ile flopów na cykl na rdzeń można zrobić z Sandy-Bridge i Haswell. Jak rozumiem to z SSE powinno być ... inkowej (DP), więc osiągają 4 DP FLOPs / cykl dla SSE i 8 DP FLOPs / cykl dla AVX. Ciekawie byłoby przerobić te testy na SP.

Jak sprawdzić, czy procesor obsługuje zestaw instrukcji SSE3?

Czy poniższy kod jest poprawny, aby sprawdzić, czy procesor obsługuje zestaw instrukcji SSE3? Używanie funkcji IsProcessorFe ... ewInstructions = (CPUInfo[2] & 0x1) || false; return bSSE3NewInstructions; } return false; }

Używanie instrukcji procesora AVX: słaba wydajność bez " / arch: AVX"

Mój kod C++ używa SSE i teraz chcę go poprawić, aby wspierać AVX, gdy jest dostępny. Wykrywam więc, kiedy AVX jest dostępny i ... trinsics i generuje kod SSE bez żadnych opcji kompilatora, takich jak /arch:SSE. Ale dla AVX to nie działa z jakiegoś powodu.

Czego brakuje/nie jest optymalna w tej implementacji memcpy?

Zainteresowało mnie napisanie memcpy() jako ćwiczenie edukacyjne. Nie będę pisał całego Traktatu o tym, co zrobiłem i o czym ... e nie jest potrzebny do buforowania docelowej lokalizacji) powinny być przydatne do kopiowania większych buforów. (@Zboson)

Jak wykryć dostępność SSE/SSE2/AVX/AVX2/AVX-512/AVX-128-FMA/KCVI w czasie kompilacji?

Próbuję zoptymalizować niektóre obliczenia macierzy i zastanawiałem się, czy jest możliwe wykrycie w czasie kompilacji, jeśli ... Corner Vector Optymalizacja instrukcji. Biblioteki takie jak FFTW wykrywają/wykorzystują te nowsze optymalizacje instrukcji.

Rozwijanie pętli w celu osiągnięcia maksymalnej przepustowości dzięki Ivy Bridge i Haswell

Obliczam osiem produktów dot na raz z AVX. W moim obecnym kodzie robię coś takiego (przed rozwinięciem): Ivy-Bridge / Sand ... &c[5*vec_size], tmp5); _mm256_storeu_ps(&c[6*vec_size], tmp6); _mm256_storeu_ps(&c[7*vec_size], tmp7); }

Dlaczego ten kod SSE 6 razy wolniejszy bez VZEROUPPER na Skylake?

Próbowałem rozgryźć problem wydajności w aplikacji i w końcu zawęziłem go do naprawdę dziwnego problemu. Poniższy fragment ko ... ochę mieszać z montażem i instrukcje float są tak samo złe jak podwójne. Nie mogłem też wskazać problemu na jedną instrukcję.

Programowanie równoległe z wykorzystaniem architektury Haswell [zamknięty]

Chcę się dowiedzieć o programowaniu równoległym z wykorzystaniem mikroarchitektury procesora Intela Haswell. O używaniu SIMD ... . 2, AVX2 w asm / C / C++ / (jakieś inne langy)?. Czy możesz polecić książki, tutoriale, Zasoby Internetowe, kursy? Dzięki!

Jak używać instrukcji Fused Multiply-Add (FMA) z SSE / AVX

Dowiedziałem się, że niektóre procesory Intel / AMD potrafią jednocześnie mnożyć i dodawać z SSE / AVX:FLOPS na cykl dla sand ... ll)? Czy _mm_add_ps(sum, _mm_mul_ps(a1, b1)) jest automatycznie konwertowana na pojedynczą instrukcję FMA lub mikroprocesor?

SSE-copy, AVX-copy i std::wydajność kopiowania

Starałem się poprawić wydajność operacji kopiowania przez SSE i AVX: #include <immintrin.h> const int sz = 1 ... o jest przyczyną wspomnianego efektu spadku wydajności i czy jest to wskazane jest ręczne wektoryzowanie operacji kopiowania?

FMA3 w GCC: jak włączyć

Mam i5-4250U, który ma AVX2 i FMA3. Testuję kod mnożenia macierzy w GCC 4.8.1 na Linuksie, który napisałem. Poniżej znajduj ... czytu! innymi słowy, powinienem być w stanie poprawić mój kod GEMM całkiem sporo (chociaż jest już trochę szybszy niż Eigen).

Jakie są najlepsze sekwencje instrukcji do generowania stałych wektorowych w locie?

"najlepsza" oznacza najmniejszą liczbę instrukcji (lub najmniejszą liczbę uops, jeśli jakakolwiek Instrukcja dekoduje się do ... rumieniu instrukcji, ale to zwykle nie jest sensowne (nie oszczędza miejsca i zajmuje dużo miejsca w pamięci podręcznej uop.)