Szybkie zliczanie ilości ustawionych bitów w rejestrze m128i

Question

Szybkie zliczanie ilości ustawionych bitów w rejestrze m128i

Powinienem policzyć ilość bitów zbioru rejestru _ _ m128i. W szczególności powinienem napisać dwie funkcje, które są w stanie policzyć liczbę bitów rejestru, używając następujących sposobów.

całkowita liczba ustawionych bitów rejestru.
Liczba ustawionych bitów dla każdego bajtu rejestru.

Czy istnieją wewnętrzne funkcje, które mogą wykonać, w całości lub częściowo, powyższe operacje?

9

c sse simd sse2

Author: enzom83, 2013-06-28

Source

4 answers

Oto baza wersji Bit Twidling hacków-liczenia ustawionych bitów równolegle z nazwami podobnymi do innych funkcji wewnętrznych, a także niektórych dodatkowych funkcji dla 16 wektorów 32 i 64 bitowych

#include "immintrin.h"

/* bit masks: 0x55 = 01010101, 0x33 = 00110011, 0x0f = 00001111 */
static const __m128i m1 = {0x5555555555555555ULL,0x5555555555555555ULL};
static const __m128i m2 = {0x3333333333333333ULL,0x3333333333333333ULL};
static const __m128i m3 = {0x0f0f0f0f0f0f0f0fULL,0x0f0f0f0f0f0f0f0fULL};
static const __m128i m4 = {0x001f001f001f001fULL,0x001f001f001f001fULL};
static const __m128i m5 = {0x0000003f0000003fULL,0x0000003f0000003fULL};

__m128i _mm_popcnt_epi8(__m128i x) {
    /* Note: if we returned x here it would be like _mm_popcnt_epi1(x) */ 
    __m128i y;
    /* add even and odd bits*/
    y = _mm_srli_epi64(x,1);  //put even bits in odd place
    y = _mm_and_si128(y,m1);  //mask out the even bits (0x55)
    x = _mm_subs_epu8(x,y);   //shortcut to mask even bits and add
    /* if we just returned x here it would be like _mm_popcnt_epi2(x) */ 
    /* now add the half nibbles */
    y = _mm_srli_epi64 (x,2); //move half nibbles in place to add
    y = _mm_and_si128(y,m2);  //mask off the extra half nibbles (0x0f)
    x = _mm_and_si128(x,m2);  //ditto
    x = _mm_adds_epu8(x,y);   //totals are a maximum of 5 bits (0x1f)
    /* if we just returned x here it would be like _mm_popcnt_epi4(x) */ 
    /* now add the nibbles */
    y = _mm_srli_epi64(x,4);  //move nibbles in place to add
    x = _mm_adds_epu8(x,y);   //totals are a maximum of 6 bits (0x3f)
    x = _mm_and_si128(x,m3);  //mask off the extra bits
    return x;
}

__m128i _mm_popcnt_epi16(__m128i x) {
    __m128i y;
    x = _mm_popcnt_epi8(x);    //get byte popcount
    y = _mm_srli_si128(x,1);   //copy even bytes for adding
    x = _mm_add_epi16(x,y);    //add even bytes into the odd bytes
    return _mm_and_si128(x,m4);//mask off the even byte and return
}

__m128i _mm_popcnt_epi32(__m128i x) {
    __m128i y;
    x = _mm_popcnt_epi16(x);   //get word popcount
    y = _mm_srli_si128(x,2);   //copy even words for adding
    x = _mm_add_epi32(x,y);    //add even words into odd words
    return _mm_and_si128(x,m5);//mask off the even words and return
}

__m128i _mm_popcnt_epi64(__m128i x){
    /* _mm_sad_epu8() is weird
       It takes the absolute difference of bytes between 2 __m128i
       then horizontal adds the lower and upper 8 differences
       and stores the sums in the lower and upper 64 bits
    */
    return _mm_sad_epu8(_mm_popcnt_epi8(x),(__m128i){0});
}

int _mm_popcnt_si128(__m128i x){
    x = _mm_popcnt_epi64(x);
    __m128i y = _mm_srli_si128(x,8);
    return _mm_add_epi64(x,y)[0];
    //alternative: __builtin_popcntll(x[0])+__builtin_popcntll(x[1]);
}

1

Author: technosaurus,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-02-01 17:04:22

Jak wspomniano w pierwszym komentarzu, gcc 3.4 + oferuje łatwy dostęp do (miejmy nadzieję optymalnego) wbudowanego za pośrednictwem

int __builtin_popcount (unsigned int x) /* Returns the number of 1-bits in x. */

Jak podano tutaj: http://gcc.gnu.org/onlinedocs/gcc-3.4.3/gcc/Other-Builtins.html#Other%20Builtins

Nie do końca odpowiada na pytanie za 128 bitów, ale daje mi ładną odpowiedź na pytanie, które miałem, gdy tu wylądowałem:)

0

Author: yota,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2014-04-29 15:19:14

Edit: chyba nie rozumiałem, czego szuka OP, ale podtrzymuję swoją odpowiedź na wypadek, gdyby była przydatna dla kogoś innego, kto się na to natknie.

C zapewnia kilka ładnych operacji bitowych.

Oto kod do zliczania liczby bitów ustawionych w liczbie całkowitej:

countBitsSet(int toCount)
{
    int numBitsSet = 0;
    while(toCount != 0)
    {
        count += toCount % 2;
        toCount = toCount >> 1;
    }
    return numBitsSet;
}

Wyjaśnienie:

toCount % 2

Zwraca ostatni bit w naszej liczbie całkowitej. (Dzieląc przez dwa i sprawdzając resztę). Dodajemy to do naszej liczby całkowitej, a następnie przesuwamy bity naszej wartości toCount przez jeden. Ta operacja powinna być kontynuowana, dopóki nie ma więcej bitów ustawionych w toCount (gdy toCount jest równe 0)

Aby zliczyć liczbę bitów w określonym bajcie, należy użyć maski. Oto przykład:

countBitsInByte(int toCount, int byteNumber)
{
    int mask = 0x000F << byteNumber * 8
    return countBitsSet(toCount & mask)
}

Powiedzmy, że w naszym systemie, uważamy bajt 0 za najmniej znaczący bajt w małym systemie endian. Chcemy utworzyć nowe toCount, aby przejść do naszej wcześniejszej funkcji countBitsSet, maskując bity, które są ustawione na 0. Robimy to przesuwając bajt pełna jedynek (oznaczonych literą F) do żądanej pozycji (numer bajtu * 8 dla 8 bitów w bajcie) i wykonująca bitową operację z naszą zmienną toCount.

-2

Author: Perfect Tommy,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2013-07-05 20:51:49

score 22 · Accepted Answer

Oto kilka kodów, których użyłem w starym projekcie ( jest na ten temat artykuł badawczy ). Funkcja popcnt8 poniżej oblicza liczbę bitów ustawionych w każdym bajcie.

SSE2-tylko wersja (oparta na algorytmie 3 w Hacker ' s Delight book):

static const __m128i popcount_mask1 = _mm_set1_epi8(0x77);
static const __m128i popcount_mask2 = _mm_set1_epi8(0x0F);
static inline __m128i popcnt8(__m128i x) {
    __m128i n;
    // Count bits in each 4-bit field.
    n = _mm_srli_epi64(x, 1);
    n = _mm_and_si128(popcount_mask1, n);
    x = _mm_sub_epi8(x, n);
    n = _mm_srli_epi64(n, 1);
    n = _mm_and_si128(popcount_mask1, n);
    x = _mm_sub_epi8(x, n);
    n = _mm_srli_epi64(n, 1);
    n = _mm_and_si128(popcount_mask1, n);
    x = _mm_sub_epi8(x, n);
    x = _mm_add_epi8(x, _mm_srli_epi16(x, 4));
    x = _mm_and_si128(popcount_mask2, x);
    return x;
}

Wersja SSSE3 (ze względu na Wojciech Mula):

static const __m128i popcount_mask = _mm_set1_epi8(0x0F);
static const __m128i popcount_table = _mm_setr_epi8(0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4);
static inline __m128i popcnt8(__m128i n) {
    const __m128i pcnt0 = _mm_shuffle_epi8(popcount_table, _mm_and_si128(n, popcount_mask));
    const __m128i pcnt1 = _mm_shuffle_epi8(popcount_table, _mm_and_si128(_mm_srli_epi16(n, 4), popcount_mask));
    return _mm_add_epi8(pcnt0, pcnt1);
}

Wersja XOP (odpowiednik SSSE3, ale używa instrukcji XOP, które są szybsze NA AMD Bulldozer)

static const __m128i popcount_mask = _mm_set1_epi8(0x0F);
static const __m128i popcount_table = _mm_setr_epi8(0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4);
static const __m128i popcount_shift = _mm_set1_epi8(-4);
static inline __m128i popcount8(__m128i n) {
    const __m128i pcnt0 = _mm_perm_epi8(popcount_table, popcount_table, _mm_and_si128(n, popcount_mask));
    const __m128i pcnt1 = _mm_perm_epi8(popcount_table, popcount_table, _mm_shl_epi8(n, popcount_shift));
    return _mm_add_epi8(pcnt0, pcnt1);
}

Funkcja popcnt64 poniżej liczenia liczba bitów w niskich i wysokich 64-bitowych częściach rejestru SSE:

Wersja SSE2:

static inline __m128i popcnt64(__m128i n) {
    const __m128i cnt8 = popcnt8(n);
    return _mm_sad_epu8(cnt8, _mm_setzero_si128());
}

Wersja XOP:

static inline __m128i popcnt64(__m128i n) {
    const __m128i cnt8 = popcnt8(n);
    return _mm_haddq_epi8(cnt8);
}

Wreszcie, funkcja popcnt128 poniżej policzy liczbę bitów w całym 128-bitowym rejestrze:

static inline int popcnt128(__m128i n) {
    const __m128i cnt64 = popcnt64(n);
    const __m128i cnt64_hi = _mm_unpackhi_epi64(cnt64, cnt64);
    const __m128i cnt128 = _mm_add_epi32(cnt64, cnt64_hi);
    return _mm_cvtsi128_si32(cnt128);
}

Jednak bardziej efektywnym sposobem implementacji popcnt128 jest użycie sprzętowej instrukcji POPCNT (na procesorach, które ją obsługują):

static inline int popcnt128(__m128i n) {
    const __m128i n_hi = _mm_unpackhi_epi64(n, n);
    #ifdef _MSC_VER
        return __popcnt64(_mm_cvtsi128_si64(n)) + __popcnt64(_mm_cvtsi128_si64(n_hi));
    #else
        return __popcntq(_mm_cvtsi128_si64(n)) + __popcntq(_mm_cvtsi128_si64(n_hi));
    #endif
}