Ich habe folgendes Problem:
In __m128i
register gibt es 16 8bit Werte in folgender Reihenfolge:
Was ich erreichen möchte, ist, Bytes effizient zu mischen, um diese Reihenfolge zu erhalten:
%Vor%Es ist tatsächlich analog zur 4x4-Matrix-Transposition, aber arbeitet mit einem 8-Bit-Element in einem Register.
Können Sie mir bitte auf welche Art von SSE-Anweisungen (vorzugsweise <= SSE2) hinweisen? sind dafür geeignet?
Sie werden wirklich SSSE3 dafür verwenden wollen, es ist viel sauberer als zu versuchen, & lt; = SSE2
zu gehenIhr Code sieht etwa so aus:
%Vor% Wenn Sie wirklich SSE2 wollen, genügt das:
(vorausgesetzt, ich interpretiere deine erste Bestellung richtig)
Oder leichter debuggbar:
%Vor%Tags und Links optimization sse simd