sse

SSE (Streaming SIMD Extensions) war die erste von vielen ähnlich bezeichneten Vektorerweiterungen für den x86-Befehlssatz. Zu diesem Zeitpunkt ist SSE im Allgemeinen häufiger ein Catch-All für x86-Vektorbefehle und kein Verweis auf SSE ohne SSE2, SSE3 usw.
3
Antworten

Wie unter Verwendung von SSE 16-Bit-Ganzzahl durch 255 zu teilen?

Ich beschäftige mich mit der Bildverarbeitung. Ich muss den 16-Bit-Integer-SSE-Vektor durch 255 teilen. Ich kann den Shift-Operator nicht wie _mm_srli_epi16 () verwenden, weil 255 kein Vielfaches von Potenz 2 ist. Ich weiß natürlich, dass...
09.02.2016, 06:28
4
Antworten

fehlt NICHT in SSE, AVX?

Ist es meine Einbildung, oder fehlt eine Anweisung PNOT von SSE und AVX? Das heißt, eine Anweisung, die jedes Bit im Vektor umlegt. Wenn ja, gibt es eine bessere Möglichkeit, es als PXOR mit einem Vektor aller 1s zu emulieren? Ziemlich...
05.03.2017, 20:50
6
Antworten

SSE-Code, um die float-Variable basierend auf dem Vergleich auf 0.0f oder 1.0f zu setzen

Ich habe zwei Arrays: char* c und float* f und ich muss diese Operation ausführen: %Vor% Ich suche nach einem schnellen Weg, es zu tun: ohne Bedingungen und mit SSE (4.2 oder AVX) wenn möglich. Wenn float anstelle von char zu...
30.10.2013, 14:56
2
Antworten

SSE2-Code-Optimierung

Ich verwende SSE2-Intrinsics, um die Engpässe meiner Anwendung zu optimieren, und habe die folgende Frage: %Vor% Beim Microsoft C ++ Compiler wird dies nicht kompiliert, weil die Typen __m128i und unsigned int (übergeben an _mm_sll_ep...
03.11.2011, 13:33
2
Antworten

Verwenden von SSE zur Beschleunigung der Berechnung - Speichern, Laden und Ausrichten

In meinem Projekt habe ich Basic-Klasse CVector implementiert. Diese Klasse enthält den Zeiger float * auf das rohe Fließkomma-Array. Dieses Array wird dynamisch mit der Standardfunktion malloc () zugewiesen. Jetzt muss ich einige Berechnunge...
25.02.2011, 14:06
1
Antwort

Bitweise Umwandlung von __m128 nach __m128i auf MSVC

Unter Linux und Mac kann man machen %Vor% Diese Operation kopiert die Bitdarstellung von x in n und ist nützlich für die Implementierung verschiedener bedingungsloser Verzweigungen, die auf SSE-Gleitkommaregistern laufen. Auf MSVC 11 gibt es...
29.11.2012, 18:06
2
Antworten

Profiling SIMD-Code

AKTUALISIERT - Überprüfen Sie unten Wird dies so kurz wie möglich halten. Gerne fügen Sie bei Bedarf weitere Details hinzu. Ich habe etwas Code zum Normalisieren eines Vektors. Ich benutze QueryPerformanceCounter () (eingepackt in eine H...
28.04.2011, 13:16
2
Antworten

sqrt von uint64_t vs. int64_t

Ich habe festgestellt, dass die Berechnung des ganzzahligen Teils der Quadratwurzel von uint64_t viel komplizierter ist als von int64_t . Bitte, hat jemand eine Erklärung dafür? Warum ist es scheinbar viel schwieriger, mit einem Extrabit um...
06.12.2017, 20:40
2
Antworten

SIMD-Latenzdurchsatz

Auf dem Intel Intrisics Guide finden Sie die meisten Anweisungen, aber auch Latenz und Durchsatz. Beispiel: __ m128i _mm_min_epi32 %Vor% Was genau bedeuten diese Zahlen? Ich denke, eine langsamere Latenz bedeutet, dass der Befehl länger...
15.02.2015, 23:02
1
Antwort

SSE-optimierte Emulation von 64-Bit-Ganzzahlen

Für ein Hobby-Projekt, an dem ich gerade arbeite, muss ich bestimmte 64-Bit-Integer-Operationen auf einer x86-CPU emulieren, und es muss schnell sein. Momentan mache ich das über MMX-Anweisungen, aber das ist wirklich ein Schmerz, mit dem i...
19.04.2012, 09:11