sse

SSE (Streaming SIMD Extensions) war die erste von vielen ähnlich bezeichneten Vektorerweiterungen für den x86-Befehlssatz. Zu diesem Zeitpunkt ist SSE im Allgemeinen häufiger ein Catch-All für x86-Vektorbefehle und kein Verweis auf SSE ohne SSE2, SSE3 usw.
2
Antworten

Wählen Sie die eindeutige / Deduplizierung in SSE / AVX

Problem Gibt es rechnerisch machbare Ansätze zur intraregistralen Deduplizierung einer Menge von ganzen Zahlen mit x86 SIMD-Anweisungen? Beispiel Wir haben ein 4-Tupel-Register R1 = {3, 9, 2, 9} und möchten das Register R2 = {3, 9, 2, N...
25.05.2012, 18:54
1
Antwort

pthreads v. SSE schwache Speicherordnung

Funktionieren die Linux glibc pthread-Funktionen auf x86_64 als Zäune für schwach geordnete Speicherzugriffe? (pthread_mutex_lock / unlock sind genau die Funktionen, die mich interessieren). SSE2 liefert einige Anweisungen mit schwacher Speic...
15.06.2014, 20:45
3
Antworten

Wie man den Compiler anweist, nicht ausgerichtete Lasten für __m128 zu generieren

Ich habe Code, der mit __m128 -Werten funktioniert. Ich verwende x86-64 SSE intrinsics auf diesen Werten und ich finde, dass wenn die Werte im Speicher nicht ausgerichtet sind, bekomme ich einen Absturz. Dies liegt an meinem Compiler (in dies...
24.11.2015, 09:04
3
Antworten

Schnelle Speichertransponierung mit SSE, AVX und OpenMP

Ich brauche einen schnellen Memory-Transpose-Algorithmus für meine Gauß'sche Faltungsfunktion in C / C ++. Was ich jetzt mache ist %Vor% Es stellt sich heraus, dass bei dieser Methode die Filtergröße groß (oder größer als erwartet) sein muss...
05.06.2013, 13:22
1
Antwort

Block-Matching-Optimierung mit x86 / x64 Streaming SIMD Extension

Das wird die allererste SO Frage sein, die ich posten werde! %Vor% Ich versuche, eine "Block-Matching" -Implementierung für eine Stereo-Vision-Anwendung unter Verwendung von Intels SSE4.2- und / oder AVX-Eigenarten zu optimieren. Ich verwe...
11.04.2013, 16:09
7
Antworten

Wie viel Beschleunigung durch die Umwandlung von 3D-Mathematik in SSE oder andere SIMD?

Ich verwende 3D-Mathematik in meiner Anwendung ausgiebig. Wie viel Beschleunigung kann ich erreichen, indem ich meine Vektor / Matrix-Bibliothek in SSE, AltiVec oder einen ähnlichen SIMD-Code umwandle?     
22.09.2008, 14:55
5
Antworten

Der leistungsfähigste Weg, um ein Array von einem anderen zu subtrahieren

Ich habe den folgenden Code, der der Engpass in einem Teil meiner Anwendung ist. Ich ziehe nur Array von einem anderen ab. Beide Arrays haben mehr um 100000 Elemente. Ich versuche einen Weg zu finden, dies leistungsfähiger zu machen. %Vor% H...
15.02.2011, 19:58
3
Antworten

C - Zugriff auf Vektorelemente mit der GCC SSE-Vektorerweiterung

Normalerweise arbeite ich mit 3D-Vektoren mit folgenden Typen: %Vor% Initialisierung von Vektoren mit etw. wie: %Vor% und Zugriff auf sie mit etw. wie: %Vor% Jetzt brauche ich eine Vektor-Arithmetik mit SSE-Anweisungen. Ich habe folg...
20.11.2009, 17:12
3
Antworten

Initialisierung eines __m128-Typs von einem 64-Bit-Zeichen ohne Vorzeichen

Die _mm_set_epi64 und ähnliche * _epi64-Anweisungen scheinen zu verwenden und hängen von __m64 -Typen ab. Ich möchte eine Variable vom Typ __m128 initialisieren, so dass die oberen 64 Bits 0 sind, und die unteren 64 Bits davon auf x...
05.05.2014, 19:25
4
Antworten

Schnelles Zählen der Anzahl der gesetzten Bits im __m128i-Register

Ich sollte die Anzahl der gesetzten Bits eines __m128i-Registers zählen. Insbesondere sollte ich zwei Funktionen schreiben, die in der Lage sind, die Anzahl der Bits des Registers auf folgende Weise zu zählen. Die Gesamtzahl der gesetzten Bi...
27.06.2013, 23:37