sse, Seitenzahl 4

SSE (Streaming SIMD Extensions) war die erste von vielen ähnlich bezeichneten Vektorerweiterungen für den x86-Befehlssatz. Zu diesem Zeitpunkt ist SSE im Allgemeinen häufiger ein Catch-All für x86-Vektorbefehle und kein Verweis auf SSE ohne SSE2, SSE3 usw.

Antwort

Vectorizing Modular Arithmetic

Ich versuche, einen einigermaßen schnellen komponentenweisen Vektoradditionscode zu schreiben. Ich arbeite mit 64-Bit-Ganzzahlen (signiert, glaube ich). Die Funktion ist %Vor% Ich kompiliere mit icc -std=gnu99 -O3 (icc, damit ich späte...

16.12.2013, 06:35

Antworten

Wie behandeln Compiler SSE (oder andere) intrinsische Funktionen?

Vor einiger Zeit habe ich irgendwo gelesen, dass SSE-Eigenfunktionen zu effizientem Maschinencode kompilieren, weil Compiler sie anders behandeln als gewöhnliche Funktionen. Ich bin am Wandern, wie wirklich Compiler es tun und was C-Programmiere...

15.04.2011, 13:03

Antworten

Das am häufigsten auftretende Element in einem SSE-Register finden

Hat jemand irgendwelche Gedanken darüber, wie man den Modus (Statistik) eines Vektors von 8-Bit-Ganzzahlen in SSE4.x berechnet? Um dies zu verdeutlichen, wären dies 16x8-Bit-Werte in einem 128-Bit-Register. Ich möchte das Ergebnis als eine Ve...

03.08.2017, 05:56

Antworten

Schnellster Weg, um ein Byte-Array mit vielen anderen zu vergleichen?

Ich habe eine Schleife mit folgender Struktur: Berechne ein Byte-Array mit der Länge k (irgendwo langsam) Finde heraus, ob das berechnete Byte-Array mit irgendwelchen in einer Liste von N Byte-Arrays übereinstimmt, die ich habe. Wiederho...

17.01.2014, 10:35

Antworten

Haben x86-SSE-Anweisungen eine automatische Freigabe-Übernahme-Reihenfolge?

Wie wir aus C11-memory_order wissen: Ссылка Und das gleiche aus C ++ 11-std :: memory_order: Ссылка Auf stark geordneten Systemen ( x86 , SPARC, IBM Mainframe), release-act-Bestellung ist automatisch. Keine zusätzlichen CPU-Anwei...

30.09.2013, 11:30

Antworten

Logarithmus mit SSE, oder wechseln zu FPU?

Ich mache einige statistische Berechnungen. Ich brauche sie, um schnell zu sein, also schrieb ich das meiste davon um, um SSE zu verwenden. Ich bin ziemlich neu, also habe ich mich gefragt, was der richtige Ansatz ist: Soweit ich weiß, gibt e...

17.01.2012, 23:08

Antworten

SSE intrinsics - Vergleich if / else Optimierung

Ich habe versucht, einen Code zu optimieren, der rohe Pixeldaten verarbeitet. Derzeit ist die C ++ - Implementierung des Codes zu langsam, also habe ich versucht, einige Gründe mit SSE intrinsics (SSE / 2/3, die nicht 4 verwenden) mit MSVC 2008...

24.01.2012, 12:07

Antworten

128-Bit-Werte - Von XMM-Registern zum allgemeinen Zweck

Ich habe ein paar Fragen bezüglich der Verschiebung von XMM-Werten in allgemeine Register. Alle auf SO gefundenen Fragen konzentrieren sich auf das Gegenteil, nämlich die Übertragung von Werten in GP-Registern nach XMM. Wie kann ich einen X...

17.05.2017, 07:44

Antwort

Wie initialisiert man __m128i Array statisch in gcc?

Ich portiere einen SSE-Optimierungscode von Windows nach Linux. Und ich habe festgestellt, dass der folgende Code, der in MSVC gut funktioniert, in GCC nicht funktioniert. Der Code soll ein Array von __m128i initialisieren. Jedes __mi28i enthält...

19.03.2013, 12:15

Antwort

Wie kann ich AES-NI-Eigenarten auf einem Mac verwenden?

Ich versuche eine C-Anwendung auf einem Mac zu kompilieren. Ich benutze SSE4 und AES-NI-Intrinsik. Unter Linux rufe ich einfach gcc mit den Flags -msse4 und -maes auf und füge den Header wmmintrin.h ein. Ich kann SSE-Intrinsics wie _mm_add...

28.09.2012, 05:51