Punktprodukt - SSE2 vs BLAS

Question

Punktprodukt - SSE2 vs BLAS

9

Was ist meine beste Wette für die Berechnung des Skalarprodukts eines Vektors x mit einer großen Anzahl von Vektoren y_i, wobei x und y_i eine Länge von etwa 10k haben.

Schieben Sie die y's in eine Matrix und verwenden Sie eine optimierte s/dgemv Routine?
Oder versuchen Sie vielleicht, eine SSE2-Lösung manuell zu codieren (ich habe keine SSE3, laut cpuinfo).

Ich suche hier nur eine allgemeine Anleitung, also werden alle Vorschläge nützlich sein.
Und ja, ich brauche die Aufführung. Danke für jedes Licht.

optimization c intrinsics

Aamir 07.07.2009, 03:34

quelle

5 Antworten

Tags und Links optimization c intrinsics

Django: Verwenden von Annotate, Count und Distinct in einem Queryset HRESULT: 0x80010105 (RPC_E_SERVERFAULT) Frage

score 4 · Answer 1

4

Ich denke, GPUs sind speziell dafür ausgelegt, Operationen (ua) schnell durchzuführen. Sie könnten also wahrscheinlich DirectX- oder OpenGL-Bibliotheken verwenden, um die Vektoroperationen durchzuführen. D3DXVec2Dot Dadurch sparen Sie auch CPU-Zeit.

Patrick Gryciuk 07.07.2009 04:31

quelle

score 1 · Answer 2

1

Alternativen für optimierte BLAS-Routinen:

Wenn Sie Intel Compiler verwenden, können Sie hab Zugang zu Intel MKL
Für andere Compiler bietet ATLAS normalerweise nette Leistungszahlen

Kjetil Joergensen 07.07.2009 16:45

quelle

score 0 · Answer 3

Das Handcoding einer SSE2-Lösung ist nicht sehr schwierig und bringt eine schöne Beschleunigung gegenüber einer reinen C-Routine. Wie viel das über eine BLAS-Routine bringt, muss von Ihnen bestimmt werden.

Die größte Beschleunigung wird durch Strukturieren der Daten in ein Format erreicht, so dass Sie die Datenparallelität und -ausrichtung ausnutzen können.

score 0 · Answer 4

0

Ich benutze ein GotoBLAS. Es sind die High-Perfomance-Kernroutinen. Das ist viel besser als MKL und BLAS.

vitaly 03.10.2009 10:34

quelle

score 0 · Answer 5

0

Im Folgenden werden BLAS-Level-1-Routinen (Vektoroperationen) mit SSE bereitgestellt.

Ссылка

Wenn Sie eine nVidia-Grafikkarte haben, können Sie cuBLAS bekommen, die den Vorgang auf der Grafikkarte ausführen.

Ссылка

Für ATI (AMD) Grafikkarten

Ссылка

Michael Conlen 06.05.2012 20:25

quelle