PDF-Dokumente in Solr von C # -Client aus indizieren

8

Im Grunde versuche ich Word- oder PDF-Dokumente in Solr zu indizieren und finde den ExtractingRequestHandler, kann aber nicht herausfinden, wie man Code in c # schreibt, der die HTTP POST-Anfrage wie im Solr-Wiki ausführt: Ссылка .

Ich habe Solr 3.4 auf Tomcat 7 (7.0.22) installiert, indem ich die Dateien aus dem Beispiel / solr-Verzeichnis in der Solr-Zip verwendet habe und nichts verändert habe. Der ExtractingRequestHandler sollte direkt in der Datei solrconfig.xml konfiguriert und einsatzbereit sein, oder?

Können einige von Ihnen ein C # (HttpWebRequest) Beispiel geben, wie Sie die HTTP POST Anfrage machen und eine PDF Datei hochladen, so wie es im Solr Wiki mit curl gemacht wird?

Ich habe überall auf dieser Seite nachgesehen und viele andere haben versucht, ein Beispiel oder ein Tutorial zu finden, wie das gemacht wird, aber nichts gefunden haben.

BEARBEITEN:

Ich habe es schließlich mit SolrNet geschafft!

Damit es funktioniert, müssen Sie dies in einen lib-Ordner in Ihrem Solr-Installationsverzeichnis von der Solr-Zip kopieren:

  • apache-solr-cell-3.4.0.jar-Datei aus dem Ordner dist
  • Inhalt des Verzeichnisses contrib \ extraction \ lib

Mit SolrNet 0.4.0 beta 2 erledigt dieser Code die Aufgabe:

%Vor%

Entschuldigung für das Problem. Ich hoffe jedoch, dass andere dies nützlich finden werden.

    
jonasm 19.01.2012, 23:47
quelle

1 Antwort

3

Ich würde empfehlen, den SolrNet -Client zu verwenden. Es unterstützt den ExtractingRequestHandler.

    
Paige Cook 20.01.2012, 00:19
quelle

Tags und Links