Wie erstellen wir eine einfache Suchmaschine mit Lucene, Solr oder Nutch?

8

Unsere Firma hat Tausende von PDF-Dokumenten. Wie erstellen wir eine einfache Suchmaschine mit Lucene, Solr oder Nutch? Wir stellen eine grundlegende Java / JSP-Webseite zur Verfügung, auf der Leute Wörter eingeben und grundlegende und / oder Abfragen durchführen und ihnen dann die Dokumentverknüpfungen aller passenden PDFs anzeigen können.

    
Andy Lester 21.10.2008, 21:15
quelle

10 Antworten

3

Keines der Projekte in der Lucene-Familie kann PDF-Dateien nativ verarbeiten, aber es gibt Dienstprogramme, die Sie einfügen können, und gut geschriebene Beispiele, wie Sie Ihre eigenen rollen können.

Lucene wird so ziemlich alles tun, was Sie brauchen, aber es gibt einen Overhead in Bezug auf Ihre Zeit, wie Tony oben sagte. Tausende von Dokumenten sind wirklich nicht das viele, so dass Sie vielleicht mit einer leichteren Alternative durchkommen können.

Trotzdem würde ich empfehlen, Solr zu betrachten - es ist viel einfacher einzurichten als Lucene, hat Unterstützung für Backups, Replikation usw. sowie eine raffinierte JSON-Schnittstelle, die sehr gut zu Ihrem Anwendungsfall passt : Ссылка

    
James Brady 17.12.2008, 02:39
quelle
8

Ich hatte viel Glück mit Lucene, aber es ist nicht klicken, installieren und suchen, es erfordert ein wenig Arbeit.
Wenn Sie etwas brauchen, das Sie herunterladen und installieren können und innerhalb von 10 Minuten suchen, schauen Sie sich die kostenlose Ominifind Yahoo Edition Ссылка an verwendet Lucene, aber ist so verpackt, dass es konfiguriert und bereit ist, bei der Installation zu starten, eine viel einfachere Möglichkeit, Lucene zu testen.

    
Tony BenBrahim 21.10.2008 22:06
quelle
7

Das Plugin Nutch + Lucene + Pdf in Nutch ist Ihre Lösung. Nutch ermöglicht es Ihnen, PDFs zu analysieren, indem Sie das pdf-Plugin aktivieren.

Mit Lucene können Sie die gecrawlten und geparsten Daten indizieren und Nutch hat servelet, was Ihnen eine Suchoberfläche bietet.

Wir verwenden das gleiche für unsere internen Lans.

    
Sumit Ghosh 12.06.2009 18:22
quelle
3

Google Search Appliance Ссылка

    
Craig Wohlfeil 21.10.2008 21:41
quelle
3

Ich denke, Sie möchten, dass ein System Ihre PDF-Datei verwaltet. Bitte versuchen Sie das dspace-System zu verwenden. Dspace ist eine digitale Bibliothek, unterstützt Lucene basierend auf. www.dspace.org.

    
trung vo 17.12.2008 03:10
quelle
2

Sehen Sie sich eprints an. Es enthält einen Workflow für das Hinzufügen neuer Dokumente, PDFs für die automatische Indexierung und Miniaturansicht und bietet eine umfassende Volltextsuchfunktion. Es kann auch einfach angepasst und gebrandet werden.

Warum erfinde ich das Rad neu? Wieder.

    
Guy 21.10.2008 21:39
quelle
1

Die Beantwortung einer so breiten Frage in diesem Forum wird schwierig sein. Ich empfehle Ihnen das Buch Lucene in Action , welches die Grundlagen der Indizierung und der in einer gut lesbaren Weise suchen.

Angesichts Ihrer Bewerbung klingt es so, als wären Nutch und Solr wahrscheinlich nicht nötig. Da all Ihre Dokumente lokal verfügbar sind, wird Nutch wahrscheinlich nicht hilfreich sein. Solr kann Ihnen helfen, einen Cluster von Suchern zu verwalten, wenn Sie eine hohe Abfrage laden, aber Lucene ist sehr performant und verarbeitet große Dokumentenmengen sehr skalierbar.

Der einzige Bereich, in dem Sie sich viel Mühe geben können, ist die Verwendung von PDF. Es ist möglich, PDF-Dokumente zu indizieren, und es gibt Lucene-Beiträge, um die Extraktion von Rohtext aus PDFs zu erleichtern , aber je nach Dokument kann die Qualität der Ergebnisse variieren. Oft ist der Kontext eines Schlüsselworts in einem PDF-Dokument aufgrund von Formatierungsanweisungen unklar, und dies kann es schwierig machen, Annäherungssuchen durchzuführen oder den Kontext eines Treffers anzuzeigen.

    
erickson 21.10.2008 21:32
quelle
1

Eine großartige kostenlose Suchtechnologie, die Sie sich vielleicht anschauen, ist die IBM Yahoo! freie Suche. Ich bin mir nicht sicher, ob sie die Pläne, Lucene unter der Decke zu verwenden, eingehalten haben, aber es bleibt einer der wirklich großen, Osten, freie Suchtechnologien zu verwenden. Ich glaube, es verarbeitet bis zu 500.000 Dokumente und es unterstützt auch PDF- und andere Nicht-Text-Formate. Grafische Benutzeroberfläche; Einfache Anpassung der Suchergebnisse und grundlegende Suchanalysen. Einfacher Thesaurus und mächtige API, damit Sie so ziemlich alles machen können, was Sie wollen, wenn die Out-of-the-Box-Ergebnisse nicht Ihren Vorstellungen entsprechen. Wir haben dies einer Reihe von Kunden vorgeschlagen, wo weniger als eine halbe Million Dokumente vorhanden waren und sie es lieben.

    
user161892 24.08.2009 07:16
quelle
0

Wenn Sie einen Linux-Server haben, können Sie ihn mit Beagle indexieren und dann einfach die Suchfunktion verwenden kommt damit. Es hat eine (experimentelle) Web-Suchoberfläche und kann auch in das FireFox-Suchfeld eingebunden werden.

Es indiziert Dateien automatisch so, wie sie enthalten sind, und ich vermute, dass es für Sie viel effizienter ist, Beagle zu verbessern oder zu reparieren, als eine eigene Suchschnittstelle für Lucene zu schreiben.

    
Jamie Love 21.10.2008 21:27
quelle
-4

Da ich (imho) einen deutlichen Vorteil habe, auf einem Mac zu sein, benutze ich SearchLight auf einem etwas älteren G5. nettes Web-Interface, das den integrierten Index-Dienst von Mac OS hervorhebt.

    
Kris 21.10.2008 21:40
quelle

Tags und Links