Lucene - ist das die richtige Antwort für den riesigen Index?

8

Ist Lucene in der Lage, 500 Millionen Textdokumente mit jeweils 50K zu indizieren?

Welche Leistung kann solcher Index erwartet werden, für die Suche nach einzelnen Begriffen und für die Suche nach 10 Begriffen?

Sollte ich besorgt sein und direkt in die Umgebung mit verteilten Indizes wechseln?

Saar

    
Saar 03.08.2011, 07:32
quelle

1 Antwort

7

Ja, Lucene sollte damit umgehen können, so der folgende Artikel: Ссылка

Hier ist ein Zitat:

  

Abhängig von einer Vielzahl von Faktoren kann eine einzelne Maschine einen Lucene / Solr-Index von 5 - 80+ Millionen Dokumenten aufnehmen, während eine verteilte Lösung sekundenschnelle Suchantwortzeiten über Milliarden von Dokumenten bereitstellen kann.

Der Artikel geht ausführlich auf die Skalierung auf mehrere Server ein. So können Sie bei Bedarf klein anfangen und skalieren.

Eine großartige Quelle für Lucenes Performance ist der Blog von Mike McCandless, der aktiv an der Entwicklung von Lucene beteiligt ist: Ссылка Er verwendet oft den Inhalt von Wikipedia (25 GB) als Testeingabe für Lucene.

Es könnte auch interessant sein, dass die Echtzeitsuche von Twitter jetzt mit Lucene implementiert wird (siehe Ссылка ).

Ich frage mich jedoch, ob die von Ihnen angegebenen Zahlen korrekt sind: 500 Millionen Dokumente x 50 KB = ~ 23 TB - Haben Sie wirklich so viele Daten?

    
Stefan Mücke 03.08.2011, 13:03
quelle

Tags und Links