Wie kann ich die Größe eines Lucene-Index schätzen?

8

Gibt es eine bekannte mathematische Formel, mit der ich die Größe eines neuen Lucene-Index schätzen kann? Ich weiß, wie viele Felder ich indizieren möchte, und die Größe jedes Feldes. Und ich weiß, wie viele Artikel indexiert werden. Also, sobald diese von Lucene verarbeitet werden, wie übersetzt es sich in Bytes?

    
bpapa 15.09.2008, 18:24
quelle

3 Antworten

2

Hier ist die Lucene-Indexformat-Dokumentation . Die Hauptdatei ist der zusammengesetzte Index (.cfs-Datei). Wenn Sie Termstatistiken haben, können Sie wahrscheinlich eine Schätzung für die Größe der .cfs-Datei erhalten. Beachten Sie, dass dies je nach verwendetem Analyzer und den von Ihnen definierten Feldtypen sehr unterschiedlich ist.

    
Yuval F 16.09.2008, 09:03
quelle
1

Der Index speichert jedes "Token" oder Textfeld usw. nur einmal ... also hängt die Größe von der Art des zu indizierenden Materials ab. Fügen Sie dem hinzu, was auch immer gespeichert wird. Ein guter Ansatz könnte darin bestehen, ein Beispiel zu nehmen und es zu indizieren und daraus die gesamte Quellensammlung zu extrapolieren. Allerdings nimmt auch das Verhältnis von Indexgröße zu Quellgröße mit der Zeit ab, da die Wörter bereits im Index vorhanden sind. Daher empfiehlt es sich, die Stichprobe auf einen angemessenen Prozentsatz des Originals zu setzen.

    
alchemical 08.10.2010 18:13
quelle
0

Ich denke, dass es auch mit der Häufigkeit jedes Ausdrucks zu tun hat (d. h. ein Index von 10.000 Kopien der gleichen Begriffe sollte viel kleiner sein als ein Index von 10.000 ganz eindeutigen Begriffen).

Außerdem hängt wahrscheinlich eine kleine Abhängigkeit davon ab, ob Sie Termvektoren verwenden oder nicht, und natürlich, ob Sie Felder speichern oder nicht. Können Sie mehr Details angeben? Können Sie die Häufigkeit Ihrer Quelldaten analysieren?

    
Bob King 15.09.2008 18:59
quelle

Tags und Links