nutch

Nutch ist ein ausgereifter, produktionsreifer Web-Crawler. Nutch ermöglicht eine feinkörnige Konfiguration mit Apache Hadoop ™ -Datenstrukturen, die sich hervorragend für die Stapelverarbeitung eignen.
10
Antworten

Wie erstellen wir eine einfache Suchmaschine mit Lucene, Solr oder Nutch?

Unsere Firma hat Tausende von PDF-Dokumenten. Wie erstellen wir eine einfache Suchmaschine mit Lucene, Solr oder Nutch? Wir stellen eine grundlegende Java / JSP-Webseite zur Verfügung, auf der Leute Wörter eingeben und grundlegende und / oder Ab...
21.10.2008, 21:15
4
Antworten

Haben Sie bereits Ergebnisse von nutch crawl mit elasticsearch indiziert?

Hat jemand Glück gehabt, benutzerdefinierte Indexer für nutch zu schreiben, um die Crawl-Ergebnisse mit elasticsearch zu indexieren? Oder kennen Sie schon existierende?     
15.05.2011, 23:58
2
Antworten

Nicht genügend Speicherplatz für die Shared-Memory-Datei, wenn ich versuche, nutch generate auszuführen

Ich habe in den letzten drei Wochen nutch crawling-Befehle ausgeführt und jetzt bekomme ich den folgenden Fehler, wenn ich versuche, einen nutch-Befehl auszuführen.    Warnung für Java HotSpot (TM) 64-Bit-Server-VM: Zu wenig Speicherplatz für...
12.01.2013, 05:19
3
Antworten

URL mit Nutch nur für aktualisierte Websites neu crawlen

Ich habe eine URL mit Nutch 2.1 gecrawlt und möchte dann die Seiten neu crawlen, nachdem sie aktualisiert wurden. Wie kann ich das machen? Wie kann ich wissen, dass eine Seite aktualisiert wurde?     
10.01.2013, 15:40
5
Antworten

Wie produziert man riesige Datenmengen?

Ich mache ein paar Tests mit Nutch und Hadoop und ich brauche eine riesige Menge an Daten. Ich möchte mit 20 GB beginnen, 100 GB, 500 GB und schließlich 1-2 TB erreichen. Das Problem ist, dass ich nicht über diese Menge an Daten verfüge, also...
29.12.2011, 12:59
5
Antworten

Nutch in Windows: Fehler beim Festlegen der Berechtigungen für den Pfad

Ich versuche, Solr mit Nutch auf einer Windows-Maschine zu verwenden, und ich bekomme den folgenden Fehler: %Vor% Aus vielen Threads habe ich gelernt, dass hadoop, das von nutch benutzt wird, eine chmod-Magie benutzt, die auf Unix-Maschinen...
03.03.2013, 16:53
4
Antworten

Wie öffne ich ein Ant-Projekt (Nutch Source) bei Intellij Idea?

Ich möchte die Nutch 2.1-Quelldatei ( Ссылка ) bei Intellij IDEA öffnen. Hier ist eine Erklärung, wie man es bei Eclipse öffnet: Ссылка Allerdings bin ich mit Ant nicht vertraut (ich benutze Maven) und wenn ich diese Quelldatei öffne, sind...
12.03.2013, 09:27
3
Antworten

Die Solr-Indizierung nach einem Nutc-Crawl schlägt fehl, meldet "Job fehlgeschlagen"

Ich habe eine Seite auf meinem lokalen Rechner gehostet, die ich mit Nutch zu crawlen versuche und in Solr indexiere (beide auch auf meinem lokalen Rechner). Ich habe Solr 4.6.1 und Nutch 1.7 nach den Anweisungen auf der Nutch-Seite installiert...
07.02.2014, 00:40
2
Antworten

Wie erstelle ich eine Suchmaschine? (Aktualisierung 2013)

Dies ist nicht das erste Mal, dass diese Frage gestellt wurde hier bei Stackoverflow - aber es ist fast fünf Jahre später - und die Zeiten und Technologien haben sich ein wenig verändert. Ich frage mich, was Leute heutzutage denken über den Au...
21.07.2013, 22:07
1
Antwort

Fehler bei der Indexierung in solr-Daten, die von nutch gecrawlt wurden

Ich habe angefangen mit nutch und solr zu arbeiten und ich habe ein Problem damit Solr mit Nutch zu integrieren. Ich folgte diesem Tutorial: Ссылка und nach der Verwendung von: %Code% nutch zeigt Nachricht:    java.io.IOException: Job fehlg...
17.11.2012, 09:56