Ich versuche, einige Data-Mining-Algorithmen mit hadoop zu üben. Kann ich das mit HDFS alleine machen, oder muss ich die Unterprojekte wie hive / hbase / pig verwenden?
Beginne mit dem einfachen mapreduce auf Anfängerlevel. Sie können Pig / Hive / Hbase auf der nächsten Ebene versuchen.
Sie werden Pig / Hive / Hbase nur schätzen können, wenn Sie genug Mühe haben, die normale Map-Reduktion zu verwenden
Ich würde auch die umd-Seite empfehlen. Es sieht jedoch so aus, als ob Sie in Hadoop völlig neu sind. Ich würde das Buch "Hadoop: The Definant Guide" von Tom White empfehlen. Es ist ein bisschen veraltet [gemeint für die Version 0.18, anstatt die neuesten 0.20+). Lesen Sie es, machen Sie die Beispiele und Sie sollten an einem besseren Ort sein, um zu beurteilen, wie Sie Ihr Projekt strukturieren.
Ich versuche, einige Data-Mining-Algorithmen mit hadoop zu üben.
Verwenden Sie Apache Mahout, das auf Hadoop läuft. [ Ссылка
Kann ich das mit HDFS alleine machen, oder muss ich die Unterprojekte wie hive / hbase / pig verwenden?
HDFS ist ein Dateisystem von hadoop. Es steht für Hadoop verteiltes Dateisystem. Unabhängig davon, welches Werkzeug Sie im Hadoop-Stapel verwenden, sollten sie die Daten verarbeiten, die sich in der verteilten Umgebung befinden. Sie können nichts tun, nur mit HDFS. Sie benötigen eine der Berechnungstechniken / Tools wie Map Reduce, Pig, Hive und so weiter.
Hoffe, das hilft!
Sie können auch Mahout Ссылка
verwendenEs ist eine Machine-Learning- und Data-Mining-Bibliothek, die zusätzlich zu Hadoop verwendet werden kann.
Im Allgemeinen unterstützt Mahout derzeit (von der Mahout-Seite übernommen):
Hadoop ist ein Werkzeug für die verteilte / parallele Datenverarbeitung. Mahout ist ein Data-Mining / Machine-Learning-Framework, das sowohl im Standalone-Modus als auch in der Hadoop-Distributionsumgebung arbeiten kann. Die Entscheidung, sie als eigenständiges Produkt oder mit Hadoop zu verwenden, hängt von der Größe der historischen Daten ab, die abgebaut werden müssen. Wenn die Datengröße in der Größenordnung von Terabyte und Petabyte liegt, verwenden Sie in der Regel Mahout mit Hadoop.
Mahout unterstützt 3 maschinelle Lernalgorithmen, Empfehlung, Clustering und Klassifizierung. Mahout in Aktion Buch von Manning erklärt das sehr gut. Weka ist ein weiteres ähnliches Open-Source-Projekt. All dies gehört zu einer Kategorie namens Machine Learning Frameworks.
Siehe den Blog, in dem es um einen Anwendungsfall geht, wie das verteilte Mahout- und Hadoop-Dateisystem funktioniert ? Als Vorstufe dazu gibt es auch einen Blog zur Komponentenarchitektur , in dem beschrieben wird, wie diese Tools für ein Data Mining-Problem zusammenpassen Hadoop / Mahout-Ökosystem.
Ich hoffe es hilft.
Sie können R, Spark Hadoop zusammen als vollständige Open-Source-Lösung verwenden.
R - Statistische Sprache, die viele Bibliotheken direkt zur Verfügung stellt.
Spark-Framework für die Datenverarbeitung schneller als MR mit maschinellen Lernalgorithmen.
Hadoop - Datenspeicher, der basierend auf Standardhardware skalierbar und robust ist.
hängt von Ihrer Anwendung ab. Sie müssen den Zweck von Bienenstock, Schwein, HBase verstehen und dann können Sie herausfinden, wo genau sie in Ihre Anwendung passen. Diese sind erstellt eine bestimmte Gründe, die Sie verstehen müssen, einfach Google wird die Ergebnisse erhalten
HDFS ist ein verteiltes Speichersystem, mit dem Sie Ihre Daten für weitere Analysen bereitstellen können.
Hive / Pig / MR / Spark / Scala etc .... sind Werkzeuge zur Analyse der Daten. Sie schreiben Ihre Algorithmen tatsächlich in diese. Sie können nicht 100% nur von Pig / Hive / Hbase erreichen. Sie sollten Map Reduce-Algorithmen schreiben können und diese in Hive / Pig importieren.
ETL-Tools: Pig (Skriptsprache) Hive (SQL-ähnliche Abfragesprache für strukturierte Daten) HBASE für unstrukturierte Daten können Sie Echtzeit-Datenanalyse erreichen. Während MapReduce in Schritten arbeitet, arbeitet Spark auf der ganze Datenmenge auf einen Schlag. Sqoop: Importieren / Exportieren von Daten aus RDDMS Gerinne: Streaming-Daten in Hadoop importieren Mahout: Werkzeug zum maschinellen Lernen von Algorithmen
Hadoop Definitive Anleitung ist gut für Anfänger.
Sie müssen abhängig von ihren Stärken verschiedene Tools in Hadoop Ecosystem verwenden.
Hive und Hbase sind gut strukturierte Daten verarbeiten
Sqoop wird verwendet, um strukturierte Daten von der traditionellen RDBMS-Datenbank Oracle, SQL Server usw. zu importieren.
Flume wird zur Verarbeitung von unstrukturierten Daten verwendet.
Sie können das Content Management System verwenden, um unstrukturierte Daten & amp; Semi-Strukturierte Daten - Tera oder Peta Bytes von Daten. Wenn Sie unstrukturierte Daten speichern, speichere ich die Daten lieber im CMS und verwende Metadaten in NoSQL -Datenbanken wie HBASE (zB Image Id , MD5SUM of image
)
Um Big-Data-Streaming zu verarbeiten, können Sie Schwein
verwendenSpark ist eine schnelle und allgemeine Computing-Engine für Hadoop-Daten. Spark bietet ein einfaches und aussagekräftiges Programmiermodell, das eine breite Palette von Anwendungen unterstützt, einschließlich ETL, maschinelles Lernen, Stream-Verarbeitung und Graphenberechnung
Sehen Sie sich Strukturierte Daten und Unstrukturierte Daten Handhabung in Hadoop
Sehen Sie sich das komplette hadoop Ökosystem an und SE Frage
Tags und Links hadoop data-mining