Hadoop-Anfänger [geschlossen]

8

Ich versuche, einige Data-Mining-Algorithmen mit hadoop zu üben. Kann ich das mit HDFS alleine machen, oder muss ich die Unterprojekte wie hive / hbase / pig verwenden?

    
realnumber 19.07.2010, 00:18
quelle

10 Antworten

17

Ich habe eine Universitätsseite mit einigen Übungen und Lösungen für MapReduce gefunden, die nur auf Hadoop aufbauen:

Ссылка

Zusätzlich gibt es Kurse von Yahoo und Google:

Ссылка

Ссылка

Alle diese Kurse arbeiten auf einfachem Hadoop, um Ihre Frage zu beantworten.

    
Thomas Koch 19.07.2010, 06:22
quelle
3

Beginne mit dem einfachen mapreduce auf Anfängerlevel. Sie können Pig / Hive / Hbase auf der nächsten Ebene versuchen.

Sie werden Pig / Hive / Hbase nur schätzen können, wenn Sie genug Mühe haben, die normale Map-Reduktion zu verwenden

    
Harsha Hulageri 18.08.2010 21:22
quelle
2

Ich würde auch die umd-Seite empfehlen. Es sieht jedoch so aus, als ob Sie in Hadoop völlig neu sind. Ich würde das Buch "Hadoop: The Definant Guide" von Tom White empfehlen. Es ist ein bisschen veraltet [gemeint für die Version 0.18, anstatt die neuesten 0.20+). Lesen Sie es, machen Sie die Beispiele und Sie sollten an einem besseren Ort sein, um zu beurteilen, wie Sie Ihr Projekt strukturieren.

    
monksy 19.07.2010 06:25
quelle
2

Ich versuche, einige Data-Mining-Algorithmen mit hadoop zu üben.

Verwenden Sie Apache Mahout, das auf Hadoop läuft. [ Ссылка

Kann ich das mit HDFS alleine machen, oder muss ich die Unterprojekte wie hive / hbase / pig verwenden?

HDFS ist ein Dateisystem von hadoop. Es steht für Hadoop verteiltes Dateisystem. Unabhängig davon, welches Werkzeug Sie im Hadoop-Stapel verwenden, sollten sie die Daten verarbeiten, die sich in der verteilten Umgebung befinden. Sie können nichts tun, nur mit HDFS. Sie benötigen eine der Berechnungstechniken / Tools wie Map Reduce, Pig, Hive und so weiter.

Hoffe, das hilft!

    
221B 18.01.2015 18:22
quelle
1

Sie können auch Mahout Ссылка

verwenden

Es ist eine Machine-Learning- und Data-Mining-Bibliothek, die zusätzlich zu Hadoop verwendet werden kann.

Im Allgemeinen unterstützt Mahout derzeit (von der Mahout-Seite übernommen):

  • Kollaborative Filterung
  • Benutzer- und Item-basierte Empfehlungen
  • K-Means, Fuzzy K-Means Clustering
  • Mean-Shift-Clustering
  • Dirichlet-Prozess-Clustering
  • Latente Dirichlet-Zuordnung
  • Singulärwertzerlegung
  • Paralleles häufiges Muster-Mining
  • Komplementärer Naive Bayes Klassifikator
  • Klassifizierer für zufällige Gesamtstruktur-Entscheidungsbäume
pdeligia 11.01.2012 15:31
quelle
1

Hadoop ist ein Werkzeug für die verteilte / parallele Datenverarbeitung. Mahout ist ein Data-Mining / Machine-Learning-Framework, das sowohl im Standalone-Modus als auch in der Hadoop-Distributionsumgebung arbeiten kann. Die Entscheidung, sie als eigenständiges Produkt oder mit Hadoop zu verwenden, hängt von der Größe der historischen Daten ab, die abgebaut werden müssen. Wenn die Datengröße in der Größenordnung von Terabyte und Petabyte liegt, verwenden Sie in der Regel Mahout mit Hadoop.

Mahout unterstützt 3 maschinelle Lernalgorithmen, Empfehlung, Clustering und Klassifizierung. Mahout in Aktion Buch von Manning erklärt das sehr gut. Weka ist ein weiteres ähnliches Open-Source-Projekt. All dies gehört zu einer Kategorie namens Machine Learning Frameworks.

Siehe den Blog, in dem es um einen Anwendungsfall geht, wie das verteilte Mahout- und Hadoop-Dateisystem funktioniert ? Als Vorstufe dazu gibt es auch einen Blog zur Komponentenarchitektur , in dem beschrieben wird, wie diese Tools für ein Data Mining-Problem zusammenpassen Hadoop / Mahout-Ökosystem.

Ich hoffe es hilft.

    
Krishna 30.06.2012 20:12
quelle
1

Sie können R, Spark Hadoop zusammen als vollständige Open-Source-Lösung verwenden.

  1. R - Statistische Sprache, die viele Bibliotheken direkt zur Verfügung stellt.

  2. Spark-Framework für die Datenverarbeitung schneller als MR mit maschinellen Lernalgorithmen.

  3. Hadoop - Datenspeicher, der basierend auf Standardhardware skalierbar und robust ist.

akshat thakar 18.10.2015 16:28
quelle
0

hängt von Ihrer Anwendung ab. Sie müssen den Zweck von Bienenstock, Schwein, HBase verstehen und dann können Sie herausfinden, wo genau sie in Ihre Anwendung passen. Diese sind erstellt eine bestimmte Gründe, die Sie verstehen müssen, einfach Google wird die Ergebnisse erhalten

    
Shahzad Aslam 06.07.2016 05:17
quelle
0

HDFS ist ein verteiltes Speichersystem, mit dem Sie Ihre Daten für weitere Analysen bereitstellen können.

Hive / Pig / MR / Spark / Scala etc .... sind Werkzeuge zur Analyse der Daten. Sie schreiben Ihre Algorithmen tatsächlich in diese. Sie können nicht 100% nur von Pig / Hive / Hbase erreichen. Sie sollten Map Reduce-Algorithmen schreiben können und diese in Hive / Pig importieren.

  

ETL-Tools:          Pig (Skriptsprache)        Hive (SQL-ähnliche Abfragesprache für strukturierte Daten)        HBASE für unstrukturierte Daten können Sie Echtzeit-Datenanalyse erreichen. Während MapReduce in Schritten arbeitet, arbeitet Spark auf der   ganze Datenmenge auf einen Schlag.    Sqoop: Importieren / Exportieren von Daten aus RDDMS    Gerinne: Streaming-Daten in Hadoop importieren    Mahout: Werkzeug zum maschinellen Lernen von Algorithmen

Hadoop Definitive Anleitung ist gut für Anfänger.

    
Ramineni Ravi Teja 16.07.2016 05:55
quelle
0

Sie müssen abhängig von ihren Stärken verschiedene Tools in Hadoop Ecosystem verwenden.

Hive und Hbase sind gut strukturierte Daten verarbeiten

Sqoop wird verwendet, um strukturierte Daten von der traditionellen RDBMS-Datenbank Oracle, SQL Server usw. zu importieren.

Flume wird zur Verarbeitung von unstrukturierten Daten verwendet.

Sie können das Content Management System verwenden, um unstrukturierte Daten & amp; Semi-Strukturierte Daten - Tera oder Peta Bytes von Daten. Wenn Sie unstrukturierte Daten speichern, speichere ich die Daten lieber im CMS und verwende Metadaten in NoSQL -Datenbanken wie HBASE (zB Image Id , MD5SUM of image )

Um Big-Data-Streaming zu verarbeiten, können Sie Schwein

verwenden

Spark ist eine schnelle und allgemeine Computing-Engine für Hadoop-Daten. Spark bietet ein einfaches und aussagekräftiges Programmiermodell, das eine breite Palette von Anwendungen unterstützt, einschließlich ETL, maschinelles Lernen, Stream-Verarbeitung und Graphenberechnung

Sehen Sie sich Strukturierte Daten und Unstrukturierte Daten Handhabung in Hadoop

Sehen Sie sich das komplette hadoop Ökosystem an und SE Frage

    
Ravindra babu 09.10.2015 14:24
quelle

Tags und Links