Unterschied zwischen PIG local und mapreduce mode

Question

Unterschied zwischen PIG local und mapreduce mode

8

Was ist der Unterschied zwischen PIG-Scripts lokal und auf mapreduce? Ich verstehe mapreduce Modus, wenn Sie es auf einem Cluster ausführen, auf dem hdfs installiert ist. Bedeutet dies, dass der lokale Modus kein HDFS benötigt und somit auch MapReduce-Jobs nicht ausgelöst werden? Was ist der Unterschied und wann hast du den anderen?

hadoop mapreduce hdfs apache-pig

London guy 26.07.2012, 12:33

quelle

2 Antworten

6

Lokaler Modus: Alle Skripts werden auf einem einzelnen Computer ausgeführt, ohne dass Hadoop MapReduce und HDFS erforderlich sind. Dies kann nützlich sein, um die Pig-Logik zu entwickeln und zu testen. Wenn Sie einen kleinen Datensatz für den Entwickler verwenden oder Ihren Code testen, kann der lokale Modus schneller sein als die MapReduce-Infrastruktur.

Der lokale Modus erfordert kein Hadoop. Wenn Sie im lokalen Modus arbeiten, wird das Pig-Programm im Kontext einer lokalen Java Virtual Machine ausgeführt, und der Datenzugriff erfolgt über das lokale Dateisystem eines einzelnen Computers. Der lokale Modus ist eine lokale Simulation von MapReduce in der LocalJobRunner-Klasse von Hadoop.

MapReduce-Modus (auch als Hadoop-Modus bekannt): Pig wird auf dem Hadoop-Cluster ausgeführt. In diesem Fall wird das Pig Script in eine Reihe von MapReduce-Jobs konvertiert, die dann auf dem Hadoop-Cluster ausgeführt werden.

Wenn Sie über ein Terabyte an Daten verfügen, auf denen Sie Operationen ausführen möchten, und wenn Sie ein Programm interaktiv entwickeln möchten, können sich die Dinge schnell verlangsamen und Sie können mit dem Wachstum Ihres Speichers beginnen. Im lokalen Modus können Sie mit einer Teilmenge Ihrer Daten interaktiver arbeiten, sodass Sie die Logik Ihres Pig-Programms herausfinden und die Fehler beheben können.

Nachdem Sie die Dinge so eingerichtet haben, wie Sie möchten und Ihre Operationen reibungslos ablaufen, können Sie das Skript mit dem MapReduce-Modus gegen den gesamten Datensatz ausführen.

Neethu 23.03.2015 20:55

quelle

Tags und Links hadoop mapreduce hdfs apache-pig

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Android tötet keine Aktivitäten vom Stapel, wenn der Arbeitsspeicher niedrig ist

score 8 · Accepted Answer

Der lokale Modus erstellt einen simulierten mapreduce-Job, der von einer lokalen Datei auf der Festplatte ausgeführt wird. In der Theorie entspricht MapReduce, aber es ist kein "echter" MR-Job. Sie sollten den Unterschied aus einer Benutzerperspektive nicht unterscheiden können.

Der lokale Modus ist ideal für die Entwicklung.