apache-pig

Apache Pig ist eine Plattform zur Analyse großer Datenmengen, die aus einer Hochsprache zum Ausdrücken von Datenanalyseprogrammen besteht, gekoppelt mit einer Infrastruktur zur Auswertung dieser Programme. Die herausragende Eigenschaft von Pig-Programmen ist, dass ihre Struktur einer wesentlichen Parallelisierung zugänglich ist, die es ihnen ermöglicht, sehr große Datenmengen zu verarbeiten.
1
Antwort

Hadoop, Hive, Schwein, HBase, Cassandra - wann soll was verwendet werden? [geschlossen]

Zunächst bin ich relativ neu in Big Data und der Hadoop-Welt und habe gerade angefangen, ein wenig mit der Hortonworks Sandbox (Pig and Hive) zu experimentieren. Ich habe mich gefragt, in welchen Fällen ich die oben genannten Werkzeuge von Hadoo...
29.01.2014, 18:02
1
Antwort

Überprüfen Sie, ob ein Element in einer Tasche vorhanden ist.

Wie kann ich piglatin markieren, wenn eine Tüte ein Element enthält? ? Beispiel: Wie kann ich überprüfen, ob ein Token in einem Stapel Chararray vorhanden ist?     
15.10.2014, 19:09
4
Antworten

FEHLER 1066: Iterator kann nicht für Alias ​​- Pig geöffnet werden

Gerade angefangen Schwein; versuchen, die Daten aus einer Datei zu laden und sie von nun an zu löschen. Das Laden scheint korrekt zu sein, es wird kein Fehler ausgegeben. Unten ist die Abfrage:    NYSE = LOAD '/root/Desktop/Works/NYSE-2000-20...
03.12.2013, 11:38
1
Antwort

Ist in spark join die Tabellenreihenfolge wie beim Schwein?

Bezieht sich auf Spark - Verbinden von 2 PairRDD-Elementen Wenn Sie einen regulären Join in einem Schwein ausführen, wird die letzte Tabelle im Join nicht in den Speicher geladen, sondern stattdessen durchgestreamt. Wenn A also eine kleine...
24.02.2015, 11:24
1
Antwort

Gewusst wie: Python-UDF-Wörterbuch-Rückkehrschema in PIG

Wie lautet das Ausgabeschema zum Zurückgeben eines Wörterbuchs aus Python-UDF bei Verwendung von Apache PIG. Ich habe ein Wörterbuch mit Wörterbüchern, etwa so: %Vor% und mein Ausgabeschema sieht wie aus %Vor% ** eckige Klammern, weil...
12.11.2012, 19:55
1
Antwort

Wie verwendet Pig Hadoop Globs in einer 'load' Anweisung?

Wie ich bereits erwähnt , geht es mit leeren (0-Byte) Dateien nicht gut. Leider gibt es viele Möglichkeiten, wie diese Dateien erstellt werden können (auch in Hadoop Utilities ). Ich dachte, dass ich dieses Problem umgehen könnte, indem ich...
21.04.2011, 23:05
1
Antwort

Wie entferne doppelte Spalten nach einem JOIN in Pig?

Sagen wir, ich habe JOIN zwei Relationen wie: %Vor% Die Ausgabe ist: %Vor% Beachten Sie, dass remove(the duplicate key joiner) zweimal in jedem Tupel angezeigt wird. ZB: %Vor% Ich kann den doppelten Schlüssel manuell entfernen,...
20.04.2014, 05:13
1
Antwort

Verwendung von Bienentisch über Parkett in Schwein

Ich versuche, eine Hive-Tabelle mit Schema string, string, double in einem Ordner zu erstellen, der zwei Parquet-Dateien enthält. Das erste Parkettdateischema ist string, string, double und das Schema der zweiten Datei ist string, double, s...
20.01.2016, 01:58
2
Antworten

Pig nicht aggregierte Warnungen Ausgabeort?

%Vor% Debuggen von FIELD_DISCARDED_TYPE_CONVERSION_FAILED Warnungen, aber ich kann anscheinend nirgendwo einzelne Warnungen drucken. Das Deaktivieren der Aggregation über -w oder aggregate.warnings=false switch entfernt die Übersichtsn...
14.12.2011, 19:58
1
Antwort

mit PIG, um eine Datei zu laden

Ich bin sehr neu bei PIG und ich habe etwas, was sich wie ein sehr grundlegendes Problem anfühlt. Ich habe eine Codezeile, die lautet: %Vor% wobei jede Datei im Grunde eine Zeile von 4 kommagetrennten Wörtern ist. PIG teilt dies jedoch nicht...
11.11.2011, 19:36