Überprüfen Sie Parquet von der Befehlszeile

10

Wie prüfe ich den Inhalt einer Parquet-Datei über die Befehlszeile?

Die einzige Option, die ich jetzt sehe, ist

%Vor%

Ich möchte

  1. Vermeiden Sie die Erstellung von local-file und
  2. zeigt den Dateiinhalt als json anstelle des typlosen Textes an, den parquet-tools druckt.

Gibt es einen einfachen Weg?

    
sds 21.03.2016, 19:49
quelle

3 Antworten

3

Ich empfehle, einfach das Parkett-tools.jar für Ihre Hadoop-Distribution zu bauen und zu betreiben.

Beende das github-Projekt: Ссылка

hadoop jar ./parquet-tools-<VERSION>.jar <command> .

    
fembot 21.03.2016, 21:00
quelle
6

Sie können parquet-tools mit dem Befehl cat und der Option --json verwenden, um die Dateien ohne lokale Kopie und im JSON-Format anzuzeigen.

Hier ist ein Beispiel:

%Vor%

Dies druckt die Daten im JSON-Format aus:

%Vor%

Haftungsausschluss: Dies wurde in Cloudera CDH 5.12.0 getestet.

    
gil.fernandes 14.11.2017 14:37
quelle
3

Standardmäßig sucht parquet-tools im Allgemeinen nach dem lokalen Dateiverzeichnis. Um es auf hdfs zu verweisen, müssen wir hdfs: // am Anfang des Dateipfads hinzufügen. In Ihrem Fall können Sie so etwas tun

%Vor%

Ich hatte das gleiche Problem und es hat gut für mich funktioniert. Es ist nicht notwendig, die Datei zuerst lokal herunterzuladen.

    
salmanbw 31.01.2017 19:02
quelle

Tags und Links