apache-spark, Seitenzahl 13

5

Antworten

DataFrame-Gleichheit in Apache Spark

Angenommen df1 und df2 sind zwei DataFrame s in Apache Spark, die mit zwei verschiedenen Mechanismen berechnet wurden, z. B. Spark SQL im Vergleich zur Scala / Java / Python-API. Gibt es einen idiomatischen Weg, um zu bestimmen, ob d...

03.07.2015, 02:00

1

Antwort

Spark-Konfiguration: SPARK_MEM vs. SPARK_WORKER_MEMORY

In spark-env.sh ist es möglich, die folgenden Umgebungsvariablen zu konfigurieren: %Vor% Wenn ich einen eigenständigen Cluster damit starte: %Vor% Ich kann auf der Webseite von Spark Master UI sehen, dass alle Arbeiter mit nur 3 GB RAM b...

18.06.2013, 14:35

3

Antworten

Verwenden Sie spark-submit, um eine Anwendung an den EC2-Cluster zu senden

Ich bin neu bei Spark und versuche, es auf EC2 auszuführen. Ich folge dem Tutorial auf Spark Webseite, indem ich Spark-ec2 benutze, um einen Spark Cluster zu starten. Dann versuche ich spark-submit zu verwenden, um die Anwendung an den Cluste...

13.06.2014, 07:05

1

Antwort

Syntax beim Festlegen des Schemas für Pypspark.sql mit StructType

Ich bin neu zu funken und spielte mit Pysparks.sql herum. Laut der pyspark.sql Dokumentation hier , kann man das einstellen Spark Datenrahmen und Schema wie folgt: %Vor% Meine Frage ist, wofür steht True in der obigen schema Liste? Ic...

13.05.2015, 12:09

2

Antworten

Wie behebt man "java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecord" in Spark Streaming Kafka Consumer?

Spark 2.0.0 Apache Kafka 0.10.1.0 scala 2.11.8 Wenn ich Spark-Streaming und Kafka-Integration mit Kafka-Broker-Version 0.10.1.0 mit dem folgenden Scala-Code schlägt es mit folgender Ausnahme fehl: %Vor% Warum? Wie man es repariert...

13.11.2016, 05:26

2

Antworten

Leere Ausgabe für die Aggregation von Wasserzeichen im Append Mode

Ich benutze Spark 2.2.0-rc1. Ich habe eine Kafka topic , die eine laufende mit Wasserzeichen versehene Aggregation abfragt, mit einem 1 minute -Wasserzeichen, das an console mit append output mode ausgegeben wird. %Vor% Ich drä...

07.06.2017, 04:45

2

Antworten

warum Livy oder Spark-Jobserver anstelle eines einfachen Web-Frameworks?

Ich baue eine RESTful-API neben Apache Spark auf. Das folgende Python-Skript mit spark-submit scheint gut zu funktionieren: %Vor% Aber wenn ich herumgucke, sehe ich Dinge wie Livy und Spark-Jobserver . Ich lese die Dokumentation dieser...

11.01.2017, 20:11

3

Antworten

Aggregation auf Kartenseite in Spark

Ich lerne Funken mit dem Buch "Learning Spark". Kam über diesen Begriff (Seite 54) We can disable map-side aggregation in combineByKey() if we know that our data won’t benefit from it Ich bin verwirrt, was hier mit map-side aggregation gemei...

08.07.2015, 05:10

1

Antwort

Hängen Sie Metadaten an die Vektorspalte in Spark an

Kontext: Ich habe einen Datenrahmen mit zwei Spalten: Label und Features. %Vor% Where features ist eine mllib.linalg.VectorUDT vom numerischen Typ, die mit VectorAssembler erstellt wurde. Frage: Gibt es eine Möglichkeit, dem Feature...

10.02.2016, 01:07

2

Antworten

Wo sucht Spark nach Textdateien?

Ich dachte, dass das Laden von Textdateien nur von Arbeitern / innerhalb des Clusters ausgeführt wird (Sie müssen nur sicherstellen, dass alle Worker Zugriff auf denselben Pfad haben, entweder durch die Bereitstellung dieser Textdatei auf allen...

08.09.2015, 18:34