Ich benutze Spark 2.1.1, und ich benutze die Scala API, obwohl die Sprache weniger wichtig ist. Ich bin daran interessiert, Funkenabfragen / Pipelines effizient zu optimieren. Ich habe viel Material gelesen (einschließlich des großartigen "Learning Spark" -Buchs) und bin mit der Spark-Seite
Allerdings gibt es so viele Informationen und Konzepte, auf die man achten muss, und ich mache keine Optimierung genug, um sie alle zu kennen. Wenn alles zu 100% funktioniert, kann es leider nur noch wenige Tage oder sogar Stunden dauern, bis der Code geliefert werden muss. Ich muss die Fixes priorisieren, die ich anwenden kann. Ich habe den Arbeits-Spark-Code vorher optimiert, aber ich bin auf der Suche nach der besten Gesamtstrategie und versuche, mich mit den besten Low-Hanging-Fruits vertraut zu machen. Irgendwann werde ich mich an all die Knöpfe erinnern, die ich tun sollte, aber jetzt werden mindestens zehn sehr gute tun. Einige der Dinge, die ich momentan als wichtig erachte, sind (nicht wirklich geordnet, aber die ersten 4 sind zufällig die wichtigsten, die ich denke) ...
Die interessantesten Verbesserungen sind für mich jene, die sich aus einem Abfrageplan oder einer DAG-Visualisierung ergeben. Auch Binsenweisheiten, die Funke-Benutzer / Entwickler dazu gebracht haben, "Aha!" die du vielleicht teilen möchtest. Haftungsausschluss : Die obigen zehn Dinge sind für mich nicht unbedingt eine "Top Ten", wie die Verwendung von Spark Bibliotheksfunktionen anstelle von UDFs ist nicht super wichtig (sicherlich nicht Top Ten zumindest), aber ich wollte helfen Geben Sie mehrere Beispiele dafür, wie ein guter Tipp für jemanden aussehen könnte.
Tags und Links scala apache-spark spark-dataframe apache-spark-sql apache-spark-2.0