Verbinden von DynamoDB aus dem Spark-Programm zum Laden aller Elemente aus einer Tabelle mit Python?

8

Ich habe ein Programm geschrieben, um Elemente in die DynamoDB-Tabelle zu schreiben. Jetzt möchte ich alle Elemente aus der DynamoDB-Tabelle mit PySpark lesen. Gibt es Bibliotheken, die dies in Spark ermöglichen?

    
sms_1190 04.02.2016, 19:18
quelle

1 Antwort

1

Sie können parallele Scans verwenden als Teil der DynamoDB API bis boto3 und ein Schema wie die parallele S3-Dateiverarbeitungsanwendung, die für PySpark geschrieben wurde hier . Anstatt alle Schlüssel a-priori zu lesen, erstellen Sie einfach eine Liste der Segmentnummern und schreiben die maximale Anzahl der zu scannenden Segmente in der Funktion map_func für Spark fest.

    
Alexander Patrikalakis 13.02.2017 13:20
quelle