Verbinden von DynamoDB aus dem Spark-Programm zum Laden aller Elemente aus einer Tabelle mit Python?

Question

Verbinden von DynamoDB aus dem Spark-Programm zum Laden aller Elemente aus einer Tabelle mit Python?

8

Ich habe ein Programm geschrieben, um Elemente in die DynamoDB-Tabelle zu schreiben. Jetzt möchte ich alle Elemente aus der DynamoDB-Tabelle mit PySpark lesen. Gibt es Bibliotheken, die dies in Spark ermöglichen?

amazon-dynamodb pyspark apache-spark-sql

sms_1190 04.02.2016, 19:18

quelle

1 Antwort

Tags und Links amazon-dynamodb pyspark apache-spark-sql

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Warum funktioniert die Azure-Datenbank besser mit Transaktionen?

score 1 · Answer 1

Sie können parallele Scans verwenden als Teil der DynamoDB API bis boto3 und ein Schema wie die parallele S3-Dateiverarbeitungsanwendung, die für PySpark geschrieben wurde hier . Anstatt alle Schlüssel a-priori zu lesen, erstellen Sie einfach eine Liste der Segmentnummern und schreiben die maximale Anzahl der zu scannenden Segmente in der Funktion map_func für Spark fest.