Sie können parallele Scans verwenden als Teil der DynamoDB API bis boto3 und ein Schema wie die parallele S3-Dateiverarbeitungsanwendung, die für PySpark geschrieben wurde hier . Anstatt alle Schlüssel a-priori zu lesen, erstellen Sie einfach eine Liste der Segmentnummern und schreiben die maximale Anzahl der zu scannenden Segmente in der Funktion map_func
für Spark fest.
Tags und Links amazon-dynamodb pyspark apache-spark-sql