Gibt es Richtlinien zum Sharding eines Datensatzes?

8

Gibt es Richtlinien zum Auswählen der Anzahl der Shard-Dateien für einen Datensatz oder der Anzahl der Datensätze in jedem Shard?

In den Beispielen zur Verwendung von tensorflow.contrib.slim ,

Hat die Anzahl der Shard-Dateien und die Anzahl der Datensätze in jedem Shard einen Einfluss auf das Training und die Leistung des trainierten Modells?

Nach meinem Wissen, wenn wir den Datensatz nicht in mehrere Shards aufteilen, wird es beim Mischen von Daten nicht ganz zufällig sein, da die capacity des RandomShuffleQueue kleiner sein können als die Größe des Datensatzes.

Gibt es weitere Vorteile bei der Verwendung mehrerer Shards?

Aktualisieren

Die Dokumentation sagt

  

Wenn Sie mehr Lese-Threads als Eingabedateien haben, vermeiden Sie das Risiko, dass zwei Threads das gleiche Beispiel aus der gleichen Datei lesen.

Warum können wir nicht 50 Threads zum Lesen von 5 Dateien verwenden?

    
Jenny 20.12.2016, 16:28
quelle

0 Antworten

Tags und Links