Gibt es Richtlinien zum Auswählen der Anzahl der Shard-Dateien für einen Datensatz oder der Anzahl der Datensätze in jedem Shard?
In den Beispielen zur Verwendung von tensorflow.contrib.slim
,
In jedem Shard von ImageNet -Datensatz sind ungefähr 1024
Datensätze vorhanden. ( Tensorflow / Modelle / Einführung )
Es gibt ungefähr 600
Datensätze in jedem Shard von Blumen -Datensatz. ( tensorflow / models / slim )
Hat die Anzahl der Shard-Dateien und die Anzahl der Datensätze in jedem Shard einen Einfluss auf das Training und die Leistung des trainierten Modells?
Nach meinem Wissen, wenn wir den Datensatz nicht in mehrere Shards aufteilen, wird es beim Mischen von Daten nicht ganz zufällig sein, da die capacity
des RandomShuffleQueue
kleiner sein können als die Größe des Datensatzes.
Gibt es weitere Vorteile bei der Verwendung mehrerer Shards?
Aktualisieren
Die Dokumentation sagt
Wenn Sie mehr Lese-Threads als Eingabedateien haben, vermeiden Sie das Risiko, dass zwei Threads das gleiche Beispiel aus der gleichen Datei lesen.
Warum können wir nicht 50 Threads zum Lesen von 5 Dateien verwenden?
Tags und Links tensorflow