Gibt es Richtlinien zum Sharding eines Datensatzes?

Question

Gibt es Richtlinien zum Sharding eines Datensatzes?

8

Gibt es Richtlinien zum Auswählen der Anzahl der Shard-Dateien für einen Datensatz oder der Anzahl der Datensätze in jedem Shard?

In den Beispielen zur Verwendung von tensorflow.contrib.slim ,

In jedem Shard von ImageNet -Datensatz sind ungefähr 1024 Datensätze vorhanden. ( Tensorflow / Modelle / Einführung )
Es gibt ungefähr 600 Datensätze in jedem Shard von Blumen -Datensatz. ( tensorflow / models / slim )

Hat die Anzahl der Shard-Dateien und die Anzahl der Datensätze in jedem Shard einen Einfluss auf das Training und die Leistung des trainierten Modells?

Nach meinem Wissen, wenn wir den Datensatz nicht in mehrere Shards aufteilen, wird es beim Mischen von Daten nicht ganz zufällig sein, da die capacity des RandomShuffleQueue kleiner sein können als die Größe des Datensatzes.

Gibt es weitere Vorteile bei der Verwendung mehrerer Shards?

Aktualisieren

Die Dokumentation sagt

Wenn Sie mehr Lese-Threads als Eingabedateien haben, vermeiden Sie das Risiko, dass zwei Threads das gleiche Beispiel aus der gleichen Datei lesen.

Warum können wir nicht 50 Threads zum Lesen von 5 Dateien verwenden?

tensorflow

Jenny 20.12.2016, 16:28

quelle

0 Antworten

Tags und Links tensorflow

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Distributed Tensorflow: gutes Beispiel für synchrones Training auf CPUs