Ich teste Computer-Vision-Algorithmen für die Bildkategorisierung. Ich würde gerne einen Datensatz mit ein paar Kategorien von Objekten finden, z. Katzen und Hunde. Dieser Datensatz sollte die gesamte Variabilität innerhalb jeder Klasse aufgrund der intrinsischen Variabilität der Klasse aufweisen. Das heißt, ich möchte mich nicht um Bilder kümmern müssen, die von verschiedenen Standpunkten oder unter verschiedenen Lichtverhältnissen usw. aufgenommen wurden. Fast alle Variabilität innerhalb einer Kategorie sollte auf die intrinsische Variabilität dieser Kategorie zurückzuführen sein, z. die Kategorie der Katzen würde viele verschiedene Bilder enthalten, da Katzen tatsächlich voneinander abweichen, nicht weil die Bilder unter verschiedenen Bedingungen produziert wurden.
Vorzugsweise werden die Objekte "ausgeschnitten" (auf einem einheitlichen Hintergrund). Die Größe des Datasets ist nicht wichtig. Synthetische Bilder (vielleicht mit 3D-Grafik-Software erstellt) sind auch in Ordnung. Die Bilder müssen mit ihrer Kategorie beschriftet sein.
Kennt jemand einen Datensatz wie diesen?
Ich habe SVMs vor ein paar Jahren mit dieser Bibliothek ausprobiert:
Ich habe einige der Bilddatensätze aufgelistet, an denen wir während meiner Doktorarbeit gearbeitet haben - aber Sie sollten wirklich viele davon im Internet finden. Nach dem, was Sie beschrieben haben, suchen Sie nach einer Objekterkennungsaufgabe oder einem Segmentierungsdatensatz mit Groundtruth.
Der ALOI-Datensatz könnte für Sie interessant sein: "ALOI ist eine Farbbildersammlung aus eintausend kleinen Objekten, die für wissenschaftliche Zwecke aufgenommen wurden. Um die sensorische Variation in Objektaufnahmen zu erfassen, haben wir systematisch Betrachtungswinkel, Beleuchtungswinkel und Beleuchtungsfarbe für jedes Objekt variiert und zusätzlich breit erfasst Wir haben mehr als hundert Bilder von jedem Objekt aufgenommen und insgesamt 110.250 Bilder für die Sammlung erhalten. "
Das Erkennungsdatensatz für Verkehrszeichen könnte auch für Sie interessant sein. IIRC gibt es auch Ground Truth Segmentierungsmasken für die Verkehrszeichen.
In beiden Fällen sollten Sie in der Lage sein, den Hintergrund mit allem zu ersetzen, was Sie wollen (wenn Sie die Aufgabe etwas komplizierter machen wollen).
Viel Glück mit der Erkennungsaufgabe (wenn es noch relevant ist).
Ich denke, CIFAR-Datensatz könnte Ihnen helfen. Es besagt, dass es sich um markierte Teilmengen des 80 Millionen winzigen Bilddatensatzes handelt. Das Laden des Datasets scheint für Python, Matlab oder C (binäre Version) über die bereitgestellten Möglichkeiten einfach zu sein.
Das heißt, ich möchte mich nicht um Bilder kümmern müssen verschiedene Blickwinkel oder unter verschiedenen Lichtverhältnissen etc. Fast die ganze Variabilität innerhalb einer Kategorie sollte auf die intrinsische Variabilität dieser Kategorie, z.B. die Kategorie der Katzen würde enthalten viele verschiedene Bilder, weil Katzen tatsächlich anders aussehen von einander, nicht weil die Bilder unter verschiedenen produziert wurden Bedingungen.
Das ist nicht sehr realistisch. In der Tat, Sie werden mit einem System enden, das in der Praxis überhaupt nicht funktioniert - oder nur in sehr eingeschränkten Umgebungen.
Ein solcher Datensatz, den ich kenne (mir waren solche Datensätze nicht wichtig), sind die UIUC-Auto-Datasets . Diese Datenbank enthält Bilder von Seitenansichten von Autos zur Verwendung bei der Auswertung von Objekterkennungsalgorithmen. (Einzel-Skala + Multi-Skala)
Versuchen Sie PASCAL, ImageNet & amp; SONNE. Caltech und MSRC sind alt und aus.
Vielleicht möchten Sie auch dieses Papier lesen: Unvoreingenommener Blick auf Dataset Bias - Torralba (MIT) & amp; Efros (CMU): people.csail.mit.edu/torralba/publications/datasets_cvpr11.pdf
Tags und Links computer-vision vision