Einfache, computerlesbare Listen mit gemeinsamen Vornamen?

7

Ich brauche eine Liste mit gebräuchlichen Vornamen für Leute wie "Bill", "Gordon", "Jane" usw. Gibt es eine freie Liste mit vielen bekannten Namen, anstatt dass ich sie eingeben muss? Etwas, das ich leicht mit dem Programm parsen kann, um zum Beispiel ein Array auszufüllen?

Ich mache mir keine Sorgen:

  • Wissen, ob ein Name männlich oder weiblich (oder beides) ist
  • Wenn der Datensatz einen ganzen Stapel falsch positiver Ergebnisse enthält
  • Wenn es Namen gibt, die nicht darauf stehen, ist offensichtlich kein Datensatz wie dieser vollständig.
  • Wenn es "Duplikate" gibt, d. h. es ist mir egal, ob das Dataset "Bill" und "William" und "Billy" als unterschiedliche Namen auflistet. Ich hätte lieber mehr Daten als weniger
  • Ich interessiere mich nicht für die Popularität des Namens

Ich weiß Wikipedia hat eine Liste von beliebtesten Vornamen , aber das ist alles in einer HTML-Seite und mit schrecklicher Wiki-Syntax ausgestattet. Gibt es einen besseren Weg, um einige Beispieldaten zu erhalten, ohne scabape wikipedia screenen zu müssen?

    
Rory 20.09.2009, 21:04
quelle

3 Antworten

25

Das sollte genug sein, um Sie zu beginnen, würde ich denken.

    
Mark Rushakoff 20.09.2009, 21:23
quelle
6

Verwaltung für soziale Sicherheit - Jenseits der Top-1000-Namen-Datendateien

Dies ist eine umfassende Liste von Vornamen, die in den USA verwendet werden. Die Zip-Dateien enthalten nationale und bundesstaatliche Daten nach Geburtsjahren im CSV-Format. Es enthält die Anzahl der Vorkommen (mindestens 5) und Geschlecht. Zum Beispiel enthält die nationale Datei für 2010 33.838 Babynamen.

    
humbads 06.05.2012 23:02
quelle
5

Sie können die Wikipedia-API ( Ссылка ) ganz einfach verwenden, um die Liste der Seiten in bestimmten Kategorien, Looks, abzurufen wie Kategorie: Vornamen ist etwas, von dem Sie ausgehen möchten.

%Vor%

Der Teil des Ergebnisses dieser URL sieht folgendermaßen aus:

%Vor%

Sehen Sie sich die API an und wählen Sie geeignete Format- und Abfrageparameter und überprüfen Sie die Kategorien.

P.S. Übrigens: Der Wiki-Text von der Seite, die Sie verlinkt haben, enthält Namen in einer Form, die mit regexp einfach zu extrahieren ist. Neben Titeln von Links in der gerenderten HTML-Seite haben Sie "(name)" angehängt auf den Namen selbst.

    
Juicy Scripter 20.09.2009 22:19
quelle

Tags und Links