Wie teilt man Daten (Rohtext) in Test / Train-Sets mit dem Scikit-Crossvalidierungsmodul auf?

7

Ich habe einen großen Korpus von Meinungen (2500) in Rohtext. Ich würde gerne die scikit-learn-Bibliothek verwenden, um sie in Test- / Train-Sets aufzuteilen. Was könnte der beste Ansatz sein, um diese Aufgabe mit scikit-learn zu lösen? Könnte irgendjemand mir ein Beispiel für das Aufteilen von Rohtext in Test- / Zugsätzen geben (wahrscheinlich werde ich tf-idf-Darstellung verwenden).

    
anon 11.09.2014, 17:44
quelle

1 Antwort

19

Angenommen, Ihre Daten sind eine Liste von Strings, d. h.

%Vor%

Dann können Sie es unter Verwendung von train_test_split z indem Sie:

%Vor%

Bevor Sie sich jedoch beeilen, lesen Sie diese Dokumente durch. 2500 ist kein "großer Korpus" und Sie möchten wahrscheinlich eher eine k-fache Kreuzvalidierung als eine einzelne Holdout-Teilung durchführen.

    
KT. 11.09.2014, 17:57
quelle