Ich habe einen großen Korpus von Meinungen (2500) in Rohtext. Ich würde gerne die scikit-learn-Bibliothek verwenden, um sie in Test- / Train-Sets aufzuteilen. Was könnte der beste Ansatz sein, um diese Aufgabe mit scikit-learn zu lösen? Könnte irgendjemand mir ein Beispiel für das Aufteilen von Rohtext in Test- / Zugsätzen geben (wahrscheinlich werde ich tf-idf-Darstellung verwenden).
Angenommen, Ihre Daten sind eine Liste von Strings, d. h.
%Vor%Dann können Sie es unter Verwendung von train_test_split z indem Sie:
%Vor%Bevor Sie sich jedoch beeilen, lesen Sie diese Dokumente durch. 2500 ist kein "großer Korpus" und Sie möchten wahrscheinlich eher eine k-fache Kreuzvalidierung als eine einzelne Holdout-Teilung durchführen.