Nehmen wir an, ich wähle eine zufällige Quelle wie CNN. Wäre es vorteilhafter, gescreizte Artikel automatisch in Kategorien basierend auf Schlüsselwörtern zu sortieren oder einzelne Teile der Website für verschiedene Kategorien, z. B. cnn.com/tech oder / entertainment, abzukratzen. Die zweite Option ist nicht einfach skalierbar. Ich möchte URLs nicht manuell für verschiedene Quellen konfigurieren. Wie geht Google News auf dieses Problem ein?
Hier ist ein Google-Patent von 2005
"Systeme und Methoden zur Verbesserung des Rankings von Nachrichtenartikeln"
Und ein Update von 2012:
SYSTEME UND METHODEN ZUR VERBESSERUNG DER RANGLISTE VON NACHRICHTENWenn Sie selbst ein einfaches System erstellen wollten, würde ich so etwas tun:
Nehmen Sie eine Reihe von Nachrichten, die bereits in Sport / Technik / was auch immer klassifiziert sind.
Tokenize sie in einzelne Wörter und Gramm (kurze Wortfolgen).
Erstellen Sie eine wirklich große Tabelle mit eindeutigen Wörtern und Gramm als Spalten und einzelne Geschichten als Zeilen:
%Vor%Dabei stehen die Werte in den Zellen für Häufigkeit, binäres Vorkommen oder TF-IDF der Wörter in den Dokumenten.
Verwenden Sie einen Klassifizierungsalgorithmus wie Naive Bayes oder Support Vector Machines, um die Gewichtungen der Spalten in Bezug auf die Klassenbezeichnungen zu lernen. Dies nennt man dein Modell.
Wenn Sie ein neues, nicht klassifiziertes Dokument erhalten, wird es auf die gleiche Weise wie zuvor mit Token versehen. Wenden Sie das zuvor erstellte Modell an, und Sie erhalten die wahrscheinlichste Klassenbezeichnung des Dokuments.
Hier ist meine Videoserie, die ein Video zur automatischen Kategorisierung von Dokumenten enthält:
Tags und Links algorithm machine-learning web-scraping google-news