Ich suche nach statistischen Daten über die Verwendung von Unicode-Zeichen in Textdokumenten (mit jedem Markup). Googeln brachte keine Ergebnisse.
Hintergrund: Ich entwickle gerade ein maschinelles Textverarbeitungswerkzeug auf der Basis von endlichen Zuständen. Statistische Daten zu Zeichen könnten helfen, nach den richtigen Übergängen zu suchen. Zum Beispiel werden wahrscheinlich lateinische Zeichen am häufigsten verwendet, so dass es sinnvoll sein könnte, zuerst nach diesen Zeichen zu suchen.
Hat jemand zufällig solche Statistiken gesammelt oder gesehen?
(Ich konzentriere mich nicht auf bestimmte Sprachen oder Gebietsschemata. Denken Sie an einen allgemeinen Parser wie einen XML-Parser.)
Um aktuelle Erkenntnisse und Ideen zusammenzufassen:
Tut mir leid, das ist keine Antwort, sondern eine gute Forschungsrichtung.
UPDATE: Ich habe einen kleinen Hadoop-Job geschrieben und ihn auf einem der CommonCrawl-Segmente ausgeführt. Ich habe meine Ergebnisse in einer Tabelle hier veröffentlicht. Unten sind die ersten 50 Zeichen:
%Vor%Um ehrlich zu sein, ich habe keine Ahnung, ob diese Ergebnisse repräsentativ sind. Wie gesagt, ich habe nur ein Segment analysiert. Sieht für mich ziemlich plausibel aus. Man kann auch leicht erkennen, dass das Markup bereits abgezogen ist - daher ist die Distribution nicht direkt für meinen XML-Parser geeignet. Aber es gibt wertvolle Hinweise darauf, welche Zeichenbereiche zuerst überprüft werden sollen.
Der Link zu Ссылка im Duplizierte Frage Ich persönlich denke, das ist die vielversprechendste Ressource dafür. Ich habe die Quellen nicht untersucht (ich spreche kein Ruby), aber von einem Echtzeit-Twitter-Feed mit Zeichenfrequenzen würde ich das machen Ich erwarte ein ganz anderes Ergebnis als von statischen Webseiten und wahrscheinlich eine radikal andere Sprachverteilung (ich sehe viel mehr Arabisch und Türkisch bei Twitter als in meinem ansonsten normalen Leben). Es ist wahrscheinlich nicht genau das, wonach du suchst, aber wenn wir uns nur den Titel deiner Frage anschauen (was wahrscheinlich die meisten Besucher verfolgt haben werden), dann würde ich das als Antwort vorschlagen.
Dies wirft natürlich die Frage auf, welche Art von Nutzung Sie zu modellieren versuchen. Für statisches XML, nach dem Sie zu suchen scheinen, ist das Common Crawl-Set vielleicht doch ein besserer Ausgangspunkt. Text, der aus einem redaktionellen Prozess (wie auch immer informell) herauskommt, sieht ganz anders aus als spontaner Text.
Von den vorgeschlagenen Optionen ist Wikipedia (und / oder Wiktionary) wahrscheinlich am einfachsten, da es klein genug für den lokalen Download , weit besser standardisiert als ein zufälliger Web-Dump (alle UTF-8, alle richtig markiert, die meisten richtig durch Sprache markiert und Korrektur gelesen für Markup-Fehler, Orthographie und gelegentlich Fakten), und doch groß genug (und wahrscheinlich bereits übertrieben von eine Größenordnung oder mehr), um Ihnen glaubwürdige Statistiken zu geben. Aber wenn die Domäne anders als die Domäne ist, die Sie tatsächlich modellieren möchten, werden sie wahrscheinlich trotzdem falsch liegen.
Tags und Links unicode