Ich möchte einen zufälligen Text generieren lassen.
Ich habe versucht, ein einfaches Java Programm zu schreiben,
%Vor%und das Ergebnis ist etwas wie:
tafawc flnqhabhv mqceuoqy rttzckzqa bdyxzod zbxweclvia wegmxvuoqez ijwauhmzw joxm zvphbs ogpjyip qxoymxkxv yrfoifig fbhecph izxcyfma xarzse srwic jgi fkbcdcydpz qpdvsz rqhjieqno felmfmtgqe qozenjlxtg vfxd lkmkrksgw ytuaduknsl lassen ao bm lsfjednsa qouinii yrwzerdck yb ksztttly zmwflwevyix kdg qpnkzuijva ssau yc wxews drqsdwbc glxb gokunixldec lznuwdvksx zkzhsirrrucc sqplhv fzixywkaft fqdkumfgddn bcqp oiwwbo emhk kv qhm xkjp kacbmcd ojh wzvukx oztbexkf llyv kdspqpa zbykj lnprtlxp af bne ryamumcg oyhldwdlq bqyfxrszuf wyrijnr ysnefsz lhhazrdwsev tll ikibsnpqwg ntzlgc aahfsdeups rushos ihqzyucd mjorscchszm tuppz hxi ssumrevg
Es wäre hilfreich, wenn der Text stattdessen lesbar wäre.
Ich denke daran, englische Wörter zu verwenden und daraus zufällig Stichwörter auszuwählen. Wo bekomme ich eine große Liste von Wörtern in englischer Sprache?
Der Goldstandard für die Verarbeitung natürlicher Sprache ist Wordnet in Ссылка . Dies hat eine aktive Benutzergruppe, hat Semantik und Syntax mit Wörtern und Schnittstellen zu anderen NLP-Tools. Wenn du daran denkst, Berechnungen mit den Wörtern zu machen, solltest du definitiv einen Blick darauf werfen.
Aber die zufällige Auswahl von Wörtern erzeugt keinen nützlichen Satz und ich vermute, dass Sie von den Ergebnissen enttäuscht sein werden. Sehen Sie sich Toolkits wie OpenNLP an, wo es viele Tools gibt, einschließlich der Redewendung (POS), die Sie sicherlich brauchen werden.
Auch wenn Sie Sätze haben, die eine gültige Syntax haben, müssen Sie die Arbeit von Chomsky und anderen lesen. Seine "farblosen grünen Ideen schlafen rasend" Ссылка veranschaulicht das Problem.
Suchen Sie nach Lorem Ipsum auf der Website Ссылка , um "Void-Text" zu generieren
Es gibt viele Generatoren im Netz Ссылка
Referenztext: Lorem ipsum dolor sitzen amet, consectetur adipiscing elit. Sed consectetur viverra fringilla. Donec at lectus bei turpis bibendum placerat. Vivamus non nibh Mauris. Nulla metus metus, sollicitudin nec egestas id, fermentum bei nisl. Pellentesque at nisl est. In nec sem tellus, ac imperdiet lectus. Pillentesque tortor turpis, Sagittis vel facilisis tristique, cursus im Tortor. Mauris nicht neque magna, vel dignissim sem. Suspendisse interdum diam tempus dui mattis mostie. Donec in Mauris Urna, bei Vulputate Ipsum. Sed sodales venenatis quam non tincidunt.
Das Wordlist-Projekt enthält einige Listen. Ich denke, es ist schwer, eine vollständige Liste zu finden, natürliche Sprachen funktionieren nicht so.
CUVPlus ist ein gutes maschinenlesbares Wörterbuch (das Link geht direkt auf die Download-Seite). Dies ist "nur für Forschungszwecke" (nichtkommerzielle Lizenz). Es umfasst die Einteilung in Substantive, Verben usw., so dass es möglicherweise hilfreicher ist, zufällige Sätze als nur eine Liste von Wörtern zu erzeugen.
Wenn Sie auf einem Linux-PC sind, versuchen Sie es mit / usr / share / dict
Sie wollen "Lorem Ipsum" nachschlagen. Es muss eine Art Bibliothek geben, um sie in Java zu erzeugen.
Die Scrabble-Wortlisten sind vielleicht einen Blick wert. Es gibt zwei Variationen: SOWPODS (überall außer USA und Kanada) und TWL (für die USA und Kanada). Beide Wortlisten können von verschiedenen Seiten heruntergeladen werden.
Aber für was Sie brauchen, sollten Sie auch Lorem Ipsum (alias "lipsum") in Erwägung ziehen. Ein beliebter Lipsum-Generator ist hier , obwohl es noch viele andere gibt.
Als ich das 1972 in der 12. Klasse gemacht habe, habe ich eine Liste aller möglichen zweiten Buchstaben in Englisch erstellt. Mit anderen Worten, ein Vektor mit 26 Strings. Die erste Zeichenkette enthielt alle möglichen Buchstaben, die A folgen konnten, die zweite Zeichenkette alle möglichen Buchstaben, die B folgen konnten, und so weiter.
Ich habe die Listen nur erstellt, indem ich versucht habe, an ein Wort mit jeder möglichen Zwei-Buchstaben-Sequenz zu denken, und wenn es zu schwer war, an einen zu denken, habe ich es nicht aufgenommen. Daher endete ich mit den üblichen zwei Buchstabenfolgen auf Englisch.
Ich erinnere mich, dass der erzeugte Text aussprechbar war und dass es oft echte Wörter oder fast echte Wörter darin gab.
Ich wurde auf OCR-Markensuchkarten in BASIC für den HP 2100A-Minicomputer mit 8k Kernspeicher geschrieben.
Seitdem habe ich gelernt, dass Sie normalerweise eine Sprache identifizieren können, indem Sie die Häufigkeit von Buchstabentriplets untersuchen. Ich nehme an, dass Sie, wenn Sie dies auf eine weitere Ebene tun, viel mehr echte Wörter und vieles mehr erhalten größere unheimliche Ähnlichkeit mit irgendeiner Form von Englisch.