Wo bekomme ich eine Liste von fast allen Wörtern in englischer Sprache? [geschlossen]

8

Ich möchte einen zufälligen Text generieren lassen.

Ich habe versucht, ein einfaches Java Programm zu schreiben,

%Vor%

und das Ergebnis ist etwas wie:

  

tafawc flnqhabhv mqceuoqy rttzckzqa   bdyxzod zbxweclvia wegmxvuoqez   ijwauhmzw joxm zvphbs ogpjyip   qxoymxkxv yrfoifig fbhecph izxcyfma   xarzse srwic jgi fkbcdcydpz qpdvsz   rqhjieqno felmfmtgqe qozenjlxtg vfxd   lkmkrksgw ytuaduknsl lassen ao bm   lsfjednsa qouinii yrwzerdck yb ksztttly   zmwflwevyix kdg qpnkzuijva ssau yc   wxews drqsdwbc glxb gokunixldec   lznuwdvksx zkzhsirrrucc sqplhv   fzixywkaft fqdkumfgddn bcqp oiwwbo   emhk kv qhm xkjp kacbmcd ojh wzvukx   oztbexkf llyv kdspqpa zbykj lnprtlxp   af bne ryamumcg oyhldwdlq bqyfxrszuf   wyrijnr ysnefsz lhhazrdwsev tll   ikibsnpqwg ntzlgc aahfsdeups rushos   ihqzyucd mjorscchszm tuppz hxi   ssumrevg

Es wäre hilfreich, wenn der Text stattdessen lesbar wäre.

Ich denke daran, englische Wörter zu verwenden und daraus zufällig Stichwörter auszuwählen. Wo bekomme ich eine große Liste von Wörtern in englischer Sprache?

    
Moeb 20.10.2009, 11:59
quelle

11 Antworten

6

Der Goldstandard für die Verarbeitung natürlicher Sprache ist Wordnet in Ссылка . Dies hat eine aktive Benutzergruppe, hat Semantik und Syntax mit Wörtern und Schnittstellen zu anderen NLP-Tools. Wenn du daran denkst, Berechnungen mit den Wörtern zu machen, solltest du definitiv einen Blick darauf werfen.

Aber die zufällige Auswahl von Wörtern erzeugt keinen nützlichen Satz und ich vermute, dass Sie von den Ergebnissen enttäuscht sein werden. Sehen Sie sich Toolkits wie OpenNLP an, wo es viele Tools gibt, einschließlich der Redewendung (POS), die Sie sicherlich brauchen werden.

Auch wenn Sie Sätze haben, die eine gültige Syntax haben, müssen Sie die Arbeit von Chomsky und anderen lesen. Seine "farblosen grünen Ideen schlafen rasend" Ссылка veranschaulicht das Problem.

    
peter.murray.rust 20.10.2009, 12:03
quelle
5

Suchen Sie nach Lorem Ipsum auf der Website Ссылка , um "Void-Text" zu generieren

Es gibt viele Generatoren im Netz Ссылка

Referenztext: Lorem ipsum dolor sitzen amet, consectetur adipiscing elit. Sed consectetur viverra fringilla. Donec at lectus bei turpis bibendum placerat. Vivamus non nibh Mauris. Nulla metus metus, sollicitudin nec egestas id, fermentum bei nisl. Pellentesque at nisl est. In nec sem tellus, ac imperdiet lectus. Pillentesque tortor turpis, Sagittis vel facilisis tristique, cursus im Tortor. Mauris nicht neque magna, vel dignissim sem. Suspendisse interdum diam tempus dui mattis mostie. Donec in Mauris Urna, bei Vulputate Ipsum. Sed sodales venenatis quam non tincidunt.

    
Luka Rahne 20.10.2009 12:07
quelle
4

Ich würde vorschlagen, einen Lorem-Ipsum-Generator zu verwenden. Für Java gibt es dies auf . Online Version ist verfügbar hier .

    
michael.kebe 20.10.2009 12:04
quelle
2

Das Wordlist-Projekt enthält einige Listen. Ich denke, es ist schwer, eine vollständige Liste zu finden, natürliche Sprachen funktionieren nicht so.

    
unwind 20.10.2009 12:02
quelle
1

Ein groß list Ich fand auf der Freebsd CVS

    
Roch 20.10.2009 12:01
quelle
1

CUVPlus ist ein gutes maschinenlesbares Wörterbuch (das Link geht direkt auf die Download-Seite). Dies ist "nur für Forschungszwecke" (nichtkommerzielle Lizenz). Es umfasst die Einteilung in Substantive, Verben usw., so dass es möglicherweise hilfreicher ist, zufällige Sätze als nur eine Liste von Wörtern zu erzeugen.

    
user181548 20.10.2009 12:02
quelle
1

Laden Sie das openOffice-Wörterbuch herunter:

Ссылка

    
Peter 20.10.2009 12:15
quelle
1

Wenn Sie auf einem Linux-PC sind, versuchen Sie es mit / usr / share / dict

    
Rohit Banga 20.10.2009 12:24
quelle
0

Sie wollen "Lorem Ipsum" nachschlagen. Es muss eine Art Bibliothek geben, um sie in Java zu erzeugen.

    
Russell Troywest 20.10.2009 12:04
quelle
0

Die Scrabble-Wortlisten sind vielleicht einen Blick wert. Es gibt zwei Variationen: SOWPODS (überall außer USA und Kanada) und TWL (für die USA und Kanada). Beide Wortlisten können von verschiedenen Seiten heruntergeladen werden.

Aber für was Sie brauchen, sollten Sie auch Lorem Ipsum (alias "lipsum") in Erwägung ziehen. Ein beliebter Lipsum-Generator ist hier , obwohl es noch viele andere gibt.

    

Chris J 20.10.2009 12:06
quelle
0

Als ich das 1972 in der 12. Klasse gemacht habe, habe ich eine Liste aller möglichen zweiten Buchstaben in Englisch erstellt. Mit anderen Worten, ein Vektor mit 26 Strings. Die erste Zeichenkette enthielt alle möglichen Buchstaben, die A folgen konnten, die zweite Zeichenkette alle möglichen Buchstaben, die B folgen konnten, und so weiter.

Ich habe die Listen nur erstellt, indem ich versucht habe, an ein Wort mit jeder möglichen Zwei-Buchstaben-Sequenz zu denken, und wenn es zu schwer war, an einen zu denken, habe ich es nicht aufgenommen. Daher endete ich mit den üblichen zwei Buchstabenfolgen auf Englisch.

Ich erinnere mich, dass der erzeugte Text aussprechbar war und dass es oft echte Wörter oder fast echte Wörter darin gab.

Ich wurde auf OCR-Markensuchkarten in BASIC für den HP 2100A-Minicomputer mit 8k Kernspeicher geschrieben.

Seitdem habe ich gelernt, dass Sie normalerweise eine Sprache identifizieren können, indem Sie die Häufigkeit von Buchstabentriplets untersuchen. Ich nehme an, dass Sie, wenn Sie dies auf eine weitere Ebene tun, viel mehr echte Wörter und vieles mehr erhalten größere unheimliche Ähnlichkeit mit irgendeiner Form von Englisch.

    
Michael Dillon 20.10.2009 14:28
quelle

Tags und Links