tokenize

Tokenizing ist das Aufteilen einer Zeichenkette in diskrete Elemente, Token genannt.
2
Antworten

Token in String teilen mit Regex in c #

Ich habe einige "tokenisierte" Vorlagen, zum Beispiel (ich rufe Tokens den Teil zwischen doppelten Klammern): %Vor% Ich möchte ein Array aus diesem Satz extrahieren, um etwas zu haben wie: %Vor% Ich habe versucht, das mit dem folgenden...
13.10.2012, 17:57
6
Antworten

Teilen Sie einen String mit Leerzeichen in Javascript?

___ qstnhdr ___ Teilen Sie einen String mit Leerzeichen in Javascript? ___ answer9402526 ___ %Vor% gibt eine Liste von Nicht-Leerzeichen-Sequenzen %code% zurück (beachten Sie, dass dies den Punkt in "sayed" enthält.) %Vor% gibt eine Liste...
22.02.2012, 19:50
1
Antwort

Tokenizer-Token-Filter

Ich versuche Autocomplete mit Elasticsearch zu implementieren, indem ich denke, dass ich verstehe, wie man es macht ... Ich versuche, Mehrwörtern (Phrasen) Vorschläge zu erstellen, indem ich die edge_n_grams von ES benutze, während gecrawlte...
11.05.2016, 16:47
1
Antwort

Python re.split () vs nltk word_tokenize und sent_tokenize

Ich ging diese Frage durch. Ich frage mich nur, ob NLTK schneller wäre als Regex bei der Wort / Satz-Tokenisierung.     
11.02.2016, 17:11
1
Antwort

Boost :: Tokenizer Komma getrennt (C ++)

Sollte für euch ein leichtes sein ..... Ich spiele mit Tokenizern, die Boost verwenden, und ich möchte ein Token erstellen, das durch Komma getrennt ist. Hier ist mein Code: %Vor% Die Ausgabe, die ich möchte, ist: %Vor% Was ich bekomm...
29.10.2011, 21:08
2
Antworten

Boost :: Split mit der ganzen Zeichenfolge als Trennzeichen

Ich würde gerne wissen, ob es eine Methode gibt, die boost :: split verwendet, um eine Zeichenkette mit ganzen Zeichenketten als Trennzeichen zu teilen. Zum Beispiel: str="xxaxxxxabcxxxxbxxxcxxx" Gibt es eine Methode, um diese Zeichenfolge...
15.09.2011, 20:17
2
Antworten

Matlab teilt mehrere Trennzeichen auf

Ich habe eine Zelle Liste von Strings wie folgt: %Vor% Ich möchte es so bekommen %Vor% Wie macht man das in Matlab? Ich weiß, dass ich verwenden kann %Vor% Aber wie kann ich mehr als ein Trennzeichen verwenden?     
31.10.2012, 22:06
1
Antwort

Parser vs. Lexer und XML

Ich lese jetzt über Compiler und Parser-Architektur und ich frage mich über eine Sache ... Wenn Sie XML, XHTML, HTML oder eine beliebige SGML-basierte Sprache haben, Was wäre die Rolle eines Lexikers und was wären die Tokens? Ich habe gel...
02.09.2010, 02:07
4
Antworten

PHP: Teilen Sie eine Reihe alternierender Gruppen von Zeichen in ein Array auf

Ich habe eine Zeichenfolge, deren korrekte Syntax die Regex ^([0-9]+[abc])+$ ist. Beispiele für gültige Strings wären: '1a2b' oder '00333b1119a555a0c' Der Übersichtlichkeit halber ist der String eine Liste von Paaren (Wert, Buchstabe) und...
25.03.2016, 08:50
3
Antworten

Basic NLP in CoffeeScript oder JavaScript - Punkt tokenizaton, einfach trainierte Bayes-Modelle - wo fange ich an?

Mein aktuelles Web-App-Projekt verlangt nach etwas NLP: Tokenisierung von Texten in Sätze, über Punkt und ähnliches; Unterbrechen der längeren Sätze durch Nebensatz (oft ist es Komma, außer wenn es nicht ist) Ein Bayes-Modell, das sich f...
15.03.2012, 13:54