Extrahierendes Substantiv + Nomen oder (Adj.) + Substantiv von Text

8

Ich möchte abfragen, ob es möglich ist, Substantiv + Substantiv oder (adj | Substantiv) + Nomen in R-Paket openNLP zu extrahieren, das heißt, ich würde linguistisches Filtern verwenden, um Kandidat-Nominalphrasen zu extrahieren. Kannst du mir sagen, wie es geht? Vielen Dank.

Danke für die Antworten. Hier ist der Code:

%Vor%

Der Leser kann index auf acqTagSplit verweisen, um Substantiv + Substantiv oder (adj | Substantiv) + Nomenextraktion zu tun. (Der Code ist nicht optimal, aber arbeiten. Wenn Sie eine Idee haben, lassen Sie es mich wissen.)

Außerdem habe ich immer noch ein Problem.

Justeson und Katz (1995) schlugen eine weitere linguistische Filterung vor, um Nominalphrasen für Kandidaten zu extrahieren:

((Adj | Substantiv) + | ((Adj | Substantiv)) (Substantiv)?) (Adj | Substantiv) ) Substantiv

Ich kann seine Bedeutung nicht gut verstehen. Könntest du mir einen Gefallen tun, um es zu erklären oder eine solche Repräsentation in R-Sprache umzuwandeln? Danke vielmals.

    
ssuhan 05.01.2011, 03:34
quelle

2 Antworten

3

Es ist möglich.

BEARBEITEN:

Sie haben es verstanden. Verwenden Sie den POS-Tagger und teilen Sie ihn auf Leerzeichen: ll & lt; - strsplit (acqTag, ''). Von dort iterieren Sie die Länge der Eingabeliste (Länge von ll) wie: für (i in 1:37) {qq & lt; -strsplit (ll [[1]] [i], '/')} und die gesuchte Wortart erhalten.

Nach der Aufteilung auf Leerzeichen ist es nur eine Listenverarbeitung in R.

    
carlosdc 05.01.2011, 03:47
quelle
5

Ich habe keine offene Konsole, auf der ich das testen könnte, aber Sie haben versucht, mit tagPOS zu token und dann nach "Substantiv", "Substantiv" oder vielleicht paste (tagPOS (acq), collapse="." ) und suchen Sie nach "nomen.noun". Dann könnte gregexpr verwendet werden, um Positionen zu extrahieren.

EDIT: Das Format der markierten Ausgabe war ein bisschen anders als ich mich erinnerte. Ich denke, diese Methode von read.table () - nach dem Ersetzen von Leerzeichen durch "\ n" ist viel effizienter als das, was ich oben sehe:

%Vor%     
42- 05.01.2011 04:06
quelle

Tags und Links