Geben Sie einen Eingabesatz ein, der BIO-Chunk-Tags :
[('Was', 'B-NP'), ('ist', 'B-VP'), ('das', 'B-NP'), ('Fluggeschwindigkeit', "I-NP", ("von", "B-PP"), ("an", "B-NP"), ("unladen", "I-NP"), ('schlucken', 'I-NP'), ('?', 'O')]
Ich müsste die relevanten Ausdrücke herausziehen, z. Wenn ich 'NP'
extrahieren möchte, müsste ich die Tupelfragmente extrahieren, die B-NP
und I-NP
enthalten.
[out]:
%Vor%(Hinweis: Die Zahlen in den Tupel zum Extrahieren stellen den Token-Index dar.)
Ich habe versucht, es mit dem folgenden Code zu extrahieren:
%Vor%Aber wenn ich angrenzende Stücke desselben Typs habe:
%Vor%Gibt Folgendes aus:
%Vor%Anstelle des gewünschten:
%Vor%Wie kann dies aus dem obigen Code gelöst werden?
Gibt es eine bessere Lösung, um die gewünschten Teile eines bestimmten chunk_type
zu extrahieren?
Ich würde es so machen:
%Vor%Sie können es an die Verwendung von Generatoren anpassen, anstatt die gesamte Ausgabe im Speicher zu erstellen, wie ich es mache, und es für eine bessere Leistung zu reaktivieren (ich habe es eilig, so dass der Code nicht optimal ist).
Ich hoffe, es hilft!
Tags und Links python list nlp text-parsing text-chunking