Markieren (nicht löschen) Sätze oder Sätze in einem Word-Dokument wiederholen

8

Ich habe den Eindruck, dass dies in Worten nicht möglich ist, aber ich denke, wenn Sie nach 3-4 Wörtern suchen, die in der gleichen Reihenfolge in einem sehr langen Papier vorkommen, könnte ich Duplikate der gleichen Sätze finden.

Ich kopierte und klebte viele Dokumente aus früheren Veröffentlichungen und hoffte, einen einfachen Weg zu finden, wiederholte Informationen in diesem mehr als 40-seitigen Dokument zu finden. Es gibt viele verschiedene Formatierungen, aber ich wäre bereit, sie vorübergehend loszuwerden Formatierung, um wiederholte Informationen zu finden.

    
rparks21 24.04.2012, 15:24
quelle

3 Antworten

15

Um alle doppelten Sätze hervorzuheben, können Sie auch ActiveDocument.Sentences(i) verwenden. Hier ist ein Beispiel

LOGIK

1) Alle Sätze aus dem Word-Dokument in einem Array abrufen

2) Sortieren Sie das Array

3) Extrahiere Duplikate

4) Duplikate hervorheben

CODE

%Vor%

SNAPSHOTS

VOR

NACH

    
Siddharth Rout 24.07.2012 04:07
quelle
4

Ich habe meinen eigenen DAWG-Vorschlag nicht verwendet, und ich bin immer noch daran interessiert, zu sehen, ob jemand anders einen Weg hat, dies zu tun, aber ich konnte mir das einfallen lassen:

%Vor%

Ich habe dies auf einem 258-seitigen Dokument ( TheStory.txt ) von dieser Quelle getestet und es lief in nur wenigen Minuten.

Siehe test() für die Verwendung.

Sie müssen auf die Microsoft Scripting Runtime verweisen, um die Scripting.Dictionary -Objekte zu verwenden. Wenn das unerwünscht ist, können kleine Änderungen vorgenommen werden, um stattdessen Collections zu verwenden, aber ich bevorzuge die Dictionary , da sie die nützliche Methode .Exists() hat.

    
Gaffi 20.07.2012 15:05
quelle
2

Ich habe eine ziemlich lahme Theorie gewählt, aber es scheint zu funktionieren (zumindest wenn ich die Frage richtig gestellt habe, denn manchmal bin ich ein langsamer Versteher). Ich lade den gesamten Text in eine Zeichenfolge, lade die einzelnen Wörter in ein Array, durchlaufe das Array und verkette die Zeichenfolge, wobei jedes Mal drei aufeinanderfolgende Wörter enthalten sind.
Da die Ergebnisse bereits in 3 Wortgruppen enthalten sind, werden 4 Wortgruppen oder mehr automatisch erkannt.

%Vor%

Der Code nimmt einen fortlaufenden Text ohne Aufzählungszeichen an.

    
Trace 25.07.2012 17:12
quelle

Tags und Links