Wie funktioniert die Rechtschreibprüfung für HTML und XML?

9

Ich muss eine Rechtschreibprüfung für eine große Anzahl von großen HTML- und XML-Dokumenten durchführen (mehr als 30.000). Ich brauche auch ein benutzerdefiniertes Wörterbuch und ausgefeilte Prüfalgorithmen. Ich versuche, BASH + Linux-Dienstprogramm ( sed , grep , ...) mit hunspell zu verwenden. Hunspell hat die Option -H, die das Dokument als HTML prüft (für XML ist diese Option auch geeignet). Aber es gibt ein Problem: Es gibt Offsets aus und nicht die Anzahl der Zeilen, es kann auch zeilenweise überprüft werden, weil es in diesem Fall innerhalb von Tags aussieht (er kann kein geschlossenes Tag finden). Was ist der richtige Weg, um die Aufgabe zu erledigen?

    
MaXal 06.04.2011, 13:08
quelle

2 Antworten

7

Ich hatte gerade ein ähnliches Problem . Sie sollten in der Lage sein, eine gute Ausgabe zu erhalten, indem Sie diese undokumentierten Schalter verwenden, z. -u oder -U . Aber sei vorsichtig, denn diese Eigenschaften scheinen momentan experimentell zu sein, und ich habe nur über ihre Existenz erfahren, indem ich auf die Quellen von hunspell geschaut habe.

Also im Wesentlichen:

%Vor%

sollte es tun.

Alternativ gibt es auch die Schalter -u1 , -u2 und -u3 , mit denen Sie herumspielen können.

    
devsnd 16.05.2012 12:56
quelle
1

Haben Sie versucht, sauber zu verwenden?

Ich habe es nicht für so viele Dateien verwendet, aber es hat gut funktioniert, um Probleme in mehr als 100 HTML-Seiten zu finden. Sie können es auch für XML-Dateien verwenden und können eine Konfigurationsdatei mit vielen Optionen akzeptieren, die ich noch nicht erkundet habe.

    
Victor 08.04.2011 08:51
quelle

Tags und Links