Dies könnte auf andere Weise gefragt worden sein. Ich mache das nicht im laufenden Betrieb. Hin und wieder erhalten wir Teile von Inhalten in Word-Dateien, die Bindestriche, Fett-, Kursiv- und Blockzitate enthalten. Gibt es ein gutes Werkzeug, um dies in einen sauberen HTML-Code zu konvertieren.
Sonst, was andere Leute angehen.
Ich bin überrascht, dass niemand es erwähnt hat, aber HTML Tidy macht normalerweise einen guten Job. Ich habe es in letzter Zeit nicht verwendet, aber ich verstehe, dass es besonders geeignet ist, um HTML-Inhalte zu bereinigen, die speziell in Word verfügbar sind.
Vor einer langen Zeit hatte ich die Aufgabe, ein einigermaßen gut strukturiertes Multi-Megabyte-Word-Dokument zu erstellen und es in eine Reihe von HTML-Seiten umzuwandeln (ungefähr 20.000 davon!) Word doc als RTF (die Word-Ausgabe von Save As HTML war viel zu "dreckig") und konvertiert die RTF über ein Perl-Skript in HTML. Die Konvertierung war ein Zwei-Durchlauf-Prozess ... Bereinigen Sie zuerst allgemeine Formatierungsfehler und konvertieren Sie dann das bereinigte RTF in HTML.
Da die Dokumenteditoren weiterhin das Word-Dokument pflegen, hat es sich gelohnt, häufige Formatierungsfehler im ersten Durchlauf zu kodieren, da die Fehler oft auch nach der Behebung wieder auftraten.
Übrigens zeigte dieser Prozess ein sehr skeptisches Management, wie in nur 40 Stunden (oder so) ein guter Coder ~ 20.000 Webseiten erzeugen und auf unbestimmte Zeit auf dem neuesten Stand halten konnte, während die ursprünglichen Autoren ( Wer Zeit hat, war noch wertvoller) hätte mehrere hundert Stunden für die Konvertierung ausgegeben und wäre dann gezwungen gewesen, das resultierende HTML von Hand zu pflegen.
Ich verwende TinyMCE, um einzelne Word-Dokumente zu entfernen und zu konvertieren. Es ist kostenlos, vorausgesetzt, Sie können es auf Ihren Web-Host hochladen (vorausgesetzt, Sie haben einen). Ich schütze meine Installation, um Spammage zu vermeiden, aber Sie können ihre Demo bei Ссылка verwenden.
Es funktioniert tatsächlich besser als die meisten eigenständigen Konvertierungsprogramme, die ich ausprobiert habe, zumindest für die Art, wie ich es verwende.
Der einfachste und schnellere Weg für mich besteht darin, den gesamten Text aus Word zu kopieren und mit einfügen
Das einzige Problem bei dieser Methode ist, dass Sie Dreamweaver benötigen, das nicht kostenlos ist. Wie auch immer, Sie können die Methode mit der Testversion von DW testen.
Ich habe vor Jahren ein Tool namens CleanXHTML 1.2 für Microsoft Office Word 2003 (.NET 2.0) geschrieben. Dies dient dazu, innerhalb von Word zu verwenden und ermöglicht es Ihnen, XHTML basierend darauf zu exportieren, was im Dokument markiert (oder ausgewählt) ist. Ich habe seit Jahren auf einer Word 2007-Version gesessen.
Ich habe dazu ein Befehlszeilendienstprogramm geschrieben: Einzelheiten finden Sie in diesem Doc-to-HTML-Konverter .
>Sie können dies Doc To HTML Converter ausprobieren. Es ist nicht kostenlos, aber es löst das Problem.
Necromancing:
Öffnen Sie das Word-Dokument in Word 2013.
Als ODT speichern (OpenOffice-Dokument).
Öffnen mit OpenOffice
Und benutzen Sie entweder "Save As" ==> HTML-Document
oder benutze
Export erfordert die Installation der JRE, Speichern unter wird nicht.
Für Word können Sie entweder COM-Interop verwenden oder Sie können Aspose-Wörter verwenden.
Sie können auch direkt aspose.words verwenden und einfach den "copyright" -Text mit der xpath-Abfrage entfernen;)
Word ist sehr "schmutzig" mit seiner eigenen Codierung. Je nachdem, ob der Benutzer die integrierten Stile (Überschrift 1, Überschrift 2 usw.) im Vergleich zu sich ändernden Schriftgrößen verwendet hat, kann es fett gedruckte Tags, leere fettgedruckte Tags und alle Arten von Gemeinheiten enthalten. Alles, was das Word-Dokument annimmt und es in HTML "umwandeln" will, erbt dieselben Markup-Probleme.
Am besten nehmen Sie ein Makro in Word auf, um mehrere Such- und Ersetzungsaktionen bei offensichtlichen Dingen wie M-Gedankenstrichen, Tabulatoren, Ellipsen usw. auszuführen.
Ersetzen Sie dann Absatzumbrüche ^ p ^ p durch einen Platzhalter (wie ~ ) und ersetzen Sie dann alle einzelnen Unterbrechungen ( ^ p ) durch ein Leerzeichen, dann ersetzen Sie ~ durch </p>^p</p>
, um HTML-Absätze zu generieren.
Kopieren Sie dann das gesamte Dokument, fügen Sie es in Notepad ein, um alle nicht-ASCII-Markups zu entfernen, kopieren Sie es dann in Ihren HTML-Editor und markieren Sie die verbleibenden 10% wie kursive kursive, nicht übereinstimmende Absatztags manuell usw.
Nichts wird jemals so gut sein wie die Handcodierung, also ist mit dieser Technik die meiste Grunzarbeit erledigt, und Sie haben einen sauberen Text, von dem Sie anfangen können.
Vielleicht möchten Sie dieses Tool ausprobieren: OpenXML Document Viewer .
Es bietet ein Befehlszeilentool zum Konvertieren von OpenXML (DOCX) -Dokumenten in HTML.
Wenn Sie Word 2003 oder 2007 installieren können, können Sie das neue OOXML-Format zum Generieren von XML-Dateien verwenden. Das Format ist ziemlich Wehr ... komplex, aber zumindest können Sie es mit Standardwerkzeugen analysieren. Das sollte Ihnen ermöglichen, die benötigten Informationen aus der Datei zu extrahieren.
Die Datei OfficeXMLMarkupExplained_en.docx enthält eine Einführung und viele Details, wie OOXML funktioniert.
Probieren Sie auch Ссылка , es ist eine Web-App, in der Sie ein Word-DOC hochladen und es in HTML mit verschiedenen (viel zu vielen) konvertieren ) Optionen. Perfekt für die Ad-hoc-Konvertierung, wenn Ihr Texter Ihnen eine Pressemitteilung in Word sendet und Sie sie beispielsweise auf die Website stellen möchten.
WordDown ist ein Bookmarklet zum Konvertieren von Microsoft Word-Dokumenten in HTML5. Es ändert nicht nur die Syntax des Dokuments, sondern auch die Semantik und das visuelle Erscheinungsbild. In meinem Testfall war das visuelle Ergebnis sehr erfreulich im Vergleich zum Originaldokument. Wenn Sie das konvertierte Dokument drucken möchten, sollten Sie wissen, dass das kleine rote Banner auf der linken Seite nicht im Druck-Stylesheet enthalten ist.