Der einfachste Weg oder die besten Tools zum Konvertieren von Word-Text in clean (X) HTML [geschlossen]

8

Dies könnte auf andere Weise gefragt worden sein. Ich mache das nicht im laufenden Betrieb. Hin und wieder erhalten wir Teile von Inhalten in Word-Dateien, die Bindestriche, Fett-, Kursiv- und Blockzitate enthalten. Gibt es ein gutes Werkzeug, um dies in einen sauberen HTML-Code zu konvertieren.

Sonst, was andere Leute angehen.

    
Boris Smirnov 25.11.2008, 16:03
quelle

14 Antworten

2

Ich bin überrascht, dass niemand es erwähnt hat, aber HTML Tidy macht normalerweise einen guten Job. Ich habe es in letzter Zeit nicht verwendet, aber ich verstehe, dass es besonders geeignet ist, um HTML-Inhalte zu bereinigen, die speziell in Word verfügbar sind.

    
Andrew Ferrier 25.11.2008, 22:03
quelle
4

Vor einer langen Zeit hatte ich die Aufgabe, ein einigermaßen gut strukturiertes Multi-Megabyte-Word-Dokument zu erstellen und es in eine Reihe von HTML-Seiten umzuwandeln (ungefähr 20.000 davon!) Word doc als RTF (die Word-Ausgabe von Save As HTML war viel zu "dreckig") und konvertiert die RTF über ein Perl-Skript in HTML. Die Konvertierung war ein Zwei-Durchlauf-Prozess ... Bereinigen Sie zuerst allgemeine Formatierungsfehler und konvertieren Sie dann das bereinigte RTF in HTML.

Da die Dokumenteditoren weiterhin das Word-Dokument pflegen, hat es sich gelohnt, häufige Formatierungsfehler im ersten Durchlauf zu kodieren, da die Fehler oft auch nach der Behebung wieder auftraten.

Übrigens zeigte dieser Prozess ein sehr skeptisches Management, wie in nur 40 Stunden (oder so) ein guter Coder ~ 20.000 Webseiten erzeugen und auf unbestimmte Zeit auf dem neuesten Stand halten konnte, während die ursprünglichen Autoren ( Wer Zeit hat, war noch wertvoller) hätte mehrere hundert Stunden für die Konvertierung ausgegeben und wäre dann gezwungen gewesen, das resultierende HTML von Hand zu pflegen.

    
Chris Nava 25.11.2008 16:37
quelle
2

Ich verwende TinyMCE, um einzelne Word-Dokumente zu entfernen und zu konvertieren. Es ist kostenlos, vorausgesetzt, Sie können es auf Ihren Web-Host hochladen (vorausgesetzt, Sie haben einen). Ich schütze meine Installation, um Spammage zu vermeiden, aber Sie können ihre Demo bei Ссылка verwenden.

Es funktioniert tatsächlich besser als die meisten eigenständigen Konvertierungsprogramme, die ich ausprobiert habe, zumindest für die Art, wie ich es verwende.

    
Eric Seiler 08.06.2011 20:38
quelle
1

Der einfachste und schnellere Weg für mich besteht darin, den gesamten Text aus Word zu kopieren und mit einfügen Dreamweaver (jede Version von MX in CS3) einzufügen / em> Befehl und wählen Sie, um nur die Struktur des Dokuments zu behalten. Es funktioniert gut, wenn Ihr Word-Dokument nicht zu komplex ist, und wenn es wirklich komplex ist, benötigen Sie nur eine zusätzliche Bearbeitung in der Code-Ansicht. Das resultierende HTML ist wirklich sauber.

Das einzige Problem bei dieser Methode ist, dass Sie Dreamweaver benötigen, das nicht kostenlos ist. Wie auch immer, Sie können die Methode mit der Testversion von DW testen.

    
alexmeia 25.11.2008 17:07
quelle
1

Ich habe vor Jahren ein Tool namens CleanXHTML 1.2 für Microsoft Office Word 2003 (.NET 2.0) geschrieben. Dies dient dazu, innerhalb von Word zu verwenden und ermöglicht es Ihnen, XHTML basierend darauf zu exportieren, was im Dokument markiert (oder ausgewählt) ist. Ich habe seit Jahren auf einer Word 2007-Version gesessen.

    
rasx 14.11.2009 01:46
quelle
1

Ich habe dazu ein Befehlszeilendienstprogramm geschrieben: Einzelheiten finden Sie in diesem Doc-to-HTML-Konverter .

>     
ChrisW 13.08.2010 00:27
quelle
1

Sie können dies Doc To HTML Converter ausprobieren. Es ist nicht kostenlos, aber es löst das Problem.

    
GreyWolf 05.09.2011 16:22
quelle
1

Necromancing:

Öffnen Sie das Word-Dokument in Word 2013.
Als ODT speichern (OpenOffice-Dokument).
Öffnen mit OpenOffice
Und benutzen Sie entweder "Save As" ==> HTML-Document
oder benutze

%Vor%

Export erfordert die Installation der JRE, Speichern unter wird nicht.

Für Word können Sie entweder COM-Interop verwenden oder Sie können Aspose-Wörter verwenden.

Sie können auch direkt aspose.words verwenden und einfach den "copyright" -Text mit der xpath-Abfrage entfernen;)

    
Stefan Steiger 07.10.2014 10:39
quelle
0

Word ist sehr "schmutzig" mit seiner eigenen Codierung. Je nachdem, ob der Benutzer die integrierten Stile (Überschrift 1, Überschrift 2 usw.) im Vergleich zu sich ändernden Schriftgrößen verwendet hat, kann es fett gedruckte Tags, leere fettgedruckte Tags und alle Arten von Gemeinheiten enthalten. Alles, was das Word-Dokument annimmt und es in HTML "umwandeln" will, erbt dieselben Markup-Probleme.

Am besten nehmen Sie ein Makro in Word auf, um mehrere Such- und Ersetzungsaktionen bei offensichtlichen Dingen wie M-Gedankenstrichen, Tabulatoren, Ellipsen usw. auszuführen.

Ersetzen Sie dann Absatzumbrüche ^ p ^ p durch einen Platzhalter (wie ~ ) und ersetzen Sie dann alle einzelnen Unterbrechungen ( ^ p ) durch ein Leerzeichen, dann ersetzen Sie ~ durch </p>^p</p> , um HTML-Absätze zu generieren.

Kopieren Sie dann das gesamte Dokument, fügen Sie es in Notepad ein, um alle nicht-ASCII-Markups zu entfernen, kopieren Sie es dann in Ihren HTML-Editor und markieren Sie die verbleibenden 10% wie kursive kursive, nicht übereinstimmende Absatztags manuell usw.

Nichts wird jemals so gut sein wie die Handcodierung, also ist mit dieser Technik die meiste Grunzarbeit erledigt, und Sie haben einen sauberen Text, von dem Sie anfangen können.

    
quelle
0

Konvertieren Sie in RTF und verwenden Sie eine XSLT, um den Rich Text in HTML zu konvertieren. Ich würde empfehlen zu versuchen, alles als RTF anstelle von DOCX oder was auch immer Word-Format zu bekommen.

    
Ty. 25.11.2008 16:46
quelle
0

Vielleicht möchten Sie dieses Tool ausprobieren: OpenXML Document Viewer .

Es bietet ein Befehlszeilentool zum Konvertieren von OpenXML (DOCX) -Dokumenten in HTML.

    
Dirk Vollmar 25.11.2008 16:49
quelle
0

Wenn Sie Word 2003 oder 2007 installieren können, können Sie das neue OOXML-Format zum Generieren von XML-Dateien verwenden. Das Format ist ziemlich Wehr ... komplex, aber zumindest können Sie es mit Standardwerkzeugen analysieren. Das sollte Ihnen ermöglichen, die benötigten Informationen aus der Datei zu extrahieren.

Die Datei OfficeXMLMarkupExplained_en.docx enthält eine Einführung und viele Details, wie OOXML funktioniert.

    
Aaron Digulla 25.11.2008 16:52
quelle
0

Probieren Sie auch Ссылка , es ist eine Web-App, in der Sie ein Word-DOC hochladen und es in HTML mit verschiedenen (viel zu vielen) konvertieren ) Optionen. Perfekt für die Ad-hoc-Konvertierung, wenn Ihr Texter Ihnen eine Pressemitteilung in Word sendet und Sie sie beispielsweise auf die Website stellen möchten.

    
jpsimons 28.11.2009 21:19
quelle
0

WordDown ist ein Bookmarklet zum Konvertieren von Microsoft Word-Dokumenten in HTML5. Es ändert nicht nur die Syntax des Dokuments, sondern auch die Semantik und das visuelle Erscheinungsbild. In meinem Testfall war das visuelle Ergebnis sehr erfreulich im Vergleich zum Originaldokument. Wenn Sie das konvertierte Dokument drucken möchten, sollten Sie wissen, dass das kleine rote Banner auf der linken Seite nicht im Druck-Stylesheet enthalten ist.

    
Stefan Schmidt 01.02.2012 11:29
quelle

Tags und Links