Ich weiß, dass dies schon einmal gefragt wurde, aber ich finde keine gute Antwort für node.js
Ich brauche die Serverseite, um den einfachen Text (keine Tags, Skripte usw.) von einer HTML-Seite zu extrahieren, die abgerufen wird.
Ich weiß, wie man es clientseitig mit jQuery macht (bekomme den .text () Inhalt des body-Tags), weiß aber nicht, wie man das auf der Serverseite macht.
Ich habe Ссылка ausprobiert, aber dies behandelt keine Skripte.
%Vor%Ich habe phantom.js ausprobiert, kann aber keinen Weg finden, einfach nur Text zu bekommen.
Sie können TextVersionJS ( Ссылка ) verwenden, um die reine Textversion einer HTML-Zeichenfolge zu generieren. Es ist reines Javascript (mit Tonnen von RegExps), so dass Sie es im Browser und in node.js auch verwenden können.
Diese Bibliothek funktioniert zwar für Ihre Zwecke, ist aber genauso wie der Text eines Elements im Browser. Sein Zweck besteht darin, eine Textversion einer HTML-E-Mail zu erstellen. Dies bedeutet, dass Dinge wie Bilder enthalten sind. Zum Beispiel angesichts des folgenden HTML- und Code-Snippets:
%Vor% Die Variable plainText
enthält diese Zeichenfolge:
Beachten Sie, dass Skript-Tags korrekt ignoriert werden. Auf GitHub finden Sie die neueste Version des Quellcodes .
Tags und Links javascript node.js screen-scraping