Ich brauche ein Skript, das eine Website spidern und die Liste aller gecrawlten Seiten im Klartext oder in einem ähnlichen Format zurückgeben kann; was ich den Suchmaschinen als Sitemap übermitteln werde. Kann ich mit WGET eine Sitemap einer Website erstellen? Oder gibt es ein PHP-Skript, das das Gleiche tun kann?
Dies erstellt eine Datei mit dem Namen sedlog.txt
, die alle auf der angegebenen Website gefundenen Links enthält. Sie können PHP oder ein Shell-Skript verwenden, um die Textdatei-Sitemap in eine XML-Sitemap zu konvertieren. Verändern Sie die Parameter des wget-Befehls (accept / reject / include / exclude), um nur die benötigten Links zu erhalten.
Sie können dieses Perl-Skript verwenden, um den Trick zu machen: Ссылка
Tags und Links php web-crawler wget bots