Screen Scraping über SSL mit .NET

8

Welche Lösungen gibt es für das Scraping einer Site über SSL für die Verwendung mit .NET?

Mein Anwendungsfall ist, dass ich mich auf einer Partnerwebsite (https) anmelden, durch eine dynamische Hierarchie navigieren und eine komprimierte Berichtsdatei herunterladen muss.

Ich könnte sicherlich andere Screen Scraper verwenden, wenn es keine brauchbaren Optionen in .NET gibt, weder im Framework noch in OSS.

    
Even Mien 04.06.2009, 15:17
quelle

4 Antworten

6

Vielleicht überlegen Sie WATIN , um das Navigieren zu simulieren oder WebClient , wenn Sie die Elemente selbst finden und die Logik simulieren können.

    
Jeff Moser 04.06.2009, 15:25
quelle
8

Der Goldstandard für Screen Scraping in .NET ist das HTML Agility Pack .

Wenn Sie Seiten über HTTPS abrufen, versuchen Sie diesen Artikel:

(Wie Sie bereits in anderen Antworten erwähnt haben, sind Sie möglicherweise eher nach Automatisierung als nach screen scraping . In diesem Fall können Sie besser mit WatiN , ein Framework, das ursprünglich für automatisierte Web-Tests entwickelt wurde, aber flexibel genug für das, was Sie wollen)

    
Colin Pickard 04.06.2009 15:24
quelle
4

Sie können dies sicherlich mit HttpWebRequest tun, aber die Cookies, die für die Anmeldung verwendet werden, können nicht trivial sein. Ich würde empfehlen, watir (ruby) oder watin (c #). Beide werden alles für dich erledigen.

Von der WatiN-Website ist hier ein Beispiel:

%Vor%     
ConsultUtah 04.06.2009 15:28
quelle
2

Ich habe von Leuten gehört, die den Browser in ihrem Programm hosten und mit jQuery scrapen. Scheint großartig für mich, da jQuery großartig für die Suche im DOM ist.

    
Lance Fisher 04.06.2009 15:32
quelle

Tags und Links