So erhalten Sie den Seitentitel in Anfragen

7

Was wäre der einfachste Weg, um den Titel einer Seite in Requests zu bekommen?

%Vor%     
David542 08.11.2014, 00:50
quelle

4 Antworten

10

Sie benötigen einen HTML-Parser, um die HTML-Antwort zu analysieren und den Text title des Tags zu erhalten:

Beispiel mit lxml.html :

%Vor%

Es gibt sicherlich andere Optionen, wie zum Beispiel mechanize library:

%Vor%

Welche Option gewählt werden soll, hängt davon ab, was Sie als nächstes tun werden: analysieren Sie die Seite, um mehr Daten zu erhalten, oder wollen Sie mit ihr interagieren: klicken Sie auf Schaltflächen, senden Sie Formulare, folgen Sie Links usw.

Außerdem können Sie eine API verwenden, die von IMDB zur Verfügung gestellt wird, anstatt zum HTML-Parsing zu gehen, siehe:

Beispiel für die Verwendung eines IMDbPY -Pakets:

%Vor%     
alecxe 08.11.2014, 01:01
quelle
5

Sie könnten beautifulsoup verwenden, um den HTML-Code zu analysieren.

Installieren Sie es mit pip install beautifulsoup4

%Vor%     
Greg 08.11.2014 00:59
quelle
3

Sie müssen keine anderen Bibliotheken importieren. Anfrage hat diese Funktionalität eingebaut.

%Vor%

Aktualisierung nach dem ZN13 Kommentar

%Vor%

Dies funktioniert in allen Fällen, ob zusätzliche nicht-alphabetische Zeichen mit Titel-Tag vorhanden sind oder nicht.

    
Rahul Chawla 31.01.2017 12:40
quelle
1

Regex mit Lookbehind und Lookforward:

%Vor%

re.DOTALL , weil der Titel ein neues Zeilenzeichen \n

haben kann     
Vitaly Zdanevich 11.11.2017 09:24
quelle

Tags und Links