Sie benötigen einen HTML-Parser, um die HTML-Antwort zu analysieren und den Text title
des Tags zu erhalten:
Beispiel mit lxml.html
:
Es gibt sicherlich andere Optionen, wie zum Beispiel mechanize
library:
Welche Option gewählt werden soll, hängt davon ab, was Sie als nächstes tun werden: analysieren Sie die Seite, um mehr Daten zu erhalten, oder wollen Sie mit ihr interagieren: klicken Sie auf Schaltflächen, senden Sie Formulare, folgen Sie Links usw.
Außerdem können Sie eine API verwenden, die von IMDB
zur Verfügung gestellt wird, anstatt zum HTML-Parsing zu gehen, siehe:
Beispiel für die Verwendung eines IMDbPY
-Pakets:
Sie müssen keine anderen Bibliotheken importieren. Anfrage hat diese Funktionalität eingebaut.
%Vor%Aktualisierung nach dem ZN13 Kommentar
%Vor%Dies funktioniert in allen Fällen, ob zusätzliche nicht-alphabetische Zeichen mit Titel-Tag vorhanden sind oder nicht.
Regex mit Lookbehind und Lookforward:
%Vor% re.DOTALL
, weil der Titel ein neues Zeilenzeichen \n
Tags und Links python html html-parsing