Gibt es eine Möglichkeit, programmgesteuert auf CiteSeerX zuzugreifen (z. B. Suche nach Autor und / oder Titel?). Überraschenderweise kann ich nicht finden alles Relevante; sicher auch andere versuchen, wissenschaftliche Artikel Metadaten zu erhalten, ohne auf Scraping zurückgreifen?
BEARBEITEN: Beachten Sie, dass CiteSeerX OAI PMH unterstützt, aber das scheint eine API zu sein, die auf das Halten von digitalen Bibliotheken ausgerichtet ist auf dem neuesten Stand ("Content Dissemination") und unterstützt nicht gezielt die Suche. Außerdem ist die Citeseer-Information auf dieser Seite sehr spärlich und sagt sogar "Derzeit gibt es Schwierigkeiten mit dem OAI".
Es gibt eine weitere SO Frage zu CiteSeerX API (obwohl nicht spezifisch suchen); die 2 Antworten lösen das Problem nicht (man spricht über Mendeley, eine andere Software, und die andere sagt, dass OAI-PMH-Implementierungen Erweiterungen der minimalen Spezifikation anbieten können).
Alternativ kann jemand einen guten Weg vorschlagen, Zitate von Autoren / Titeln programmatisch zu erhalten?
Wie von einem der Kommentatoren vorgeschlagen, habe ich zuerst jabref versucht:
jabref -n -f "citeseer: Titel: (Unterricht von) Autor: (Brewer)"
Jabref scheint jedoch nicht zu erkennen, dass die Abfragezeichenfolge Doppelpunkte enthalten muss, und löst daher einen Fehler aus.
Bei den Suchergebnissen habe ich die CiteSeerX-Ergebnisse mit Pythons BeautifulSoup abgetaktet:
%Vor%Es ist möglich, eine Dokument-ID aus den Ergebnissen zu erhalten (der irreführend benannte "doi = ..." -Teil in der Zusammenfassungslink-URL) und diese dann an die CiteSeerX OAI-Engine zu übergeben, um Dublin Core XML zu erhalten (zB < a href="http://citeseerx.ist.psu.edu/oai2?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:CiteSeerX.psu:10.1.1.42.2177"> Ссылка ); Allerdings enthält XML mehrere dc: date-Elemente, was es weniger nützlich macht als die scrape-Ausgabe.
Schade, dass CiteSeerX trotz aller offenen Archive / Open-Access-Rhetorik dazu führt, dass die Leute kratzen.
Tags und Links api web-scraping metadata citations