Google Scholar mit Matlab

8

Ich möchte einige Daten von Google Scholar automatisch über ein Matlab-Skript abrufen. Ich bin hauptsächlich an Daten wie den Bibtex-Einträgen von Google Scholar und der Forward-Citation-Funktion interessiert. Es scheint jedoch, dass es keine API für Google Scholar gibt gibt es eine Möglichkeit, automatisch bibliografische Daten von Google Scholar mit Matlab abzurufen? Gibt es dafür bereits Tools oder Code?

    
Artem Kaznatcheev 23.09.2011, 03:35
quelle

2 Antworten

4

Wenn Sie wirklich Matlab dafür verwenden wollen (was ich nicht wirklich rate), dann können Sie sich verschiedene Web Scraping Beispiele und es gibt diesen Code , der tatsächlich schon einige bekommt Infos von Google Scholar. Im Grunde nur gute 'Matlab Web Scraping' und los geht's.

Ich persönlich würde Python dafür empfehlen, weil Python besser für die allgemeine Programmierung von IMHO ist. Zum Beispiel hat dieser Typ bereits eine ähnliche Sache wie du gemacht will mit Python. Wenn Sie jedoch Matlab kennen und keine Zeit für Python haben, folgen Sie den Links im ersten Absatz.

    
Justin Peel 23.09.2011, 05:49
quelle
7

Ein Wort der Vorsicht habe ich bei der weiteren Arbeit an diesem Projekt gefunden.

Es gibt einen Grund, warum Google Scholar keine API hat. Die Verwendung von Bots zum Sammeln von Google Scholar verstößt gegen die EULA. Die Grundidee ist, dass jedes Programm, das versucht, mit Google Scholar zu interagieren, qualitativ anders als ein Endbenutzer ist. Mit anderen Worten, Sie können automatisch große Datenmengen abrufen. Obwohl das Skript in @ JustinPeel's Antwort nicht unbedingt gegen die Begriffe verstößt, würde es in eine massive Schleife münden.

Einige spezifische Punkte aus dieser EULA :

  

Sie dürfen und dürfen Dritten nicht erlauben: ...

     

(i) direkt oder indirekt Abfragen oder Impressionen von oder Klicks auf Ergebnisse durch automatisierte, irreführende, betrügerische oder andere ungültige Mittel generieren (einschließlich, aber nicht beschränkt auf Klick-Spam, Robots, Makroprogramme und Internetagenten) );

     

...

     

(l) "crawl", "spider", Index oder auf irgendeine nicht flüchtige Weise speichern oder Cache Informationen aus dem Service (einschließlich, aber nicht beschränkt auf Ergebnisse, oder einen Teil, eine Kopie oder eine Ableitung davon);

Wenn Sie sich die robots.txt von Google Scholar anschauen, können Sie auch sehen, dass keine Bots erlaubt sind .

Ich habe von einigen Kollegen gehört, dass Sie in Schwierigkeiten geraten, wenn Sie versuchen, diese Richtlinie zu umgehen, was dazu führen kann, dass Ihr Labor den Zugriff auf Google Scholar verliert.

    
Artem Kaznatcheev 28.09.2011 18:47
quelle

Tags und Links