Ich verwende die Google Drive API, um PDF-Dateien zu speichern und abzurufen. Ich möchte diese Dateien mit den Suchparametern abfragen.
Aber bevor ich anfange das zu implementieren. Ich würde gerne wissen, wie Google die Indexierung großer PDF-Dateien handhabt. (600 + Seiten 25Mb +) Ich würde gerne für Text-basierte PDFs wissen (sie brauchen nicht ocr)
Ich habe einige Suchen auf der Website des Laufwerks versucht und es funktioniert nicht immer.
Ich würde gerne wissen, ob irgendwelche Einschränkungen und was sie sind.
Laut dieser Seite für PDFs mit OCR:
Die maximale Größe für Bilder (.jpg, .gif, .png) und PDF-Dateien (.pdf) beträgt 2 MB. Bei PDF-Dateien betrachten wir nur die ersten 10 Seiten, wenn nach zu extrahierendem Text gesucht wird.
Und diese Seite für PDFs mit Text:
Sie können in PDF- und Bilddateien nach Text suchen:
Theoretisch sollten Sie in der Lage sein, die ersten 100 Seiten aller von Ihnen hochgeladenen Textdokumente oder textbasierten PDFs zu durchsuchen. Sie können auch nach Text auf den ersten zehn Seiten aller Bild-PDFs auf Ihrem Google Drive suchen.
Tags und Links java google-drive-sdk