Als ich vor etwa fünf Jahren angefangen habe DEVONthink zu verwenden, hatte ich zahlreiche PDFs von gescannten Dokumenten, die nicht durchsuchbar waren. Ich hatte sie vorher zum großen Teil in Evernote, wo das nicht weiter aufgefallen war, da Evernote die Daten aufbereitet. Mit dem Wechsel zu DEVONthink fiel das immer mehr auf. Ich stieß regelmäßig auf PDFs, die ich vorher in Evernote über die Volltextsuche gut finden konnte, nun aber in DEVONthink mühselig mit der Hand in der Verzeichnisstruktur suchen musste.
Als ich das Upgrade auf DEVONthink Office Pro gemacht habe, wollte ich diese PDFs nun alle mit OCR durchsuchbar machen. Ich hatte aber keine Idee, wie ich die über meine Datenbank verstreuten Dateien finden sollte. Im Hauptfenster von DEVONthink erscheint bei der Detailansicht eines PDFs als Art “PDF+Text”. Danach kann man aber nicht suchen. Wenn man nämlich eine intelligente Gruppe anlegt, bekommt man unter “Art” nur “PDF/PS” als möglichen Dateityp für PDFs angezeigt.
Irgendwann bin ich mit der Hand alle PDFs durchgegangen und habe sie einzeln geprüft. Das hätte ich viel einfacher haben können. Und zwar so einfach, dass ich immer noch über mich den Kopf schüttele, dass ich nicht früher darauf gekommen bin.
Beim Stöbern im Forum von DEVONtechnologies bin ich über einen Beitrag des Foren-Mitglieds “lutz_” gestolpert, der dort eine intelligente Suche beschrieben hat, die nämlich genau das tut: PDFs ohne Text-Layer anzeigen. Der Trick ist: Suche nach Typ “PDF/PS” UND nach Wortzahl “0”.

So einfach ist das, denn natürlich hat ein nicht-durchsuchbares PDF keine Worte und kann auf diese Weise identifiziert werden.
Ich habe mir so eine intelligente Gruppe gleich für meine Datenbank insgesamt und zusätzlich jeweils auf den Eingang der Datenbank und den globalen Eingang beschränkt angelegt. So habe ich gleich im Blick, wenn PDFs ohne Text reinkommen. Bei mir sind das zB Dokumente, die ich für mein papierloses Büro mit dem iPhone scanne.
Dieser Beitrag bezieht sich auf DEVONthink 2.x.
Wenn Du mit dem iPhone Dokumente für das papierlose Büro scannst, empfehle ich Microsoft Office Lens (kostenlos, entzerrt schräg aufgenommene Dokumente automatisch) oder für ca. 5€ Scanbot (mit automatischer Auslösung der Kamera, sobald das Dokument im Fenster ist, automatischem Entzerren und automatischem OCR — in meinen Augen einfach genial durchdacht und rentiert sich sofort!)