Nicht-durchsuchbare PDF-Dateien in DEVONthink finden

Als ich vor etwa fünf Jahren ange­fangen habe DEVONthink zu verwenden, hatte ich zahl­reiche PDFs von gescannten Doku­menten, die nicht durch­suchbar waren. Ich hatte sie vorher zum großen Teil in Ever­note, wo das nicht weiter aufge­fallen war, da Ever­note die Daten aufbe­reitet. Mit dem Wechsel zu DEVONthink fiel das immer mehr auf. Ich stieß regel­mäßig auf PDFs, die ich vorher in Ever­note über die Voll­text­suche gut finden konnte, nun aber in DEVONthink mühselig mit der Hand in der Verzeich­nis­struktur suchen musste.

Als ich das Upgrade auf DEVONthink Office Pro gemacht habe, wollte ich diese PDFs nun alle mit OCR durch­suchbar machen. Ich hatte aber keine Idee, wie ich die über meine Daten­bank verstreuten Dateien finden sollte. Im Haupt­fen­ster von DEVONthink erscheint bei der Detail­an­sicht eines PDFs als Art “PDF+Text”. Danach kann man aber nicht suchen. Wenn man nämlich eine intel­li­gente Gruppe anlegt, bekommt man unter “Art” nur “PDF/PS” als mögli­chen Dateityp für PDFs angezeigt.

Irgend­wann bin ich mit der Hand alle PDFs durch­ge­gangen und habe sie einzeln geprüft. Das hätte ich viel einfa­cher haben können. Und zwar so einfach, dass ich immer noch über mich den Kopf schüt­tele, dass ich nicht früher darauf gekommen bin.

Beim Stöbern im Forum von DEVON­tech­no­lo­gies bin ich über einen Beitrag des Foren-Mitglieds “lutz_” gestol­pert, der dort eine intel­li­gente Suche beschrieben hat, die nämlich genau das tut: PDFs ohne Text-Layer anzeigen. Der Trick ist: Suche nach Typ “PDF/PSUND nach Wort­zahl “0”.

Intelligente Gruppe "PDF nicht durchsuchbar" in DEVONthink

So einfach ist das, denn natür­lich hat ein nicht-durch­such­bares PDF keine Worte und kann auf diese Weise iden­ti­fi­ziert werden.

Ich habe mir so eine intel­li­gente Gruppe gleich für meine Daten­bank insge­samt und zusätz­lich jeweils auf den Eingang der Daten­bank und den globalen Eingang beschränkt ange­legt. So habe ich gleich im Blick, wenn PDFs ohne Text rein­kommen. Bei mir sind das zB Doku­mente, die ich für mein papier­loses Büro mit dem iPhone scanne.

Dieser Beitrag bezieht sich auf DEVONthink 2.x.

1 Gedanke zu „Nicht-durchsuchbare PDF-Dateien in DEVONthink finden“

  1. Wenn Du mit dem iPhone Doku­mente für das papier­lose Büro scannst, empfehle ich Micro­soft Office Lens (kostenlos, entzerrt schräg aufge­nom­mene Doku­mente auto­ma­tisch) oder für ca. 5€ Scanbot (mit auto­ma­ti­scher Auslö­sung der Kamera, sobald das Doku­ment im Fenster ist, auto­ma­ti­schem Entzerren und auto­ma­ti­schem OCR — in meinen Augen einfach genial durch­dacht und rentiert sich sofort!)

    Antworten

Schreibe einen Kommentar