DEVONthink, die Dokumentenverwaltung meiner Wahl, ist berühmt für seine gute Suchfunktion. Ist ein Dokument erstmal im System bestehen beste Chancen, es über die Suchfunktion wiederzufinden. Dokumente werden dabei natürlich nicht nur anhand ihres Titels oder ihrer Metadaten (wie z.B. Tags) gefunden, sondern selbstverständlich auch durch ihren Inhalt. Ein Problem können hier PDF-Dateien sein. Von denen gibt es quasi zwei Sorten, mit und ohne maschinenlesbaren Text. Ohne maschinenlesbaren Text bleibt DEVONthink der Inhalt verborgen und unser Suchergebnis wird schlechter als ein sein könnte.
Bei PDFs ohne maschinenlesbaren Text besteht eine gute Chance sie mit Hilfe von OCR (Optical Character Recognition, im Deutschen sagt man Texterkennung) umzuwandeln. Auf dem Mac kann dies die Pro-Version von DEVONthink erledigen, auf dem iPhone oder iPad das neue DEVONthink To Go. Auch außerhalb von DEVONthink gibt es natürlich OCR-fähige Apps oder sogar Dokumenten-Scanner, welche dies für uns erledigen können. In jedem Fall muss das Dokument natürlich einigermaßen lesbar sein, kann also nicht einfach aus wilder Schreibschrift bestehen.
Aber wie finden wir solche PDFs nun in unseren DEVONthink-Datenbanken, um sie entsprechend nachzubessern?