Über die Jahre sammelte sich bei vielen OM einiges an losem Papier an. Teilweise sind es Sammlungen von Kopien oder eigene Aufzeichnungen. Nur wenn man die Disziplin eines Bibliothekars hat, gibt es hier jemals wieder eine Chance, eine sinnvolle Information herauszuziehen. Wie kann man nun ein Archiv dieser “toten Bäume” anlegen, welches besser durchsuchbar ist? Ich beschreibe hier einen Prozess, mit dem man am Ende PDF hat, in denen eine Suche effizient gelingt.
Der Fokus liegt hier darauf, eine Toolchain zusammenzustellen, die mit Standard-Paketen von Debian auskommt. Es gibt vielleicht Programme, die das noch bequemer lösen, aber den Aufwand, diese zu installieren und zu pflegen, sollte man auch nicht unterschätzen. Die hier benutzten Programme lassen sich alle wie gewohnt mit apt-get install installieren und werden mit dem normalen System-Update aktuell gehalten.
Als Erstes legt man sich einen Stapel-Einzugsscanner zu. Das Gerät sollte Farbe und Duplex beherrschen. Ich habe dafür einen Fujitsu ScanSnap genutzt. Dieses Gerät verarbeitet mit geringer Fehlerquote auch mehrfach gelochte Seiten oder solche aus einer Ringelbindung. Auch mit dünnem Papier und kleinen Abmessungen kommt es gut zurecht.
Es geht natürlich auch mit einem Flachbettscanner. Besonders bei sehr problematischen Vorlagen liefert der sogar bessere Ergebnisse. Aber der Aufwand ist doch erheblich und mit einem Einzugscanner tut man sich da viel leichter.
Als Software kommt xsane zum Einsatz. Links oben trägt man eine hohe Zahl ein. Die spielt eigentlich keine große Rolle, aber sie sollte größer sein als der größte Stapel, den man auf einmal verarbeiten möchte. Der richtige Modus ist “mehrseitig”. Die gewünschten Blätter werden grob vorsortiert. Dabei kann man auch die Papierqualität und die Farbigkeit gruppieren und ob doppelseitig gescannt werden soll. Von so einem Stapel wird ein Blatt eingelegt und im xsane “Vorschau” ausgewählt. Damit stellt man den Scan für diesen Stapel ein, also Helligkeit, Kontrast usw. Dazu stellt man ein, ob man doppelseitig und farbig scannen möchte. Das Blatt kommt zurück auf seinen Stapel.
Falls der Stapel dicker ist, als der Scanner fassen kann, schadet es nicht, in mehreren Teilen zu arbeiten. Der Modus “Mehrseitig” fasst auch mehrere Durchgänge zusammen. Im Dialog “Mehrseitig” vergibt man einen Namen für das “Projekt” und klickt auf “erstellen”. Dann auf “scannen” und der eingelegte Stapel wird verarbeitet. Wenn alle Blätter des Stapels eingescannt sind, klickt man auf “Mehrseitige Datei speichern” und das PDF wird erstellt.
Diese Datei kann man nun in PDFarranger öffnen und bei Bedarf einzelne Seiten splitten oder drehen. Die Schrift sollte am Ende normal von links nach rechts lesbar sein. Es empfiehlt sich auch, Seiten, die zweispaltig angelegt waren, zu splitten. Das vereinfacht die spätere Weiterverarbeitung und Indexierung. Das speichert man dann ab und übergibt es an die Texterkennung per OCR mit ocrmypdf. Diese nutzt im Hintergrund tesseract. Weil das Programm gierig die gesamten CPU-Kerne belegt, was auch sinnvoll ist, sollte man das mit nice starten, sodass der Rechner bedienbar bleibt. Ein typischer Aufruf sieht so aus:
nice ocrmypdf -d -l deu eingabe.pdf ausgabe.pdf
Das OCR vollbringt natürlich keine Wunder. Besonders bei “Kopien von Kopien von Kopien” ist mit einer Fehlerquote zu rechnen. Handgeschriebene Texte funktionieren praktisch gar nicht. Aber bei vielen Dateien erhält man eine Version im PDF, die mit der Textsuche benutzbar ist.
Nachdem die Dateien an einem sinnvollen Ort im Dateisystem abgelegt sind, kann man eine Indexierung machen. Ich habe dafür Recoll genutzt. Mit den Paketen pdftotext können damit die PDF indexiert werden. Für LATEX wird untex benötigt. Office-Dokumente werden ebenfalls beherrscht. Das Indizieren braucht einige Minuten. Nun hat man eine schöne digitale Bibliothek, die einfach und effizient durchsuchbar ist.