Dokumentenimport in Paperless-ngx mit Consume-Ordner, OCR-Texterkennung und Archivspeicherung

Automatischer Dokumentenimport mit Paperless-ngx

Automatischer Dokumentenimport

Ein zentrales Merkmal von Paperless-ngx ist der automatisierte Import von Dokumenten. Neue Dateien werden dabei nicht manuell über die Weboberfläche hochgeladen, sondern automatisch aus einem definierten Importverzeichnis verarbeitet.

Dieses Verfahren ermöglicht einen kontinuierlichen Dokumentenfluss vom Scanner oder einer anderen Quelle direkt in das digitale Archiv.

Das Importverzeichnis

Paperless-ngx überwacht ein spezielles Verzeichnis, das häufig als Consume-Ordner bezeichnet wird. In der hier dokumentierten Installation befindet sich dieses Verzeichnis innerhalb der zentralen Datenstruktur des Systems:

/Daten/paperless-data/consume

Alle Dateien, die in diesem Ordner abgelegt werden, werden automatisch erkannt und von Paperless-ngx verarbeitet.

Der Hintergrundprozess, der diese Aufgabe übernimmt, wird als Consumer bezeichnet.

Typische Quellen für neue Dokumente

Dokumente können aus unterschiedlichen Quellen im Importverzeichnis landen. Häufige Beispiele sind:

  • Netzwerk-Scanner mit automatischer Dateiablage
  • gespeicherte E-Mail-Anhänge
  • manuell abgelegte PDF-Dateien
  • automatisierte Downloads von Onlineportalen

Unabhängig von der Quelle erfolgt die weitere Verarbeitung vollständig automatisch.

Ablauf der Dokumentverarbeitung

Nachdem eine Datei im Importverzeichnis abgelegt wurde, durchläuft sie mehrere Verarbeitungsschritte.

  1. Erkennung neuer Dateien im Importverzeichnis
  2. Analyse des Dateityps
  3. Durchführung der OCR-Texterkennung
  4. Extraktion von Metadaten
  5. Ablage im Archivverzeichnis

Nach Abschluss dieses Prozesses erscheint das Dokument in der Weboberfläche von Paperless-ngx und kann dort durchsucht oder weiter kategorisiert werden.

OCR-Texterkennung

Ein wichtiger Bestandteil des Importprozesses ist die automatische Texterkennung. Paperless-ngx nutzt hierfür eine OCR-Engine, die den Inhalt gescannter Dokumente analysiert und in durchsuchbaren Text umwandelt.

In der hier beschriebenen Konfiguration werden beispielsweise folgende Sprachen verwendet:

PAPERLESS_OCR_LANGUAGE=deu+eng

Dadurch können sowohl deutsche als auch englische Dokumente zuverlässig verarbeitet werden.

Umgang mit Dubletten

Beim Import überprüft Paperless-ngx außerdem, ob ein Dokument bereits im Archiv vorhanden ist. Dazu wird der Inhalt der Dateien analysiert.

Wird eine mögliche Dublette erkannt, kann das Dokument in einem separaten Verzeichnis gespeichert werden:

/Daten/paperless-data/duplicates

Auf diese Weise bleibt das eigentliche Archiv frei von mehrfach importierten Dokumenten.

Automatische Metadaten

Während des Importvorgangs versucht Paperless-ngx außerdem, bestimmte Informationen automatisch zu erkennen. Dazu gehören beispielsweise:

  • Dokumenttitel
  • Datum des Dokuments
  • mögliche Korrespondenten
  • Schlüsselbegriffe aus dem Text

Diese Informationen erleichtern die spätere Suche im Archiv erheblich.

Vorteile des automatischen Imports

Der automatisierte Dokumentenimport bietet mehrere Vorteile gegenüber einer rein manuellen Archivierung:

  • kontinuierlicher Dokumentenfluss in das Archiv
  • keine manuelle Uploadarbeit
  • automatische Texterkennung
  • frühe Dublettenprüfung
  • strukturierte Archivierung

Gerade bei regelmäßig eingehenden Dokumenten wie Rechnungen oder Bescheiden sorgt dieser Mechanismus für eine deutliche Arbeitserleichterung.

Nächster Schritt der Reihe

Nachdem Dokumente automatisch importiert werden, stellt sich die Frage nach einer nachvollziehbaren Archivstruktur. Der nächste Beitrag der Reihe beschäftigt sich daher mit der Dateinamenstruktur innerhalb des Archivs.

Aufbau der Artikelreihe

Diese Artikelreihe dokumentiert eine reale Systemkonfiguration zu Demonstrations- und Dokumentationszwecken. Es werden keine Skripte, Tools oder vollständigen Konfigurationsdateien öffentlich bereitgestellt. Sensible Parameter wie Schlüssel oder Tokens werden grundsätzlich anonymisiert dargestellt.