DMS 2021 – wider dem Papierkrieg

Ich hatte mir schon lange vorgenommen Papierdokumente endlich mal „vernünftig“ abzulegen. Dank Corona konnte ich mich mit Dokument-Management-Systemen beschäftigen und mit paperless-ng eine gute Lösung finden. Doch der Reihe nach …

Inhaltsverzeichnis

Sein wir ehrlich, Papier ist schon ziemlich öde. Es verstopft die Wohnung und geht dort gerne verloren und staubt irgendwo in Ordnern zu. Wenn man dann wirklich mal die Infos braucht, findet man sie eh nur mühevoll wieder, weil man dann doch nicht so diszipliniert beim Einheften war. Die 1. Corona Welle und der Lockdown hatten mich motiviert daheim etwas Ordnung zu schaffen und dabei ein neue Projekt zu starten: Digitalisierung der eingehender Post. Der Jahreswechsel 2020/2021 war ein guter Zeitpunkt und ideal für einen sauberen Schnitt.

Freie Texterkennung (OCR) von Dokumenten ist ja etwas, was offensichtlich schon länger bei fragdenstaat.de & Co erfolgreich funktioniert. Ich hatte das Thema seit meinem Abschied von Windows als nicht so toll in Erinnerung, aber das ist schon Jahre her. Es braucht heutzutage weder Acrobat pro, noch Omnipage oder klotzige Multifunktionsgeräte von Xerox, um offline & verlässlich den Text aus Bilddateien zu bekommen. Ein Dokument Management System (DMS) verwaltet diese Texte dann als Dokumente, welche aus x Seiten bestehen. Darüber legt es einen Index und ermöglicht so eine komfortable Suche. Das Ganze ist wenig spannend, aber eine extrem hilfreiche IT-Lösung, um sich den Alltag zu erleichtern. Es steht für mich mittlerweile auf einer Stufe wie Passwordmanager, Photo-Archive, Online-Banking, automatisierte Backups etc…

Mein finale Entscheidung: paperless-ng

Als Software benötigt man dazu etwas, was dem eigenen Alltag und Arbeitsweisen entspricht. Für mich ist das eine ausschließliche private Nutzung, die später ggF. auch für meinen Partner oder die ganze Familie nutzbar sein soll. Wer ein kleines Unternehmen hat, oder Lokalpolitiker ist, oder verschiedene Vereine betreut, … der wird andere Ansprüche und Ordnungskriterien haben. Für diejenigen geht es vielleicht noch um eine Integration in ein CRM, BI oder eine Vereinsverwaltung. Das Ganze soll selfhosted im lokalen Netzwerk sein und bei Bedarf mobil über mein VPN zu erreichen sein. So umgeht man die Clouds großer Anbieter, was gerade bei sensiblen Dokumenten mit einer Vielzahl von persönlichsten Informationen in meinen Augen unabdingbar ist.
Zur Vorbereitung sollte man erst einmal sichten, was man denn so per Post überhaupt noch bekommt. So erhält man eine Idee für eine gewisse Ordnungsstruktur. Und man muss sich überlegen, was man für einen Anspruch an die Dokumente-Qualität hat. Sind Knicke und Schlieren ok? Was wenn die Rückseite etwas durchscheint?
In den vergangenen 12 Monaten habe ich meinen Weg gefunden und verwalte aktuell schon 105 Dokumente mit etwas mehr als 180 Seiten per DMS.

Anforderungen

Dokumente und Bücher sinnvoll ablegen ist ein bekanntes Problem und verbirgt sich hinter Begriffen wie Aktenführung oder Bibliografie. Für mich konkret möchte ich es aber aus den folgenden Gründen machen:

  • Dokumente wiederfinden (Angaben wie Dioptrien / wichtige Nummern / …, für Steuererklärung, Bewerbung, …)
  • Dokumente chronologisch finden (für Lohnauswertung, …)
  • Ereignisse rekonstruieren (Zusendung EC Karten, Bearbeitung von Anträgen…)
  • Konversationen rekonstruieren (Widersprüche, …)

Wenn ich schaue, wie sich die Dokumente verteilen, finde ich ganz grob die folgenden Gruppen

  • was: Bons, Rechnungen, Briefe, Formulare (insb. ausgefüllte)
  • wer: Krankenkasse, Versicherungen, Banken, Arbeitgeber, Universität, Wohnungsgesellschaft, Zeitungsartikel

Explizit nicht dazu gehören für mich Literatur & Zitate oder Kochrezepte oder ganze Webseiten. Denn sowas manage ich bereits erfolgreich über meine Nextcloud.
Das Ordnen sollte möglichst keinen Mehraufwand darstellen. Ebenso möchte ich kein Datengrab haben, aus dem ich meine Inhalte nicht mehr heraus bekomme. Es müssen also universelle Standards und Dateiformate unterstützt werden und natürlich Open Source, um einen Vendor-Lockin zu vermeiden. Es sollte aber auch mehr sein, als nur ein PDF-Konverter oder eine Bastellösung. Es muss auch für Nicht-Techniker einfach nutzbar und übersichtlich sein. Was mir technisch noch wichtig ist:

  • Webfrontend und selfhosted
  • gute Texterkennung (wenig Fehler, Inhalte nutzbar machen)
  • automatische Verarbeitung (tags und metadaten)
  • gute Navigation & Recherchemöglichkeiten
  • gute Integration (Offene Formate und Schnittstellen)
  • Python wäre ideal
  • Scans überführen (Seiten aufteilen, zusammenführen, erkennen, verschlagworten)
  • Mehrbenutzerfähigkeit

Mit diesen konkreten Vorgaben konnte ich schon zahlreiche Ansätze ausschließen. Dazu zählen insbesondere reine Skripte wie documentscanner, xsane2OCRmyPDF, sane-scan-pdf, scan-to-pdfa, file based mini DMS. Man erkennt an diesen Tools aber, dass PDF/A eine gute Möglichkeit ist, um mehrseitige Dokumente mit Text und Metadaten zu speichern. Eine schöne detaillierte Herleitung dazu gibt es etwa hier.

Scannen, scannen, scannen …

Logisch, erst einmal muss das Papier in den Rechner kommen. Wie man Seiten scannt, ist wohl jedem klar. Zu beachten sind dabei kleine unerwünschte Störungen wie Leerseiten, falsche Ausrichtung oder leichte Drehungen, gerade wenn man mit einem Scanner mit Dokumenteinzug arbeitet. Um für die Texterkennung genügend Qualität zu haben, wird oft eine Auflösung von 300dpi empfohlen. Für mich reichen 256 Graustufen locker aus, da es mir nur um die Texte geht. Beides lässt auch Luft für spätere Optimierungsschritte. Ich begann mit verlustfrei komprimierten TIFF Dateien, jedoch möchten die meisten DMS diese (relativ umfangreichen) Orginaldateien behalten. Seitdem nutze ich die verlustbehaftetet Kompresison mit JPEG.
Die Wahl des DMS ist in diesem Schritt erst einmal egal, ihr könnt trotzdem schon einmal anfangen Papiere zu scannen und die Seiten je Ordner zusammen zu stellen.

Um möglichst schnell von der Suche zu profitieren, lohnt es sich einen gewissen Altbestand an Dokumenten aus der jüngeren Vergangenheit gleich mit zu erfassen. Bei mir war das durchsehen der Aktenordner dann gleich mit einem rigorosen vernichten alter Rechnungen und historischer Überbleibsel auf Papier verbunden. Neben den oben genannten Erkenntnissen zu Absendern und Themen, erhielt ich dann schöne Stapel je nach Aspekt. Diesen Altbestand zu scannen, war schon etwas Arbeit, weshalb ich euch dringend zu einem Scanner mit Dokumenteinzug (ADF) raten möchte. Ich hatte ja bereits beschrieben, dass es bei mir ein Fujitsu 5110C geworden ist. Für mich war es am einfachsten, dann in der Konsole immer die passende Zeile zu wählen, um einigermaßen sinnig benannte Bilddateien zu bekommen:

scanimage --format=tiff --mode Gray --device=fujitsu:fi-5110Cdj:521961  --resolution=300 --source="ADF Front" --batch="~/Dokumente/gescant/gehalt 2020-11 %d.tiff"
# oder beidseitig
scanimage --format=tiff --mode Gray --device=fujitsu:fi-5110Cdj:521961  --resolution=300 --source="ADF Duplex" --batch="~/Dokumente/gescant/gehalt 2020-11 %d.tiff"

Wahrscheinlich lag ich so bei ~2h reinem Scannen, aber beidseitig ist man pro Blatt mit dem Gerät bei ca. 10sec. Bei meinen Eltern probierte ich auch ein einfaches Multifunktionsgerät, den Brother MFC 5620DW. Obwohl man den recht gut für einen Transfer per FTP / SMB auf einen Dokumentserver konfigurieren könnte, vermisste ich die fehlende Duplex-Funktion doch leider schmerzlich. Denn leere Seiten löschen, ist deutlich einfacher, als manuell zusammenhängende Seiten passend umzubenennen. Andere finden vielleicht den Ansatz sympathisch, mit Digitalkamera die Digitalisierung zu machen (vielleicht so?) oder greifen zum Smartphone mit der passenden App (z.B. OpenNoteScanner). Viele Wege führen an dieser Stelle zum Erfolg und das muss ja nicht derselbe Ablauf sein, den man dann nutzt, um dann im Alltag wenige neue Papiere einzupflegen.

Getestete Software

Mit meinem Bestand an Dokumenten, habe ich mich dann mit verschiedenster Software beschäftigt. Die Basiskomponenten sind bei den meisten gleich. Tesseract 4 oder 5 wird für die Texterkennung genutzt, ggF. vorher mit unpaper & Co die Bilder noch optimiert. Das ganze ist schon etwas rechenintensiv und für betagtere PCs oder single-board-computer wie leistungsschwächere RPIs mit einigen Minuten Verarbeitungszeit pro Dokument verbunden. Als Ergebnis entsteht eine hOCR Datei, die das Layout des Dokuments nachempfindet, indem in Boxen die erkannten Textblöcke enthalten und teilweise auch die Formatierung beinhalten. Jede hier vorgestellte Software hat eine wirklich hohe Erkennungsrate von unterschiedlichen gedruckten Dokumenten (Briefpost, Fahrscheine, Quittungen, …) und nur gelegentlich ist mal etwas Buchstabensalat in Abschnitten dabei. Mit gImageReader hat man prinzipiell die volle Kontrolle über die OCR auf jedem Blatt und kann wunderbar in die Zusammenstellung von Dokumenten eingreifen. Aber das wäre mir im Alltag zu viel Aufwand und zu wenig Automatisierung. Außerdem fehlt da natürlich die Suche, wofür man Nextcloud einsetzen könnte. Mit Volltextsuche-Erweiterung kann das Portal dann auch Dokumente durchsuchen und per OPDS-Erweiterung könnte man per App oder auch eBook-Reader seine Dokumente finden. Klar ließe sich OCR mit Erweiterung auch direkt in Nextcloud integrieren, aber ich wollte weder meine Dokumente außerhalb des LANs lagern, noch dauernd Synchronisationen mit allen Geräten passend abstimmen.

Paperwork

Das Tool Paperwork ist zwar nur eine Desktop-Anwendung, aber ich war von der GUI sehr angetan. Über eine Kommandozeile kommt man auch an das Backend und kann darüber mit den Dokumenten arbeiten. Ein Webfrontend gibt es als inoffiziellen separaten Dienst. Entwickelt wird es von einer Community um den Maintainer Jérôme Flesch in Python (siehe git repo). Es läuft mit GTK und ist auch für Windows verfügbar.

Bildschirmfoto von Paperwork. Zentral ist ein eingescanntes Dokument über Verhaltensregeln zum Schutz vor SARS-CoV-2 als Testbild. Links ist ein zeitlicher Verlauf aller Dokumente zu  sehen.

Insgesamt wirkt die Oberfläche wirklich sehr aufgeräumt und richtet sich an einfache Nutzer. Diese können die Anwendung auch problemlos selbst installieren.

Für die Ordnung verfolgt die Anwendung recht strikte Paradigmen. Dokumente haben keinen eigenen Namen, sondern werden nur über das Datum zugeordnet. Labels / tags können manuell zugewiesen werden, aber automatisiert erfolgt es nur über maschinelles lernen (bayes classifier) ab ca. 100 Dokumente. Danach kann man nach diesen Begriffen filtern, aber auch eine Volltext-Suche durchführen

Die Anwendung lohnt sich sicherlich für Einsteiger und wenig technik-affine Nutzer, um einen Einstieg in eine strukturierte Dokumentenübersicht zu finden. Man kann hier direkt scannen, die Dokumente zusammenstellen usw. und behält so vielleicht am ehesten einen Überblick. Mir selbst genügte die Anwendung aber nicht.

Docspell

Zu docspell habe ich eigentlich erst gefunden, nachdem ich mich bereits entschieden hatte. Das Java basierende Tool ist deutlich komplexer und besteht aus mehren Komponenten, die für die Verarbeitung und Abfrage in einander greifen. Das greift auf einen lokalen Apache SOLR Suchdienst und eine lokale Datenbank zurück. Dazu kommen einige Abhängigkeiten wie OCRmyPDF, insgesamt also schon eine komplexere Installation. Gerade für den Test empfiehlt sich deshalb vielleicht eine Einrichtung per Docker Container, aber es gibt ebenso die Möglichkeit auf DEB oder Nix Pakete zurückzugreifen. Auch eine Installation auf einem Raspberry PI wird besprochen, aber wegen Leistungshunger eher davon abgeraten.

Das Ganze gefällt mir sehr gut. Die Oberfläche aber auch die Software ist gut strukturiert und ermöglicht eine einfache Einarbeitung. Neue Scans legt man einfach in einen Lauschordner, aus dem die Job Executor (JOEX) Komponente dann ein Dokument-Objekt erstellt und es mit Informationen aus der OCR anreichert. Dokumente können danach auch bearbeitet und zusammengefasst werden. Tags lassen sich mit Regeln automatisiert verteilen und auch passende Zeitstempel werden einem mit sinnvollen Daten aus dem Text vorgeschlagen. Es scheint recht weit gedacht zu sein, weshalb man auch viele Dateiformate aus dem Büroalltag inklusive abgelegter eMails verarbeiten lassen kann. Die erfassten Dokumente kann man wiederum teilen, oder mit Anmerkungen versehen. Genauso gibt es Features, die man privat wahrscheinlich nicht einsetzen wird. So gibt es verschiedene Nutzergruppen / Organisationen und es lassen sich „custom fields“ definieren, die sich immer durch den Inhalte aus vom Text füllen. Sinn macht das etwas für Kundenummer, Vorgangsnummern oder Bestellnummern. Also Aspekte die sich nicht gut per tags abbilden lassen und evtl. für weitere Verarbeitung und gezielte Suche wichtig werden könnten. Zusätzlich kann sich die Software auch in eMail-Konten einklinken, um so Mails etwa mit Rechnungen ebenfalls in das DMS aufzunehmen.

Das Ergebnis sind PDF/A konforme Dateien, sowie die Gruppierung und Suche über die sehr gute Oberfläche. Wer für seine ganze Familie, den Verein oder Betrieb Dokumente verwalten will, ist mit der Lösung in meinen Augen sehr gut bedient. Viele Features ermöglichen eigene Workflows mit denen jeder glücklich wird. Für mich alleine erschien mir das etwas zu umfangreich und mich sprach die nachfolgende Python basierende Lösung deshalb etwas mehr an.

Paperless-ng

Das ursprüngliche Paperless war mir bereits vor vielen Jahren begegnet. Durch Python und dem Django-Framework konnte ich mich da schnell einarbeiten und es war sehr übersichtlich. Leider war genau das aber auch das Problem, es war eher rudimentär und lies etwa auch eine einfach nutzbare Such-Oberfläche vermissen, welche die Treffer auch schnell darstellen konnte.

Der (freundliche) Paperless-ng fork von Jonas Winkler setzt genau an dieser Stelle an. Es fügt eine GUI für Recherche & Management hinzu und kann sich nun sogar in eMail-Postfächer einklinken, um Online-Rechnungen zentral aufzulisten. Intern wurde deshalb einiges umgebaut und auch Regeln für tags und maschinelles Lernen fanden Einzug. Seit Version 0.9.14 bin ich dabei, aktuell noch als Docker auf meinen Desktop-PC. Hinweise für den Betrieb auf dem RPI gibt es natürlich auch, und auch bei dieser Software könnte die Erkennung auch auf einer anderen Maschine durchgeführt werden.

Der empfohlene Ablauf deckt sich weitestgehend mit meiner Arbeitsweise. Ich packe mehrseitige TIFF-Dateien in den Lausch-Ordner und der Paperless consumer führt darauf eine OCR durch. Danach probiert er passende Datumsangaben zu erkennen und anhand von Regeln auch passende tags, sowie Korrespondenten und den Dokumenttyp vorzuschlagen. Für die manuelle Kontrolle erhalten alle Dokumente dann zunächst den inbox tag und erscheinen auf der Startseite zur Überprüfung. Man könne sich in jede Phase dieses Prozesses auch mit Skripten einklinken.

Für mein Szenario kristallisierten sich je Dokument die folgenden Möglichkeiten heraus

  • Dokumentart – Rechnung, Information, Vertrag (Registrierung, Kündigung, AGBs, …), Urkunde, Formular, Anleitung
  • Kontakt – jew. Firma, Bank, Organisation, Arzt, …
  • Schlagworte – Gesundheit, Arbeit, Wohnen, Banken, Versicherungen, Orte, …

All das spiegelt letztlich die Inhalte meiner Kalender / Todo-Listen / Homebankings oder eMails wieder. Vielleicht wäre da eine Nextcloud-Integration doch ganz cool, um den Einrichtungsaufwand noch weiter zu drücken?
Die Regeln sind jedenfalls sehr einfach anzulegen. Für den Korrespondent DRK etwa

Irgendeines der Wörter: "Deutsches Rotes Kreuz" "DRK-Blutspendedienst"

Das kann über „auto“ auch automatisch markante Textfetzen ermitteln, zumindest wenn genügend Dokumente mit dem gewünschten Schlagwort schon versehen worden. Meine Erfahrungen mit den einfachen Regeln sind fast durchweg positiv. Es gibt nur kleinere unerwartete Störungen, etwa durch eine unerwartete Nennung der Krankenkasse auch auf dem Lohnstreifen, oder wenn verschiedene Datumsangaben auch im Text vorkommen. Aber da gibt es ja die eigene Cleverness, um gute und klare Indikatoren zu finden, wie etwa IBANs, eTINs, Mitgliedsnummern, … Leider muss man eine vollständige Neuerkennung bisheriger Dokumente noch extra über die Kommandozeile manuell anstoßen.

Die Recherche nach Angaben und vermissten Dokumenten konnte ich so schon oft erfolgreich ausprobieren. Entweder filtert man rasch nach dem Korrespondent und kann die Anzahl darüber ausreichend einschränken, oder man kommt mit der Volltextsuche wirklich nahe ran. Die Funktion Finde ähnliche Dokumente , konnte ich bisher noch nicht sinnvoll nutzen.

Wenn man will kann man die Ablagestruktur der PDF/A Dateien auch noch anpassen. Da ich ausschließlich über die GUI recherchiere, war das für mich bisher nicht nötig. Wer möchte, kann auch über das Django Admin-Interface oder über eine Python shell ganze Dokumentestapel nach eigenen Anforderungen manipulieren.

Als sehr nützlich zeigten sich die passende Android Paperless App, sowie die Paperless Share App. Mit der ersten hier gezeigten App kann man bequem vom Sofa aus in Dokumenten recherchieren und Kennziffern oder Aktenzeichen super einfügen. Mit letzterer lassen sich Photos von Dokumenten an den Server schicken und dann dort verarbeiten. Manchmal ist das Handy gerade bei Bons und unterwegs schneller gezückt. Das kann dann entweder später daheim per WLAN übermittelt werden, oder unterwegs per Mobilfunk und VPN. Der API Endpunkt muss ja nur erreichbar sein.

Es gibt nur wenige Funktionen, die ich bisher nicht nutze. Dokumentnummern (ASNs) etwa, oder die Integration weiterer Office-Formate, da ich meine eigenen Dokumente wie Bewerbungen usw. eigentlich recht ordentlich verstaue. Aus demselben Grund nehme ich auch meine eMails nicht mit in das DMS, auch wenn ein zentrale Rechercheplattform natürlich attraktiver ist, gerade um Diskursabfolgen Medien-übergreifend zu verfolgen. Das Einzige was ich etwas vermisse, ist die Bearbeitung von Dokumenten, welche explizit ausgeschlossen wird.

Auch dies Projekt ist wirklich großartig. Die Dokumentation ist sehr detailliert und deckt viele Gedanken und Möglichkeiten ab. Gleichzeitig ist alles auch sehr verständlich gehalten. Die Entwicklung schreitet stetig voran und Tickets werden oft meist sogar am selben Tag bearbeitet. Es wurden sogar schon Umfragen bzgl. der Entwicklungsziele durchgeführt. Ein paar Hinweise hatte ich auch schon bzgl. Kleinigkeiten , welche gelöst werden konnten und mir wurde immer freundlich und erstaunlich umfangreich Support gegeben.

Mit dieser Weiterentwicklung hat sich ein super Ökosystem geschaffen, was sehr nützliche neue Features ergänzt hat, ohne unübersichtlich zu werden. Ich werde hierbei erst einmal verweilen, wohl wissend, dass ich im Fall der Fälle sowohl Bilder, als auch erkannte PDF/A Dokumente und alle Metadaten heran käme, um diese mit in ein neues System zu nehmen. Das hier keine Firma hinter dem Projekt steckt, macht mich aber sehr zuversichtlich, dass ich auch langfristig Nutzer bleiben werde.

Weitere Software

Bei weitem habe ich hier natürlich nicht alle Kandidaten der freien DMS getestet. Weitere sind etwa Papermerge DMS, Mayan EDMS, Archivista, Lodestone oder SeedDMS. Weitere Server basierender Tools listet auch die Liste awesome-selfhostet. Die Möglichkeiten rund um Nextcloud, hatte ich ja schon weiter oben angerissen.

Kleine Helferskripte

Wie beschrieben nutze ich einen autark laufenden Dokumentscanner, um Papier immer sofort zu scannen. Da paperless-ng keine Bearbeitung im Nachhinein zulässt, gehe ich später manuell bei und schaue die so gesammelten Dateien noch einmal manuell durch, bevor sie in das DMS aufgenommen werden. Dabei entferne ich Leerseiten und richte verzogene Scans wieder gerade.

Zwei kleine Skripte helfen mir, mehrseitige Dokumente zu erkennen und zu mehrseitigen TIFF-Dateien zusammenzustellen. Grundlage sind die Dateien des Scanners, die einem einfachen Namensschema folgen: scan 2021_02_17_05_10 S1.tiff Man erkennt am Ende schon die laufende Seitennummer und den dann gleichbleibenden Zeitsempel.
Zunächst hilft mir groupscans.sh um für alle Dokumente Unterordner zu erstellen, wo dann insbesondere mehrseitige Scans zusammen abgelegt sind:

#!/bin/bash

DIRECTORY=.
IFS=$'\n'

for i in $DIRECTORY/*[[:space:]]S[[:digit:]].tiff; do
    # Process $i
    folder=${i::-8}/
    echo $folder
    mkdir "$folder"
    filename=${i:2}
    cp "$i" "$folder$filename"
done

Mit merge-scans.sh können nun von allen Unterordnern mehrseitige TIFFs gebaut werden, die dann im DMS als ein einziges Dokument erkannt werden:

#!/bin/bash

DIRECTORY=.
IFS=$'\n'

for d in */ ; do
    name=${d::-1}
    echo "$d$name.tiff"
    tiffcp "$d"*.tiff "$d$name.tiff"
done

Fazit

Ich hoffe ich konnte euch naheliegen, wie man sich ein DMS einrichten kann, was im Alltag wenig Aufwand erfordert und einem im Fall der Fälle bei der Suche nach Dokumenten unterstützt. Vielleicht konnte ich den ein oder anderen auch motivieren, ein papierloses Heimbüro einzuführen. Da Corona und die damit verbundenen Einschränkugnen ja noch etwas länger bestehen werden, wird sich dafür bestimmt auch noch weitere Gelegenheiten bieten ;). Ordnung und Struktur zu schaffen, ist in jedem Fall etwas, was Suchen stark vereinfacht und auch etwas den Schrecken vor Steuererklärungen und sonstiger Bürokratie nimmt. Das es dazu keine kommerzielle Software braucht und man sich so vor einem vendor-lockin schützen kann, habe ich gezeigt. Langfristig wäre natürlich ein Workflow denkbar, der fast automatisch auch Bons & Quittungen analysiert, um so ein Haushaltsbuch zu führen und Recherchen und Staatistiken für Einkäufe zu führen. Doch den Mehrwert gegenüber dem ausufernden Verwaltungsaufwand, sehe ich als Privatperson derzeit noch nicht.

Update 28.03.2022

Wie bereits in den Kommentaren berichtet, gibt es nun einen (erneuten) fork von paperless-ng namens paperless-ngx. Also kein Beinbruch, es geht weiter mit dem DMS 🙂

Author: Matthias
Betreibt dies Blog und probiert so einiges aus Technik herauszuholen. Oft mit Bezug zur Wirklichkeit, aber manchmal auch weil es eben geht ;-) Hat sich von Robotron über Basic, ASM, qC, ... soweit hochgearbeitet, dass er eigentlich gar nicht mehr so oft codet.

11 thoughts on “DMS 2021 – wider dem Papierkrieg

    1. Hallo Matthias,
      vielen Dank für die tolle Übersicht und Deine Beweggründe hin zu Paperless. Nicht zuletzt auf dieser Basis habe auch ich mich für Paperless-NG entschieden. Es läuft jetzt nach etwas holpriger Installation auf meiner DS220+ aber ich würde gern ein paar Dinge ändern und weiß nicht wie… Z.B.:
      – den Port, auf dem man den Server erreichen kann (bei mir Port 8000)
      – den Media-Ordner für die zugeordneten Dokumente
      – wenn ich einen neuen Korrespondenten anlege, hätte ich gern die „Auto“-Funktion als Standard-Zuweisungsalgorithmus

      Ich würde mich freuen, wenn mir jemand bei diesen Aufgaben helfen kann. Vielleicht gibt es auch irgendwoanders ein aktives Forum zu diesem System. Leider habe ich bisher keines gefunden.

      Vielen Dank für jegliche Hilfe!
      LG Franz Josef

      1. Hallo Franz, bei deinem NAS weiß ich nicht genau wie du paperless-ng eingerichtet hast, aber ich vermute mal über docker?
        Da gibt es in der Dokumentation ein paar Hinweise, wie du die folgenden Optionen in der Datei z.B. docker-compose.env setzen kannst:
        https://paperless-ng.readthedocs.io/en/latest/setup.html#install-paperless-from-docker-hub
        https://paperless-ng.readthedocs.io/en/latest/configuration.html#paths-and-folders

        Ein Support-Forum gibt es AFAIK nicht, aber ich konnte bei github zumindest bei einigen Bugs/Wünschen Hilfe für Workarounds bekommen. Aber so ganz der richtige Ort für Endnutzer-Betreueung ist es freilich nicht 😉

  1. Hallo Matthias,
    ich bin sehr erfreut, dass ich diese Webseite – mit Deinen Rechercheergebnissen zu DMS fand – als ich nach Paperless-NG und Nextcloud suchte!

    Vielleicht kannst Du mir eine Empfehlung geben?
    Ich möchte aus Sicherheitsgründen ca. 20.000 PDFs (auch) außer Haus auf meinem Webserver speichern (bei einem Hosting-Anbieter).
    Es sind meist wissenschaftliche Artikel in denen ich oft etwas finden und nachschauen muss. Auf dem lokalen PC befinden sich die Dateien in einer komplexen Ordnerstruktur. Für die Volltextsuche nutze ich „FileLocator Pro“ das ich sehr empfehlen kann (hat leider kein Tagging).

    Für die zukünftige „Online-Variante“ wünsche ich mir eine Volltextsuche und Tagging.

    In Nextcloud ist das „Taggen“ anscheinend etwas umständlicher erreichbar als in QwnCloud.
    (ich nutze mind. 50 verschiedene Tags die ich teils kombiniert an Dokumente anfüge)

    Ich stelle mir daher die Frage was besser geeignet wäre – besonders hinsichtlich der Effizienz beim Suchen und Taggen.

    a) QwnCloud (mit extra ElasticSearch-Server) oder
    b) Paperless-NG

    Letzteres würde ein Umdenken bzgl. der Ordner-Strukturen erfordern, was sich ggf. nicht als nachteilig erweist.
    Momentan weis ich auch nicht, ob „Paperless-NG“ es ermöglicht, Dateien für „Externe User“ aufrufbar „lesbar“ zu machen. Für Freigabemöglichkeiten bestehen momentan noch keine Notwendigkeiten.

    Ich wäre Dir sehr dankbar für Deine Meinung zur o.g. Anwendungs-Anforderung.

    Beste Grüße

    Dietmar Damme

    1. Hi Dietmar, freut mich, dass dir der Artikel helfen konnte. Prinzipiell würde ich für die Verwaltung von Reintext-PDFs und gerade wissenschaftlichen Artikeln eher kein DMS nehmen, weil dies ja eher für Dokumente im Sinne von Kommunikation / Geschäftsprozessen gedacht ist. Damit spielst du seine Features gar nicht so recht aus (Sender / Empfänger, …) und wahrscheinlich stellt es sich auch gar nicht so geschickt an (engl. Fachwörter, …). Dateifreigaben sind so per se auch nicht drin, du müsstest einem Nutzer also immer (kompletten) Zugang gestatten.
      Vielleicht macht das Nextcloud als dateibasierender einfacher Ansatz, oder Literaturverwaltung wie Zotero, I-librarian, … besser geeignet?

    1. Danke für die Info. Ich würde da aber erst einmal abwarten, was da die Rückmeldung ist und wie der Fortgang des Projektes ist. Ich bin guter Dinge, dass es ansonsten auch in einem freundlichen Fork (erneut) weiter geht.
      Docspell hatte ich aber denselben Eindruck. Sicherlich super für Verein oder eine ganze Familie, aber nicht nur für einfache Arbeit alleine.

  2. Vielen Dank für die Infos Matthias!
    Bei I-librarian teste ich gerade die kostenlosen 30 Tage. Ist mir aber viel zu langsam und zu „vollgestopft“ mit Funktionen die ich nicht benötige.
    Zotero legt zu jeder PDF eine extra Datei mit Metadaten an, was ich nicht so toll finde. Die Dokumente werden , wenn man möchte, auf Servern bei Zotero gespeichert. Auf einem eignen Server ist es anscheinend nicht machbar.

    Vor drei Tagen bat ich „pydio.com“ um ein Angebot mit Volltextsuche (vermutlich zu teuer). Bisher keine Antwort.

Schreibe einen Kommentar zu Lars Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert