Prüfung auf Machbarkeit
Rahmenbedingungen
- keine Kosten außer meiner Arbeitszeit
- keine rechtlichen Probleme
- komfortable Wartung
- Nutzen ist geklärt
- Datenmenge und Datenlast wird vom Hoster gestattet
- Es werden keinen Nutzerdaten gespeichert
- Cybersecurity wird beachtet (DoS, XSS, ...)
Fachliche Prüfung
Ich probierte mehrere Tools zur Texterkennung unter Linux wie unter Windows. Leider kosten die richtigen guten Tools viel Geld - je mehr Seiten der Texterkennung zugeführt werden sollen, umso teuerer wird es.
OCRmyPDF, welches Tesseract einsetzt, kann frei genutzt werden und brachte viel bessere Ergebnisse. Auch wenn die Texterkennung immer nicht perfekt ist, bringt sie weit mehr Ergebnisse als erwartet.
Rechtliche Prüfung
Urheber- und Nutzungsrecht der Werke
Ich fand hierzu folgende Aussagen
Das Urheberrecht der Zeitungsverlage an dem Sammelwerk, das jede Ausgabe darstellt, ist infolge Ablaufs der 70-jährigen Schutzfrist erloschen.
bei zeit.punkt NRW / Urheberrecht.
Ganz so klar scheint das aber doch nicht so sein.
Der urheberrechtliche Schutz von Werken ist vererblich und erlischt grundsätzlich erst 70 Jahre nach dem Tod des Urhebers. Stirbt der Urheber, geht die Verfügungsmacht in weiten Teilen auf seine gesetzlichen oder durch Testament bestimmten Erben (zum Beispiel Nachkommen, Verlage oder andere Institutionen) über.
bei https://verbraucherportal-bw.de
Je nach Einzelfall sind es also der Autor, dessen Erben oder der aktuelle Inhaber von Nutzungsrechten, die darüber bestimmen, was mit einem Werk geschieht: Darf es veröffentlicht, aufgeführt, verändert, kopiert, auf eine Internetseite oder in ein soziales Netzwerk hochgeladen oder anders genutzt werden? Ohne die Erlaubnis des Urhebers sind solche Handlungen stets verboten, sofern keine gesetzliche Ausnahme greift.
Das bedeutet zwei Dinge. Erstens auch nach Ablauf der 70 Jahres-Frist könnten Erben Ansprüche geltend machen. Zweitens, die Internetseiten, welche die Zeitungen und Bücher digitalisiert haben, müssten die Rechtslage hinsichtlich Urheberrecht bereits geprüft haben. Auf den polnischen Seiten sollte unter dem Begriff Prawa so etwas wie Domeny Publicznej (public domain) stehen, damit ich keine Probleme bekomme.
Datenschutz
Dazu folgendes Zitat:
Prinzipiell ist in der DSGVO festgelegt, dass diese nicht für verstorbene Personen gilt. Das bedeutet, sämtliche Regelungen, die der DSGVO entsprechen, können nach dem Tod einer natürlichen Person nicht auf diese angewandt werden.
auf
www.datenschutzexperte.de
Technische Prüfung
Akzeptanzkriterien
- Daten-Download und -Import soll automatisiert auf einen meiner Rechner stattfinden.
- Daten sollen in einer Datenbank mit Möglichkeit der Volltextrecherche auf einer Webseite gehostet werden.
Lösungsmöglichkeiten
- Webseitenhoster finden, der Remote-Zugang ermöglicht und Datenmengen von mehreren Gigabyte zulässt
- Linux-Bash-Shell aus auch Powershell ermöglichen umfangreiches Skripting
Prüfung auf Kosten
Webseiten-Hosting
Derzeit bezahle ich etwas über 71,88 € bei netbeat für Level 3. Der Anbieter erlaubt mir ein Downgrade auf Level 1 mit Kosten 0,69 / Monat sprich 8,28/a. Der neue Anbieter kostet 38,98 €/a. Das wären künftig 47,26 €/a mit einer Ersparnis von 24,62 €/a. Bei Einhaltung der Kündigungsfrist bis März 25 würde ich 8 Monate doppelt zahlen. 8 Monate sind 3/4 vom Jahr, das bedeutet 38,98 € * 0,75 = 29,24 € einmalige Mehrkosten, danach eine dauerhafte Ersparnis um die 25 €. Damit kann ich leben.
Betriebskosten
Da ich viel im Homeoffice arbeite, laufen die Importe nebenher. Durch die Nutzung von Solarstrom meines Balkonkraftwerkes sollte in der Sonnenzeit von Ostern bis Oktober kaum merkliche Kosten entstehen.
Entwicklungskosten
Der Entwicklungsaufwand würde nach der 3 Punktschätzung bei folgenden Werten liegen.
Optimistisch 5, realisitisch 7, pessimistisch 12 Personentage liegen.
Das ergibt nach der Formel nach PERT 7,5 Personentage.
Das ist ein überschaubarer Aufwand mit hohem Nutzen.
Da es unter Hobby in meiner Freizeit fällt, werde ich die 7,5 Tage nicht mit einem Stundenlohn multiplizieren.