Umsetzung des Projekt

Umsetzungsphasen

Rückblickend verlief das Projekt wie geplant, und meine ursprünglichen Einschätzungen haben sich bestätigt. Im weiteren Verlauf habe ich zusätzliche Funktionen und Optimierungen integriert, die anfangs noch nicht vorgesehen waren.

Mittlerweile befindet sich das Projekt auf einem soliden Stand, und ich hoffe, dass die Besucher es gerne und gut nutzen werden.

  1. Texterkennungscripte schreiben | Status: fertig, 15.07.2024
  2. Hoster finden, der MySQL-DB > GB und Fernzugriff erlaubt | Status: fertig, 19.07.2024
  3. Datenmodell und Datenstruktur schaffen | Status: fertig, 25.07.2024
  4. Datenimporter programmieren | Status: fertig, 21.07.2024
  5. Basis-Homepage mit Textsuche bauen
    • Basisumsetzung (Adaption meiner privaten Homepage) | Status: fertig, 24.07.2024
    • Cybersecurity-Aspekte programmieren | Status: fertig, 23.07.2024
    • Suchfunktionen (nach Phrase, alle Begriffe, Profi mit RegExpr) | Status: fertig, 25.07.2024
    • Bestandsübersicht | Status: fertig, 21.07.2024
  6. Testläufe mit einigen Nutzern, Akzeptanz prüfen | Status: lief anfangs mit etwas über 100 Seitenaufrufe pro Tag,
    Tendenz rückläufig, da ich nicht dafür werbe.
  7. Verbesserungen, Fehlerbeseitigungen | Status: in Arbeit
  8. Bekanntmachung in Foren (erst ab 15 Zeitungen mit allen verfügbaren Bänden) | Status: in Arbeit, am 07.01.2025 wurde eine Facebook-Seite dazu geschaffen.
  9. Feature-Entwicklung
    • Markierung von Personen, Orten, Ereignissen auf den Seiten| Status: fertig, 21.12.2024
    • Suche nach Markierungen von Personen, Orten, Ereignissen| Status: fertig, 21.12.2024
    • auf einer Karte bei den markierten Orten, die verknüpften Personen darstellen| Status: fertig, 11.08.2024
    • Texteditor mit Rechtschreibprüfung| Status: am 09.01.2025 verworfen. Einige Browser bieten selbst eine Rechtschreibprüfung. Zudem erwies sich eine automatisierte Rechtschreibprüfung mit eigenem Wörterbuch mit typischen Texterkennungsfehlern bei Fraktur-Schrift gleich beim Import als effektiver.
    • Unschärfesuche mit Kölner Phonetik, ggf. Anpassung des Algorithmus hinsichtlich Fraktur-Texterkennungsfehler | Status: begonnen

Organisatorisch

Mein alter Webseitenhoster netbeat bot im derzeitigen Vertrag nur eine Datenbank mit 500 MB an und erlaubte keinen Remote-Zugang auf diese. So suchte ich nach einer Alternative und landete bei Netcup. Die Datenbank ist nur mit dem Speicherplatz von 75 GB beschränkt, remote-Zugang ist erlaubt, ich darf 3 Domain nutzen und bezahle ein Drittel weniger. Das ist ja mal ein netter Nebeneffekt.

Workflow

  • Herunterladen der Dateien mittels Mouse-Makro-Recorder oder Skripten
  • Sichtung, ggf. Entpacken von Zip-Dateien, Normierung der Dateinamen mit Total Commander
  • via Bash-Shell-Skript wird geprüft, ob alle Dateien heruntergeladen wurden, ggf. Fehlende manuell heruntergeladen und umbenannt
  • liegen die Datein als JPG-Datei oder JFIF-Datei vor, werden via Bash-Shell-Skript diese umgewandelt und eine Texterkennung durchgeführt und die erkannten Texte getrennt abgelegt
  • liegen die Datein als PDF-Datei vor, werden via Bash-Shell-Skript die alten Texterkennung entfernt, eine neue Texterkennung durchgeführt, anschließend die Datei mittels Ghostskript verkleinert, und die erkannten Texte getrennt abgelegt
  • ein PHP-Skript, durchsucht alle Ordner nach den Textdateien, prüft ob diese bereits importiert wurden. Wenn nicht wird der Dateiname der Textdatein mittels regulären Ausdrücken geprüft, um welches Werk, Band und Ausgabe es sich handelt und diese in die Datenbank der Homepage geladen.

    Datenmodell