Burchards Dekret Digital erarbeitet eine Digital- und Druckedition, die den komplexen und mehrschichtigen Entstehungs- und Entwicklungsprozess des Dekrets in enger Rückbindung an kodikologische Phänomene erschließt. Hierfür greift das Projekt auf eine digitale Infrastruktur zurück, die auf den folgenden neun Säulen fußt:
Auf Basis dieser Infrastruktur wurde hierfür ein modularer und halbautomatisierter Workflow entwickelt, der aus der automatisierten Layouterkennung und Transkription in Transkribus, Postprocessing, Speicherung in exist-db, Frameworkgestützter TEI-Codierung in OxygenXML sowie der Kollation in Collatex besteht. Daran schließt sich die Transformation der Daten für Druck und Webpräsentation an sowie die automatisierte Generierung Ground Truth für Finetuning und Neutraining von Deep Learning-Modellen für unterschiedliche Zusammenhänge. Die generierten TEI-Dateien werden über ein Datenrepositorium vorgehalten und durch Javascript in die Webansicht der Edition geladen. Die Anzeige der Handschriften und erzeugter Annotationen erfolgt über IIIF in Mirador Viewer.
Im Zentrum des Workflows stehen damit die Kodierung der Textzeugen in OxygenXML sowie die automatisierte Texterkennung durch Transkribus, wobei sich gegenwärtig die Überführung des ATR-Workflows zu Kraken in Vorbereitung befindet. Da die autornahen Textzeugen alle dem Wormser Skriptorium entstammen und einer kleinen Gruppe von Schreibern zuzuordnen sind, konnte ein effizientes ATR-Modell mit einer Character Error Rate (CER) von etwa 2 % durch das Training an ca. 100.000 Wörtern erreicht werden.
Dabei wurde bewusst ein Modell trainiert, das Abkürzungen und orthographische Varianz der Handschriften unter Rückgriff auf Mufi-Sonderzeichen beibehält. Die Auflösung der Abkürzungen erfolgt dann durch Pythonskripte anhand festgelegter Regeln und Wortlisten, bzw. in Zukunft durch die Implementierung eines Deep Learning-Verfahrens, das anhand der im Projekt erzeugten Daten trainiert wird.
Das Layout der Handschriften wird ebenfalls automatisiert erkannt und annotiert. Hierfür wurde zunächst ein Pa2PaLa-Modell trainiert, das Kopf- und Fußzeile der Handschrift, Spalten, Kapitelnummern und Inskriptionen identifiziert. Gegenwärtig erfolgt zudem das Training eines Kraken-Modells anhand des annotierten PageXML von sieben Handschriften, das nebst der verwendeten Daten auf Github zur Verfügung steht.
Das so aufbereitete Material wird per API aus Transkribus als PageXML exportiert und im Rahmen einer Python Pipeline postprozessiert. Dies beinhaltet die Auflösung der Abkürzungen, Berechnung von IIIF-konformen Bildkoordinaten der Text-Zeilen sowie die Überführung in projektkonformes TEI. Diese Daten dienen dann als Ausgangspunkt für die editorische Erschließung, Korrektur und Anreicherung in OxygenXML. Nach Abschluss der editorischen Arbeiten wird das korrigierte Material erneut in einer Python Pipeline prozessiert und automatisiert in Ground Truth Material für das Training weiterer Deep Learning-Modelle überführt.
Die so kodierten Textzeugen können nun in einer projektinternen CollateX-Implementierung kollationiert bzw. als Transkriptionsdateien nebst der generierten Ground Truth im Datenrepositorium abgelegt werden.
Von dort werden die Daten durch Javascript abgefragt und in die Webedition gespielt, die über GitLab Pages gehostet wird. Dabei werden die im Zuge der Layouterkennung generieten und ins IIIF-Format transformierten Koordinaten genutzt, um wichtige Phänomene der Handschriften per IIIF-Schnittstelle im Bild darzustellen. Auf die gleiche Weise können Web Annotation generiert werden, um die Anzeige komplexer Phänomene in Mirador Viewer zu ermöglichen.
Burchard's Decree Digital is developing a digital and print edition that explores the complex and multi-layered process of the decree's creation and development in close connection with codicological phenomena. To this end, the project utilises a digital infrastructure based on the following nine pillars:
Based on this infrastructure, a modular and semi-automated workflow was developed, consisting of automated layout recognition and transcription in Transkribus, post-processing, storage in exist-db, framework-supported TEI coding in OxygenXML and collation in Collatex. This is followed by the transformation of the data for print and web presentation as well as the automated generation of ground truth for fine-tuning and retraining of deep learning models for different contexts. The generated TEI files are stored in a data repository and loaded into the web view of the edition using Javascript. The manuscripts and generated annotations are displayed via IIIF in Mirador Viewer.
The encoding of the text witnesses in OxygenXML and the automated text recognition by Transkribus are at the centre of the workflow, whereby the transfer of the ATR workflow to Kraken is currently in preparation. As the text witnesses which are closely related to the author all originate from the Worms scriptorium and can be assigned to a small group of scribes, we were able to achieve an efficient ATR model with a character error rate (CER) of around 2% due to training on approx. 100,000 words.
A joined model that retains the abbreviations and orthographic variance of the handwriting using Mufi special characters was deliberately trained. The abbreviations are then resolved by Python scripts using defined rules and word lists, or in future by implementing a deep learning process that is trained using the data generated in the project.
The layout of the manuscripts is also recognised and annotated automatically. For this purpose, a Pa2PaLa model was first trained, which identifies the header and footer of the manuscript, columns, chapter numbers and inscriptions. Currently, a Kraken model is also being trained using the annotated PageXML of seven manuscripts, which is available on Github along with the data used.
The material prepared in this way is exported from Transkribus as PageXML via API and post-processed in a Python pipeline. This includes resolving the abbreviations, calculating IIIF-compliant image coordinates of the text lines and converting them into project-compliant TEI. This data then serves as the starting point for the editorial indexing, correction and enrichment in OxygenXML. Once the editorial work has been completed, the corrected material is processed again in a Python pipeline and automatically converted into ground truth material for training further deep learning models.
The encoded text witnesses are now collated in a project-internal CollateX implementation; additionally, they are stored as transcription files together with the generated ground truth in the data repository.
Finally, the data is retrieved by Javascript and uploaded to the web edition, which is hosted via GitLab Pages. The coordinates that were generated during the layout recognition [phase/stage] are transformed into IIIF format so that they can be used to visually display important phenomena of the manuscripts via the IIIF interface. In the same way, web annotations can be generated to enable the display of complex phenomena in Mirador Viewer.
zu erledigen
to do
zu erledigen
to do
Alle Textzeugen des Decretum Burchardi werden in einer Hanschriften-Datenbank in der Abteilung "Handschriften" aufgenommen und verfügbar gemacht. Über den Button "Buch zum Schreibtisch hinzufügen“ auf jeder Webseite der aufgelisteten Handschriften sind die bereits transkribierten Teile zu finden. Alle Begleittexte des Dekrets werden aufgelistet und mit Literatur- und Editionshinweisen angereichert, da sie gegebenenfalls auch Hinweise auf Abhängigkeiten der Handschriften untereinander sichtbar machen. Ziel ist es, über eine reine Auflistung der Handschriften hinaus ein multifunktionales Werkzeug für die Erforschung des Decretum Burchardi bereitzustellen.
Der Bereich "Schreibtisch" bietet einen Arbeitsbereich, der an Burchards Schreibtisch während der Abfassung des Dekrets erinnert. Hier können derzeit über die Schaltfläche "Ressource hinzufügen" die Transkriptionen der Bücher aus den Handschriften aus Bamberg, Frankfurt, Köln und dem Vatikan hinzugefügt werden, die Sie einsehen und vergleichen möchten. Jedes Buch ist mit einer Transkription des Textes, einer Ansicht seiner Struktur, digitalisierten Bildern der Handschrift und Metadateninformationen angereichert. Über die Schaltfläche "Transkriptionsansichten" kann die Darstellung des Textes geändert und zwischen der ursprünglichen Textstruktur und einer vereinfachten Version (Lesefassung) ausgewählt werden. Dabei besteht die Möglichkeit Abkürzungen ein- oder auszublenden. Über die Schaltfläche "JSON herunterladen" kann eine eine JSON-Datei heruntergeladen werden, die die zu "Schreibtisch" hinzugefügten Bücher und die auf jeder Tafel aktivierten Ansichten (Transkription, Struktur, Mirador, Info) enthält. Auf diese Weise können Arbeiten über einen längeren Zeitraum aufbewahrt werden und auch nach mehreren Tagen wieder aufgenommen oder mit einem Kollegen geteilt werden. Die JSON-Datei kann über die Schaltfläche "Ressource hinzufügen" hochgeladen werden; dann die Datei zum Öffnen im Abschnitt "JSON hochladen" oben auswählen.
All textual witnesses of the Decretum Burchardi will be gradually included and made available in a manuscript database in the "Manuscripts" section. The parts that have already been transcribed can be found via the button "Add book to desk" on each web page of the listed manuscripts. All accompanying texts of the decree will be listed and enriched with bibliographical and editorial references, which also reveal any dependencies between the manuscripts. The aim is to provide a multifunctional tool for research into the Decretum Burchardi, which goes beyond a mere listing of the manuscripts.
The "Desktop" area offers a workspace inspired by Burchard's desk during the writing of the decree. Here, using the "Add resource" button, you can add the transcriptions of the books from the Bamberg, Frankfurt, Cologne and Vatican manuscripts that you wish to view and compare. Each book is enriched with a transcription of the text, a view of its structure, digitized images of the manuscript and metadata information. Using the "Transcription views" button, you can change the presentation of the text and choose between the original text structure and a simplified version (reading version). It is also possible to show or hide abbreviations. The "Download JSON" button can be used to download a JSON file containing the books added to "Desktop" and the views activated on each panel (transcription, structure, Mirador, info). In this way, work can be stored over a longer period of time and can also be resumed after several days or shared with a colleague. The JSON file can be uploaded via the "Add resource" button; then select the file to open in the "Upload JSON" section.