Arbeitsschwerpunkte
Die Verwendung von digitalen Textdaten ist ein Kernmerkmal der Digitalen Geisteswissenschaften (Digital Humanities, DH). Der große und wachsende Bedarf an diesen Forschungsdaten setzt jedoch voraus, dass effiziente Technologien mit einer hohen Erkennungsgenauigkeit sowohl für den Text als auch für die zugrundeliegende Dokumentstruktur zur Verfügung stehen.
Aus diesem Grund sieht sich die AG OCR als interdisziplinäres und fächerübergreifendes Forum für den Umgang und die Auseinandersetzung mit OCR (Optical Character Recognition)sowie die Entwicklung von OCR-Werkzeugen als einem Schlüssel für die Umsetzung der Anforderungen der DH. Die Mitglieder der AG spiegeln die Vielfalt der Methoden, Technologien und Nutzungsmöglichkeiten des Forschungsbereiches wider und schaffen so einen umfassenden Kommunikationsraum. In diesem versammeln sich Entwickler:innen, Forscher:innen und auch Nutzende, um zum einen bestehende Softwarelösungen und Technologien zu optimieren, und sich zum anderen mit der Neuentwicklung von Verfahren der Erkennung zu beschäftigen. Auch die Vermittlung automatisierter Erkennungsprozesse an Multiplikator:innen nach dem train the trainer-Konzept, nimmt in der Arbeit eine wichtige Rolle ein. Auf diese Weise soll ein umfassendes Netzwerk aus Ansprechpartnern für den direkten, praxisbezogenen Erfahrungsaustausch über die OCR von Drucken, Handschriften, ganz unterschiedliche Schrifttypen und Sprachen geschaffen werden. Eigene Forschungsprojekte sollen folgen.
Ziele
- Vernetzung von Nutzern, Vermittlern, Entwicklern und Forschern durch mindestens jährliche Treffen sowie Workshops und gemeinsame Projekte mit dem Fokus auf freier und quelloffener Software beziehungsweise Publikationen zum Thema.
- Erarbeitung, Sicherung und Verbreitung von Best Practices zu praktischen Anwendungsfragen der OCR, z.B. Workflow, Formate, Parameter.
- Technologietransfer aus der Entwicklung in die Praxis.
- Klare Kommunikation spezifisch geisteswissenschaftlicher Anforderungen an die Entwickler:innen von OCR-Software, damit sich diese stärker auf die Programmierung von Software für den Produktivbetrieb statt wie bisher vielfach auf die Erstellung von Protoytpen konzentrieren.
- Identifikation und kollaborative Bearbeitung offener Forschungsfragen, auch im engen Austausch mit bereits bestehenden AGs der DHd wie z.B. der „AG Zeitungen & Zeitschriften”.
Ankündigungen
-
Präsenzworkshop am 27. und 28. November 2024 in Mannheim
Themen: 1. Tag: Update/Aktueller Stand zu Vorträgen aus Juni-Workshop, 2. Tag: Nachnutzbarkeit von Ground Truth-Daten
Verbindliche Anmeldung bis zum 1. November!
Das genaue Programm folgt im Oktober/November
Fragen jederzeit gerne an: larissa.will@uni-mannheim.de
Archiv
-
AG-Workshop am 26. Juni 2024 von 14 bis 17 Uhr
Beim Workshop werden verschiedene Projekte von Forschenden und Institutionen vorgestellt. Die Vortragenden erhalten anschließend Rat von Expert*innen im Bereich OCR, die sich schon länger mit der Thematik auseinandersetzen.
Präsentationen
- Ole Meiners: Die vielfältigen Herausforderungen für automatisierte Texterkennung auf Dokumenten des Herder-Instituts (Folien)
- Dr. Esther-Maria Lemmerz: Volltexterkennung der Akten der Reichskanzlei: Erste Schritte zu einem eigenen Modell
- Constantin Lehenmeyer: Computergestützte Erschließung und Aufbereitung historischer Wetterdaten
- Dr. Christian Reul: Digitalisierung und Erschließung historischer Schulbücher mit Schwerpunkt religiöse Bildung - zwischen Masse und gezielten manuellen Eingriffen (Folien)
- Arsenije Bogdanović: Segmentierung und Semantic Labeling von Paratexten für Werkausgaben des 18. Jh.s (Folien)
- Dr. Vincent Christlein: Document Analysis and Recognition Activities of the PRL (Folien)
-
AG-Treffen am 17. April 2024 von 15 bis 16 Uhr
Bei unserem Online-Treffen werden wir unser jährliches Präsenztreffen mit interessanten Workshops planen sowie weitere Vorhaben der AG besprechen, wie zum Beispiel die Erstellung einer Ressourcensammlung.
Wenn Sie teilnehmen möchten, dann senden Sie eine Mail an: larissa.will@uni-mannheim.de
-
Aktivitäten der OCR-AG bei DHd 2024 in Passau 26.02. bis 01.03.2024
- Dienstag, 27.02.2024, 9-17.30 Uhr:
- Konstantin Baierer, Lena Hinrichsen, Matthias Boenig, Christian Reul, Lilija Sautter, Mehmed Mustafa, Larissa Will, Florian Langhanki: Das richtige Tool für die Volltextdigitalisierung (Folien)
- Dienstag, 27.02.2024, 9-17.30 Uhr:
- Matthias Boenig, Konstantin Baierer, Lena Hinrichsen, Kay-Michael Würzner, Robert Sachunsky, Markus Weigelt, Christian Reul: Edierst Du noch oder trainierst Du schon? Forschungsdaten als Grundlage von Trainingsdaten für die automatische Texterkennung (Folien)
- Mittwoch, 28.02.2024, 14 Uhr:
- Arbeitstreffen der OCR AG
- Dienstag, 27.02.2024, 9-17.30 Uhr:
-
Arbeitstreffen 16./17. Oktober 2023 in der SLUB Dresden
Das Treffen soll über zwei halbe Tage in Dresden, im Open Science Lab der SLUB stattfinden und wird sich um das Thema GT drehen, dem wir uns von zwei Seiten nähern wollen. Zum einen ist ein BYOD-Workshop angedacht, in dem (eigene) Datensätze in einheitliche GT-Templates eingepflegt werden sollen; zum anderen soll ein erneuter Anlauf zur Nutzbarmachung des DTA als GT unternommen werden. Beide Teile sollen parallel stattfinden und die Ergebnisse am Ende des Treffens zusammengeführt werden. Daneben wird es selbstverständlich auch viel Zeit zum Austausch mit den anderen Teilnehmern geben.
Die Anmeldung zum Workshop ist bis zum 18. August unter https://terminplaner.dfn.de/IaI7qyTSdIfL5Ugy möglich
-
Weihnachts- und Neujahrskolloquium 2021/22
- Donnerstag, 16.12.2021, 14-16 Uhr:
- Mittwoch, 26.01.2022, 14-16 Uhr:
- Donnerstag, 03.02.2022, 14-16 Uhr:
- Christian Reul: Von gemischt zu werksspezifisch - Modelltraining für historische Drucke und Handschriften (Folien)
- Nikolaus Weichselbaumer: Druckqualität in der Handpressenzeit (bis ca. 1820)
Alle Termine finden virtuell statt: https://hu-berlin.zoom.us/j/69858657632?pwd=VXFPV3ZZaVNkMm1XeHlVQzloNDAwdz09
-
23.05.2021: Im Rahmen der vDHd 2021 organisiert die DHd AG OCR die Veranstaltungsreihe "Vom Bild zum Text — praktische OCR für die DH".
Neben einer Einführungs- und Abschlussveranstaltung wird es drei Zwischentermine geben, in denen genauer auf verschiedene Aspekte der OCR eingegangen wird:
- Dienstag, 23.03.2021, 10-12 Uhr: Einführungsveranstaltung (Interessen/Bedarfe und OCR-Grundlagen) (PDF)
- Mittwoch, 05.05.2021, 15-17 Uhr: OCR-D, OCR4all, TEI-Konvertierung (Folien OCR-D/TEI, Folien OCR4all, Video)
- Mittwoch, 12.05.2021, 15-17 Uhr: Transkription, Training (Folien, Video)
- Mittwoch, 19.05.2021, 15-17 Uhr: Postcorrection, Hackathon (Folien, Video)
- Mittwoch, 15.09.2021, 14-16 Uhr: Abschlussveranstaltung (Folien)
Alle Termine finden virtuell statt: https://meet.gwdg.de/b/eli-s6s-kal-hnq
- 03.03.2020: Im Rahmen der DHd2020 Paderborn (02.-06. März 2020) wird am 3. März von 14:00 bis 17:30 in Raum Q 5 245 zum ersten AG-Treffen im Jahr 2020 eingeladen.
- 25.09.2019: Gründung der DHd-AG OCR.
Chat – für den alltäglichen Austausch link
Mailing-Liste – für Ankündigungen link
Convenorin
Larissa Will
Referentin für Forschungsdatenmanagement und Digitalisierung (Digital Humanities)
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West
D-68131 Mannheim
Tel: +49 621 181–2754
E-Mail: larissa.will@uni-mannheim.de
Mitglieder
Vertretene Institutionen
- Abteilung Automatische Sprachverarbeitung, Universität Leipzig
- Bayerische Akademie der Wissenschaften
- Berlin-Brandenburgische Akademie der Wissenschaften
- Centrum für Informations- und Sprachverarbeitung, LMU München
- Computational Humanities Group; Universität Leipzig
- Digitales Wörterbuch der deutschen Sprache, BBAW
- Gutenberg-Institut, Universität Mainz
- Herzog August Bibliothek Wolfenbüttel
- Institut für Geschichte, Martin-Luther-Universität Halle-Wittenberg
- Institut für Philosophie, Universität Würzburg
- Kolleg Mittelalter und Frühe Neuzeit, Universität Würzburg
- Kunsthistorisches Institut, Universität Zürich
- Lehrstuhl für deutsche Philologie (ältere Abteilung), Universität Würzburg
- Lehrstuhl für Künstliche Intelligenz und Wissenssysteme, Universität Würzburg
- Max-Planck-Institut für Rechtsgeschichte und Rechtstheorie, Frankfurt am Main
- Max-Planck-Institut zur Erforschung von Gemeinschaftsgütern, Bonn
- Österreichische Akademie der Wissenschaften
- Pattern Recognition Lab, Friedrich-Alexander-Universität Erlangen-Nürnberg
- Romanisches Seminar, Universität Tübingen
- Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden
- Staats- und Universitätsbibliothek Bremen
- Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
- Universitäts- und Landesbibliothek Bonn
- Universitäts- und Landesbibliothek Sachsen-Anhalt
- Universitätsbibliothek der FAU Erlangen-Nürnberg
- Universitätsbibliothek Regensburg
- Universitätsbibliothek Tübingen
- Zentrum für Informations- und Medientechnologie, Universität Siegen
- Zentrum für Philologie und Digitalität „Kallimachos”, Universität Würzburg