Arbeitsschwerpunkte
Die Verwendung von digitalen Textdaten ist ein Kernmerkmal der Digitalen Geisteswissenschaften (Digital Humanities, DH). Der große und wachsende Bedarf an diesen Forschungsdaten setzt jedoch voraus, dass effiziente Technologien mit einer hohen Erkennungsgenauigkeit sowohl für den Text als auch für die zugrundeliegende Dokumentstruktur zur Verfügung stehen.
Aus diesem Grund sieht sich die AG OCR als interdisziplinäres und fächerübergreifendes Forum für den Umgang und die Auseinandersetzung mit OCR (Optical Character Recognition)sowie die Entwicklung von OCR-Werkzeugen als einem Schlüssel für die Umsetzung der Anforderungen der DH. Die Mitglieder der AG spiegeln die Vielfalt der Methoden, Technologien und Nutzungsmöglichkeiten des Forschungsbereiches wider und schaffen so einen umfassenden Kommunikationsraum. In diesem versammeln sich Entwickler:innen, Forscher:innen und auch Nutzende, um zum einen bestehende Softwarelösungen und Technologien zu optimieren, und sich zum anderen mit der Neuentwicklung von Verfahren der Erkennung zu beschäftigen. Auch die Vermittlung automatisierter Erkennungsprozesse an Multiplikator:innen nach dem train the trainer-Konzept, nimmt in der Arbeit eine wichtige Rolle ein. Auf diese Weise soll ein umfassendes Netzwerk aus Ansprechpartnern für den direkten, praxisbezogenen Erfahrungsaustausch über die OCR von Drucken, Handschriften, ganz unterschiedliche Schrifttypen und Sprachen geschaffen werden. Eigene Forschungsprojekte sollen folgen.
Ziele
- Vernetzung von Nutzern, Vermittlern, Entwicklern und Forschern durch mindestens jährliche Treffen sowie Workshops und gemeinsame Projekte mit dem Fokus auf freier und quelloffener Software beziehungsweise Publikationen zum Thema.
- Erarbeitung, Sicherung und Verbreitung von Best Practices zu praktischen Anwendungsfragen der OCR, z.B. Workflow, Formate, Parameter.
- Technologietransfer aus der Entwicklung in die Praxis.
- Klare Kommunikation spezifisch geisteswissenschaftlicher Anforderungen an die Entwickler:innen von OCR-Software, damit sich diese stärker auf die Programmierung von Software für den Produktivbetrieb statt wie bisher vielfach auf die Erstellung von Protoytpen konzentrieren.
- Identifikation und kollaborative Bearbeitung offener Forschungsfragen, auch im engen Austausch mit bereits bestehenden AGs der DHd wie z.B. der „AG Zeitungen & Zeitschriften”.
Ankündigungen
-
AG-Treffen am 17. April 2024 von 15 bis 16 Uhr
Bei unserem Online-Treffen werden wir unser jährliches Präsenztreffen mit interessanten Workshops planen sowie weitere Vorhaben der AG besprechen, wie zum Beispiel die Erstellung einer Ressourcensammlung.
Wenn Sie teilnehmen möchten, dann senden Sie eine Mail an: larissa.will@uni-mannheim.de
Archiv
-
Arbeitstreffen 16./17. Oktober 2023 in der SLUB Dresden
Das Treffen soll über zwei halbe Tage in Dresden, im Open Science Lab der SLUB stattfinden und wird sich um das Thema GT drehen, dem wir uns von zwei Seiten nähern wollen. Zum einen ist ein BYOD-Workshop angedacht, in dem (eigene) Datensätze in einheitliche GT-Templates eingepflegt werden sollen; zum anderen soll ein erneuter Anlauf zur Nutzbarmachung des DTA als GT unternommen werden. Beide Teile sollen parallel stattfinden und die Ergebnisse am Ende des Treffens zusammengeführt werden. Daneben wird es selbstverständlich auch viel Zeit zum Austausch mit den anderen Teilnehmern geben.
Die Anmeldung zum Workshop ist bis zum 18. August unter https://terminplaner.dfn.de/IaI7qyTSdIfL5Ugy möglich
-
Weihnachts- und Neujahrskolloquium 2021/22
- Donnerstag, 16.12.2021, 14-16 Uhr:
- Mittwoch, 26.01.2022, 14-16 Uhr:
- Donnerstag, 03.02.2022, 14-16 Uhr:
- Christian Reul: Von gemischt zu werksspezifisch - Modelltraining für historische Drucke und Handschriften (Folien)
- Nikolaus Weichselbaumer: Druckqualität in der Handpressenzeit (bis ca. 1820)
Alle Termine finden virtuell statt: https://hu-berlin.zoom.us/j/69858657632?pwd=VXFPV3ZZaVNkMm1XeHlVQzloNDAwdz09
-
23.05.2021: Im Rahmen der vDHd 2021 organisiert die DHd AG OCR die Veranstaltungsreihe "Vom Bild zum Text — praktische OCR für die DH".
Neben einer Einführungs- und Abschlussveranstaltung wird es drei Zwischentermine geben, in denen genauer auf verschiedene Aspekte der OCR eingegangen wird:
- Dienstag, 23.03.2021, 10-12 Uhr: Einführungsveranstaltung (Interessen/Bedarfe und OCR-Grundlagen) (PDF)
- Mittwoch, 05.05.2021, 15-17 Uhr: OCR-D, OCR4all, TEI-Konvertierung (Folien OCR-D/TEI, Folien OCR4all, Video)
- Mittwoch, 12.05.2021, 15-17 Uhr: Transkription, Training (Folien, Video)
- Mittwoch, 19.05.2021, 15-17 Uhr: Postcorrection, Hackathon (Folien, Video)
- Mittwoch, 15.09.2021, 14-16 Uhr: Abschlussveranstaltung (Folien)
Alle Termine finden virtuell statt: https://meet.gwdg.de/b/eli-s6s-kal-hnq
- 03.03.2020: Im Rahmen der DHd2020 Paderborn (02.-06. März 2020) wird am 3. März von 14:00 bis 17:30 in Raum Q 5 245 zum ersten AG-Treffen im Jahr 2020 eingeladen.
- 25.09.2019: Gründung der DHd-AG OCR.
Chat – für den alltäglichen Austausch link
Mailing-Liste – für Ankündigungen link
Convenorin
Larissa Will
Referentin für Forschungsdatenmanagement und Digitalisierung (Digital Humanities)
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West
D-68131 Mannheim
Tel: +49 621 181–2754
E-Mail: larissa.will@uni-mannheim.de
Mitglieder
Vertretene Institutionen
- Abteilung Automatische Sprachverarbeitung, Universität Leipzig
- Bayerische Akademie der Wissenschaften
- Berlin-Brandenburgische Akademie der Wissenschaften
- Centrum für Informations- und Sprachverarbeitung, LMU München
- Computational Humanities Group; Universität Leipzig
- Digitales Wörterbuch der deutschen Sprache, BBAW
- Gutenberg-Institut, Universität Mainz
- Herzog August Bibliothek Wolfenbüttel
- Institut für Geschichte, Martin-Luther-Universität Halle-Wittenberg
- Institut für Philosophie, Universität Würzburg
- Kolleg Mittelalter und Frühe Neuzeit, Universität Würzburg
- Kunsthistorisches Institut, Universität Zürich
- Lehrstuhl für deutsche Philologie (ältere Abteilung), Universität Würzburg
- Lehrstuhl für Künstliche Intelligenz und Wissenssysteme, Universität Würzburg
- Max-Planck-Institut für Rechtsgeschichte und Rechtstheorie, Frankfurt am Main
- Max-Planck-Institut zur Erforschung von Gemeinschaftsgütern, Bonn
- Österreichische Akademie der Wissenschaften
- Pattern Recognition Lab, Friedrich-Alexander-Universität Erlangen-Nürnberg
- Romanisches Seminar, Universität Tübingen
- Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden
- Staats- und Universitätsbibliothek Bremen
- Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
- Universitäts- und Landesbibliothek Bonn
- Universitäts- und Landesbibliothek Sachsen-Anhalt
- Universitätsbibliothek der FAU Erlangen-Nürnberg
- Universitätsbibliothek Regensburg
- Universitätsbibliothek Tübingen
- Zentrum für Informations- und Medientechnologie, Universität Siegen
- Zentrum für Philologie und Digitalität „Kallimachos”, Universität Würzburg