DHd AG OCR
Arbeitsgruppe OCR - Forum für die Weiterentwicklung der Optical Character Recognition
Arbeitsschwerpunkte
Die Verwendung von digitalen Textdaten ist ein Kernmerkmal der Digitalen Geisteswissenschaften (Digital Humanities, DH). Der große und wachsende Bedarf an diesen Forschungsdaten setzt jedoch voraus, dass effiziente Technologien mit einer hohen Erkennungsgenauigkeit sowohl für den Text als auch für die zugrundeliegende Dokumentstruktur zur Verfügung stehen.
Aus diesem Grund sieht sich die AG OCR als interdisziplinäres und fächerübergreifendes Forum für den Umgang und die Auseinandersetzung mit OCR (Optical Character Recognition) sowie die Entwicklung von OCR-Werkzeugen als einem Schlüssel für die Umsetzung der Anforderungen der DH. Die Mitglieder der AG spiegeln die Vielfalt der Methoden, Technologien und Nutzungsmöglichkeiten des Forschungsbereiches wider und schaffen so einen umfassenden Kommunikationsraum. In diesem versammeln sich Entwickler*innen, Forscher*innen und auch Nutzende, um zum einen bestehende Softwarelösungen und Technologien zu optimieren, und sich zum anderen mit der Neuentwicklung von Verfahren der Erkennung zu beschäftigen. Auch die Vermittlung automatisierter Erkennungsprozesse an Multiplikator*innen nach dem train the trainer-Konzept nimmt in der Arbeit eine wichtige Rolle ein. Auf diese Weise soll ein umfassendes Netzwerk aus Ansprechpersonen für den direkten, praxisbezogenen Erfahrungsaustausch über die OCR von Drucken, Handschriften, ganz unterschiedliche Schrifttypen und Sprachen geschaffen werden.
Ziele
- Vernetzung von Nutzenden, Vermittelnden, Entwickelnden und Forschenden durch mindestens jährliche Treffen sowie Workshops und gemeinsame Projekte mit dem Fokus auf freier und quelloffener Software beziehungsweise Publikationen zum Thema
- Erarbeitung, Sicherung und Verbreitung von Best Practices zu praktischen Anwendungsfragen der OCR, z.B. Workflow, Formate, Parameter
- Technologietransfer aus der Entwicklung in die Praxis
- Klare Kommunikation spezifisch geisteswissenschaftlicher Anforderungen an die Entwickler*innen von OCR-Software, damit sich diese stärker auf die Programmierung von Software für den Produktivbetrieb statt wie bisher vielfach auf die Erstellung von Prototypen konzentrieren
- Identifikation und kollaborative Bearbeitung offener Forschungsfragen, auch im engen Austausch mit bereits bestehenden AGs der DHd wie z. B. der „AG Zeitungen & Zeitschriften”.