DHd AG OCR

Arbeitsgruppe OCR - Forum für die Weiterentwicklung der Optical Character Recognition


Arbeitsschwerpunkte

Die Verwendung von digitalen Textdaten ist ein Kernmerkmal der Digitalen Geisteswissenschaften (Digital Humanities, DH). Der große und wachsende Bedarf an diesen Forschungsdaten setzt jedoch voraus, dass effiziente Technologien mit einer hohen Erkennungsgenauigkeit sowohl für den Text als auch für die zugrundeliegende Dokumentstruktur zur Verfügung stehen.

Aus diesem Grund sieht sich die AG OCR als interdisziplinäres und fächerübergreifendes Forum für den Umgang und die Auseinandersetzung mit OCR (Optical Character Recognition) sowie die Entwicklung von OCR-Werkzeugen als einem Schlüssel für die Umsetzung der Anforderungen der DH. Die Mitglieder der AG spiegeln die Vielfalt der Methoden, Technologien und Nutzungsmöglichkeiten des Forschungsbereiches wider und schaffen so einen umfassenden Kommunikationsraum. In diesem versammeln sich Entwickler*innen, Forscher*innen und auch Nutzende, um zum einen bestehende Softwarelösungen und Technologien zu optimieren, und sich zum anderen mit der Neuentwicklung von Verfahren der Erkennung zu beschäftigen. Auch die Vermittlung automatisierter Erkennungsprozesse an Multiplikator*innen nach dem train the trainer-Konzept nimmt in der Arbeit eine wichtige Rolle ein. Auf diese Weise soll ein umfassendes Netzwerk aus Ansprechpersonen für den direkten, praxisbezogenen Erfahrungsaustausch über die OCR von Drucken, Handschriften, ganz unterschiedliche Schrifttypen und Sprachen geschaffen werden.

Ziele