Monday, November 02, 2015

DFG: digitale Abschriften von historischen Drucken aus dem deutschen Sprachraum gesucht

//zitat// Im Rahmen des DFG-Koordinierungsprojekts zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) werden verlässliche Abschriften in elektronischer Form (sogen. Ground Truth) von historischen Drucken aus dem deutschen Sprachraum gesucht. Ein wesentliches Desiderat für die Weiterentwicklung von OCR-Verfahren für historische Drucke ist eine breite Basis an Trainingsmaterial. Damit können zum einen Texterkennungsprogramme trainiert und ihre Erkennungsraten verbessert werden. Zum anderen können verschiedene OCR-Verfahren bezüglich ihrer Performanz bei historischen Vorlagen untersucht sowie die Qualität maschinell erkannter Texte gemessen werden.

Mirko Tobias Schäfer: Printing Press. Technisches Museum Wien, Flickr, 18. Juni 2006, Lizenz CC-BY

Haben Sie vielleicht Titel des 16. bis 19. Jh.s (deutsch oder lateinisch) im Rahmen von Ausstellungen, Projekten etc. erfasst? Entscheidend ist dabei weniger Anzahl und Umfang der Titel als die Genauigkeit der Erfassung. Durch Mitteilung solcher Materialien (auch einzelner Titel) können Sie zur Weiterentwicklung der maschinellen Texterkennung beitragen. Eine für alle frei nutzbare OCR kann nur mit breiter Unterstützung vorangetrieben werden. Selbstverständlich werden Ihre Daten ausschließlich für die im Projekt definierten Ziele verwendet. Alle durch das OCR-Vorhaben zustande gekommenen Ergebnisse werden der Fachöffentlichkeit bekannt gemacht und stehen zur kostenfreien Nachnutzung durch Dritte bereit.
Wir werden diesen Aufruf auch an geistes- und sozialwissenschaftliche Einrichtungen senden, da anzunehmen ist, dass zahlreiche Texte als "Hilfsmittel" in unterschiedlichsten Projekten erfasst worden sind, ohne dass sie im Fokus des Vorhabens standen. Nur zur internen Nutzung bestimmt, fanden und finden sie keinen Weg in die Öffentlichkeit. Das kann ich zumindest aus eigener Erfahrung berichten.//zitatende//

Kontakt: Sebastian Mangold für das DFG-Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR), p.A. Bayerische Staatsbibliothek, Digitale Bibliothek / Münchener Digitalisierungszentrum (MDZ), Ludwigstraße 16, 80539 München, sebastian.mangold (at) bsb-muenchen.de. -- Quelle: Inetbib.

No comments:

Post a Comment