Fraktur-OCR Fraktur-OCR mit Abbyy Finereader XIX ® Mit freundlicher Genehmigung von ABBYY®-Europe stellen wir Ihnen auf dieser Seite beispielhaft einige Erkennungsergebnisse der neuen OCR Software für Frakturschriften „ ABBYY Finereader XIX ™ “ vor. Aus diversen Buch-Digitalisierungen, die bei german-dataservice projektiert sind, wurden jeweils zwei beliebige Seiten entnommen.Nacharbeiten sind bei manchen Vorlagen zwar immer noch notwendig, diese lassen sich aber durch statistische Methoden und die von german-dataservice vorbereitete Wortdatenbank mit 1,5 Millionen Einträgen aus dem 19.Jahrhundert großenteils bereinigen. Hier unsere Testergebnisse: (Ausnahmslos ohne Vor- oder Nacharbeiten): Alle 32 Testdateien als Word-Datei zusammengefasst   01-Das-Reich-der-Erfindungen 02-Das-Reich-der-Erfindungen 03-Pierers-Lexikon 04-Pierers-Lexikon 05-Brockhaus-Conversationslexicon 06-Brockhaus-Conversationslexicon 07-Spruchwörterbuch 08-Spruchwörterbuch 09-Löfflers-illustr.Kochbuch 10-Löfflers-illustr.Kochbuch 10-Löfflers-illustr.Kochbuch     11-Hauslexikon     12-Hauslexikon 13-Fliegende-Blätter  14-Fliegende-Blätter     15-Nürnberg 16-Nürnberg    17-Brehms-Tierleben   18-Brehms-Tierleben 19-Brockhaus-Bilderlexikon    20-Brockhaus-Bilderlexikon 21-Brockhaus-Bilderlexikon   22-Brockhaus-Bilderlexikon 23-Kürschner-Universal-Lexikon   24-Kürschner-Universal-Lexikon 25-Geschichte-des-deutschen-Volkes    26-Geschichte-des-deutschen-Volkes 27-Helmolt-Weltgeschichte  28-Helmolt-Weltgeschichte 29-Brockhaus-Lexicon-1830  30-Brockhaus-Lexicon-1830 31-Meyers-Conversationslexicon-1874      32-Meyers-Conversationslexicon-1874 Die OCR von normalen Schriften ist mit neuester Software drastisch  verbessert worden. Es gibt kaum noch Erkennungsfehler. Bei Fraktur-OCR (Finereader XIX) hat sich mangels Nachfrage nicht  viel getan. Eigene Testreihen haben aber ergeben, dass die  Scan-Qualität eine entscheidende Rolle spielt. Dies könnten Sie  anhand eines eindrucksvollen Beispiels selbst überprüfen: Ein A-B-Vergleich zwischen einem öffentlich zugänglichen Digitalisat  aus Toronto (gehostet beim Internet-Archiv) und einer  hochaufgelösten Version, gescannt von german-dataservice zeigt, dass  bei mittelmäßigen Scans die Fehlerquote zehnmal höher ist, als bei  hochwertigen. Hier die Links:  www.german-digital.de/mosen-toronto.pdf (646 MB, Text under image)  www.german-digital.de/mosen-toronto.rtf (0,38 MB, Erkennungsfehler  farbig markiert, keinerlei Korrekturen vorgenommen)  www.german-digital.de/mosen-gds.pdf (595 MB, Text under image)  www.german-digital.de/mosen-gds.rtf (0,32 MB, Erkennungsfehler  farbig markiert, keinerlei Korrekturen vorgenommen)