Skip to main content
  1. Home >
  2. Über Fujitsu >
  3. Case Studies>
  4. fi Series Case Study: Projekt Gutenberg-DE

Projekt Gutenberg-DE

Wie Schiller, Goethe und Co. im Internetzeitalter
ankommen

Branchen:

  • Education

Offering Gruppe:

  • Scanners

Solution Gruppe:

  • Imaging Solutions

Regionen:

  • Deutschland

Herausforderungen:

  • Rund eine halbe Million Seiten Text gescannt werden
  • Effizientes Dokumentenmanagement

Nutzen:

  • Optimierte Arbeitsabläufe
  • Gute Scan- und OCR-Qualität
  • Sichere Dokumenterfassung und –ablage

Fujitsu Dokumentenscanner digitalisiert Literaturklassiker für das Projekt Gutenberg-DE

Gutenberg in a 16th century copper engraving

Das Projekt Gutenberg-DE rettet die Klassiker der Weltliteratur ins Internet-zeitalter. Hunderte von freiwilligen Internet-Nutzern beteiligen sich weltweit an der Aktion. Die Initiatoren der Internetseite Gutenberg-DE, Hille & Partner aus Hamburg, investieren unzählige Arbeitsstunden, um Schiller und Goethe, aber auch längst vergessene Perlen der Weltliteratur, online der Öffentlichkeit zugänglich zu machen. Der Dokumentenscanner Fujitsu fi-4530C und die OCR-Software von Abbyy erleichtern ihnen diese Aufgabe.

Für immer mehr Menschen ist das Internet heute die Recherche-Quelle Nummer 1: Vom Tipp zum schnellen Binden eines korrekten Krawattenknotens über Philosophie-Dissertationen bis hin zu Tricks im Gartenbau – die Internetsuchmaschinen fördern zu jedem noch so exotischen Suchbegriff Antworten aus der Tiefe dieser gigantischen virtuellen Bibliothek zu Tage.

Gutenberg und das Internetzeitalter

Noch vor zehn Jahren war das WorldWideWeb bei weitem nicht so umfangreich, bot dafür aber einen völlig neuen Tummelplatz für Visionäre und Idealisten. Einer von ihnen ist Gunter Hille. Dem Hamburger Literaturliebhaber fiel damals auf, dass ein Bereich im stetig anwachsenden Informationsangebot sehr unterrepräsentiert war – die Welt der Literatur. Das wollte er ändern und so entstand die Idee, auf einer eigenen Webseite copyrightfreie Klassiker – also Texte von Autoren, deren Todestag mindestens 70 Jahre zurückliegt – online abrufbar zu machen.

Ein idealer Namenspatron für dieses Projekt war mit Johannes Gutenberg schnell gefunden: Durch die Erfindung des Buchdrucks mit beweglichen Lettern hatte er im ausgehenden Mittelalter die massenhafte Verbreitung von Kultur ermöglicht – eine Errungenschaft, der das Internet heute in nichts nachsteht.

Am 24. März 1994 präsentierte Gunter Hille mit Max und Moritz von Wilhelm Busch den ersten Text der neuen Internet-Bibliothek Gutenberg-DE. Zehn abgerufene Texte waren es in den ersten drei Stunden; heute wird das Projekt von Spiegel Online gehostet und verzeichnet über 100.000 Zugriffe im selben Zeitraum. Der Gutenberg- Link steht in der Favoritenliste der Internetbrowser von Lehrern, Studenten und Literaturliebhabern jeglicher Couleur ganz oben. Mehrere zehntausend Arbeitstunden steckte das Team seither in das Projekt. Zusammen mit vielen freiwilligen, unbezahlten Helfern auf der ganzen Welt hat es mit Gutenberg-DE die größte deutschsprachige Online-Literatursammlung mit bis zu 3,3 Millionen Seitenabrufen im Monat geschaffen. Und das völlig ohne Forschungsgelder und staatliche Fördermittel.

Bücher, Bücher, Bücher – Gunter Hilles ArbeitsplatzBücher, Bücher, Bücher – Gunter Hilles Arbeitsplatz

Die Verwandlung von Büchern in Dateien

Seit Projektbeginn wurden rund eine halbe Million Textseiten eingescannt, von einem OCR-Programm bearbeitet, anschließend korrigiert und in die Web-Bibliothek gestellt. Arbeitsaufwand und Investition pro Buch sind hoch: „Haben wir uns für die Aufnahme eines neuen Werkes entschieden, muss zunächst geprüft werden, ob der Text copyrightfrei ist; danach erwerben wir das Werk meist antiquarisch und bereiten es dann für das Internet auf“, beschreibt Gunter Hille die Arbeitsgänge in groben Zügen.

Doch was auf den ersten Blick so einfach klingt, ist ein sehr aufwändiger Prozess, der von den Projektteilnehmern vor allem Fleiß und Konzentration erfordert. Gerade werden zum Beispiel die sechs Bände einer wertvollen Casanova-Ausgabe fertiggestellt. Knapp 4000 Buchseiten müssen verarbeitet werden. Pro Band rechnet der Gutenberg-Initiator mit einem Zeitaufwand von rund 35 Arbeitsstunden; bei sechs Bänden geht da schon mehr als ein ganzer Arbeitsmonat ins Land.

„Vor allem das Korrekturlesen des OCR-Ergebnisses kostet viel Zeit. Mehr als 20 bis 30 Seiten schafft ein Leser nicht in der Stunde. Für einen 600-Seiten-Wälzer kommen da schnell 20 Stunden zusammen – 20 Stunden freiwilliger Arbeit außerhalb der normalen Arbeitszeit“, so Hille weiter. Unterstützung findet der Projektleiter bei der Korrekturphase wiederum durch die Web-Community: Auf der Internetseite www.gaga.net („Gemeinsam an Gutenberg arbeiten“) haben Gutenberg-Freunde die Gelegenheit, sich selbst an der Korrektur der OCR-bearbeiteten Texte zu beteiligen. Bis zu 2000 Seiten schaffen die freiwilligen Online-Lektoren täglich, was mehr als 50 Prozent Zeit bei der Bearbeitung eines einzelnen Buches spart.

Die Verwandlung der Klassiker

Dennoch lebt das Projekt auch davon, dass sämtliche Arbeitsschritte außerhalb des Korrekturprozesses möglichst effizient vonstatten gehen, so beispielsweise die Digitalisierung der Klassikertexte. Dabei hilft dem Gutenberg-Team unter anderem modernste Scan-Technologie von Fujitsu.

„Generell hat man zwei Möglichkeiten, ein Buch zu scannen: Entweder man legt das Buch auf den Scanner und blättert jede Seite einzeln um. Oder man zerschneidet es am Buchrücken, legt die Seiten gebündelt in den Document-Feeder des Scanners und lässt die Seiten automatisch einziehen. Im ersten Fall schafft der Scanner ein bis zwei Seiten pro Minute; mit Dokumenteneinzug ist die zehnfache Menge möglich, so weh das Zerschneiden auch tut.“ Weil bei der ersten Methode durch Wölbungen und schiefe Auflagen die Scan-Qualität zudem noch schlechter ist, was weiteren Zeitaufwand für Korrekturen und Nacharbeiten kostet, arbeiten die Gutenberg-Mitarbeiter mit Dokumenteneinzug. Die einzige Alternative dazu wären Scannerroboter, die die Seiten automatisch umblättern; diese Geräte kosten jedoch über 100.000 Euro und sind für das Projekt unerschwinglich.

Zu Anfang waren fünf Scanner für das Projekt im Einsatz, darunter Geräte mit Flachbett für Scans einzelner Bilder und ein Gerät mit einseitigem Dokumenteneinzug. „Unser Scanner mit Dokumenteneinzug leistete uns hervorragende Dienste, hatte sich aber mit fortschreitendem Alter zunehmend an den unterschiedlichen Papierarten abgenutzt, mit denen wir ihn fütterten. Das liegt daran, dass unsere Bücher meistens in der Zeit zwischen dem Ersten und Zweiten Weltkrieg gedruckt wurden. Das Papier zerfasert, wird hart oder porös und zieht den Einzug des Scanners in Mitleidenschaft. Das führte immer häufiger zu Einzugsfehlern, was heißt, dass Seiten doppelt oder gar nicht eingezogen wurden.“ Solche Fehler verursachen erheblichen Mehraufwand: Die fehlenden Seiten müssen gefunden, nachgescannt und in das fertige Gesamtabbild des Buches eingefügt werden. Der wachsende Wartungsbedarf machte einen neuen Scanner mehr als wünschenswert.

Gunter Hille hatte sehr genaue Vorstellungen über die Leistungsmerkmale des neuen Scanners: „Besonders wichtig waren uns die Geschwindigkeit, der gute Dokumenteneinzug und die Zuverlässigkeit des Produkts. Vor allem sollte er im Hinblick auf die antiquarischen Vorlagen Bücher jeglicher Papierqualität problemlos scannen können.“

Erste Adresse: Fujitsu

Da man in der Vergangenheit mit dem Fujitsu Dokumentenscanner M3092 bereits sehr gute Erfahrungen gemacht hatte, war Fujitsu die bevorzugte Adresse für Hille. Im Gespräch mit Klaus Schulz, bei Fujitsu zuständig für das Scanner Produkt Marketing in Europa, wurde schnell deutlich, dass der fi-4530C für das Projekt ideal wäre. Fujitsu erklärte sich daraufhin sofort bereit, Gunter Hille bei seinem ambitionierten Projekt zu unterstützen und stellte Gutenberg-DE den fi-4530C A3-Dokumentenscanner kostenlos zur Verfügung. „Gutenberg-DE und das Team um Gunter Hille verdienen meinen Respekt und Anerkennung. Ich freue mich, dass Fujitsu so unkompliziert zur Fortführung und Ausweitung des Projekts beitragen kann“, so Klaus Schulz.

Völlig problemlos läuft auch der Praxiseinsatz des fi-4530C: Nach nur zehn Minuten war das Gerät ausgepackt, angeschlossen und betriebsbereit. Nach zehn Wochen hatte es bereits 30.000 Klassikerseiten digitalisiert – und das mit Ergebnissen, die alle begeistern: „Unsere Erwartungen wurden mehr als übertroffen: 30.000 Seiten und kein einziger Einzugsfehler! Trotz verschiedener Papierqualitäten mussten wir nicht eine Buchseite zweimal auf den Scanner legen.“ Diese Verbesserung ist vor allem der einzigartigen Ultra-Doppeleinzugskontrolle und dem hochleistungsfähigen Rollenmodul des Scanners zu verdanken. Darüber hinaus konnte mit Hilfe des schnelleren Papiereinzugs und der beidseitigen Verarbeitung die Scan-Zeit erheblich verkürzt werden: „Unsere Casanova-Ausgabe konnten wir in vierfacher Geschwindigkeit im Vergleich zu früher scannen.“ Aber nicht nur die Scan-Qualitäten des Fujitsu Gerätes begeistern die Macher von Gutenberg-DE, auch die beiliegende Utility Software ScandAll 21 sei vorbildlich. „Durch dieses Programm können wir bereits vor dem Scan festlegen, was mit dem digitalen Abbild der Papiervorlage passieren soll, also ob diese in einer bestimmten Datei abgelegt, ausgedruckt oder ins PDF-Format verwandelt werden soll. Außerdem können wir damit Seitenränder justieren und viele andere für uns hilfreiche Funktionen nutzen.“ Mittlerweile könne man sich die tägliche Arbeit bei Gutenberg-DE gar nicht mehr ohne diese Software vorstellen.

Auch Fraktur-Klassiker finden ihren Weg ins Netz

Auch Fraktur-Klassiker finden ihren Weg ins Netz Ebenso wichtig, wie ein schneller und zuverlässiger Scanner, ist für Gutenberg-DE die OCR-Software, die die Scans in Texte umwandelt. „Hierfür verwenden wir Abbyy FineReader, unserer Meinung nach seit Jahren das beste Produkt auf diesem Gebiet.“ Vor allem aber bietet eine Spezialsoftware von Abbyy eine Funktion, die für Gutenberg von besonderer Bedeutung ist: die Verarbeitung von Frakturschrift. Denn wenn die Gutenberg-Mitarbeiter ein Buch antiquarisch erwerben, dann wissen sie nicht immer, ob es in Fraktur- oder Antiqua-Schrift gedruckt ist. 100 bis 200 in Fraktur gesetzte Bände mussten zurückgestellt werden, bis mit der Abbyy FineReader Fraktur-Engine endlich ein OCR-Produkt auf den Markt kam, mit dem diese Bücher problemlos in guter Qualität digitalisiert werden können. Auch die neue Casanova-Ausgabe zählt dazu.

Dank der hochwertigen technologischen Ausstattung kann die Firma Hille & Partner ihre Dienstleistungen in Zukunft auch Verlagen und anderen Unter-nehmen anbieten, die ältere Bände aus dem Backlist-Angebot – also dem Verzeichnis lieferbarer Bücher – oder andere Druckwerke digitalisieren wollen. Aber das Hauptaugenmerk wird natürlich weiterhin auf Gutenberg-DE liegen, schließlich warten noch Tausende von Klassikern auf ihren Transfer vom Gutenberg- ins Internetzeitalter. Und jedes Jahr im Januar verlieren weitere Werke das Copyright, darunter viele Perlen, die es zu entdecken gilt. In diesem Jahr ist darunter beispielsweise der 1934 von den Nationalsozialisten ermordete Erich Mühsam. Einst verboten, sind dessen Werke heute für jeden frei zugänglich. Und genau darum geht es bei Gutenberg-DE: Literatur ist ein Kulturgut, und Kultur ist Allgemeingut.

Mehr Information: