Schweizer Textkorpus

Dank Möglichkeiten der Digitalisierung und weltweiter Vernetzung über Internet sind in den vergangenen Jahrzehnten für viele Sprachen elektronische Korpora entstanden oder zurzeit im Aufbau. Als Prototyp eines solchen Korpus gilt das zwischen 1991 und 1994 entstandene British National Corpus (BNC) mit 100 Mio. Textwörtern. Dieses Korpus ist ausgewogen aufgebaut, es ist annotiert, lemmatisiert und automatisch nach Wortarten analysiert.

Inzwischen ist eine Vielzahl von Digitalisierungs- und Korpus-Projekten entstanden oder am Entstehen. Für das Deutsche sind im wesentlichen zwei Korpora zu nennen: Einerseits das grosse Korpus am Institut für deutsche Sprache IdS in Mannheim mit mehreren Milliarden Textwörtern, teilweise auch aus der Schweiz, andererseits das Gutenberg-Projekt, das literarische Texte von über 800 Autorinnen und Autoren, die nicht mehr urheberrechtsgeschützt sind, in gemeinsamer Anstrengung der Internet-Gemeinschaft sammelt.

Das Mannheimer Korpus ist die weltweit grösste Sammlung deutscher Texte, enthält aber überwiegend Zeitungstexte und ist daher als lexikografische Datenbank unausgewogen. Die Gutenberg-Datenbank enthält ausschliesslich literarische Texte, aber im Wesentlichen nur von Autorinnen und Autoren, die vor mehr als 70 Jahren gestorben sind.

Die meisten anderen digitalen Korpora des Deutschen sind von computerlinguistischen Forschungsstellen aufgebaut worden und enthalten vorwiegend neue und neueste Texte aus Zeitungsarchiven oder dem Internet. Daneben existieren Korpus- und Wörterbuchportale, welche über Internet verschiedene Projekte zusammenführen (z. B. Link Everything Online LEO, Wörterbuch-Portal, Canoo).

Es existierte aber vor dem Schweizer Textkorpus noch kein digitales Korpus von deutschsprachigen Schweizer Texten. Das Schweizer Textkorpus schliesst diese Lücke und bietet für die lexikografische und andere linguistische Forschung eine ausgewogene empirische Datenbasis.

Informationen

Warum?

Footer