Ein Textkorpus Neutrum Plural Textkorpora kurz auch nur Korpus oder Corpus lateinisch corpus Körper ist eine Sammlung vo
Textkorpus

Ein Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lateinisch corpus ‚Körper‘) ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äußerungen einer bestimmten Sprache oder Textgattung.
Allgemeines
Textkorpora werden in unterschiedlichen wissenschaftlichen Disziplinen untersucht.
In der Rechtswissenschaft und Rechtsgeschichte wird als (Gesetzes-)Korpus eine Sammlung von Rechtsquellen bezeichnet, zum Beispiel das Corpus iuris civilis. Es handelt sich also hier um eine gewachsene Sammlung normativer Texte.
In den Sprach- und Literaturwissenschaften sowie historisch und sozialwissenschaftlich orientierten Fächern wie Ethnologie oder Kulturanthropologie sind Korpora ein Mittel, um wissenschaftliche Aussagen mit Datenmaterial zu stützen oder, umgekehrt, aus Mustern im Datenmaterial wissenschaftliche Hypothesen zu erschließen. In der Sprachwissenschaft werden Wörterbücher auf Korpusdaten gestützt, und in neuerer Zeit vermehrt auch die Sprachbeschreibung in Grammatiken, um so den tatsächlichen Sprachgebrauch abzubilden. Korpora aus eingeschränkten Textsorten können dazu verhelfen, die kennzeichnenden Eigenschaften einer bestimmten Sprachvarietät abzugrenzen und zu beschreiben. In dieser Weise dienen Korpora auch als Quellen zur Untersuchung von Fragestellungen der Soziolinguistik. In der Literaturwissenschaft werden die Werke eines bestimmten Autors oder einer Gruppe von Autoren erfasst und erforscht.
Für sprachwissenschaftliche Zwecke werden in Textkorpora bestimmte Arten und Mengen von Texten aus lebenden Sprachen nach wissenschaftlichen Kriterien zusammengestellt. Solche Sammlungen haben mit Aufkommen maschineller Erfassungsmöglichkeiten durch die Digitalisierung in vielen sprachwissenschaftlichen Disziplinen sehr große Bedeutung erlangt. Hieraus entwickelte sich die neue Disziplin der Korpuslinguistik, die auch außerhalb der Linguistik, z. B. in den Historische Hilfswissenschaften eine Rolle spielt.
Ein Textkorpus liegt heute typischerweise in digitaler Form vor. Für Zwecke der Sprachbeschreibung wurden für zahlreiche Nationalsprachen große, das heißt viele Millionen und teils mehrere Milliarden Wörter umfassende Korpora erstellt, die ein gewisses Verhältnis einzelner Textsorten in der jeweiligen Sprache abbilden sollen. Zudem existieren zahlreiche Spezialkorpora wie etwa Kindersprachkorpora, Dialektkorpora, Korpora, die aus Gesamtausgaben von literarischen Werken bestehen, u. a. m. Auch werden in zunehmendem Maße für linguistische Einzeluntersuchungen eigens konzipierte Textkorpora erstellt.
Arten von Textkorpora
Nach formalen und inhaltlichen Kriterien können Textkorpora in unterschiedlicher Weise kategorisiert werden. In erster Linie unterscheidet man:
Papierkorpora und elektronische Korpora
Auf Papier zusammengetragene Textkorpora waren aufwändig zu erstellen und dementsprechend selten anzutreffen. Sie spielten in der Vergangenheit beispielsweise in der Wörterbuchschreibung eine bedeutende Rolle, da anhand dieser Sammlungen die Bedeutungen einzelner Wörter ausgemacht bzw. belegt wurden.
Für die Nutzung der heute üblichen maschinenlesbaren Korpora ist eine spezielle Software wie beispielsweise WordSmith notwendig. Etliche Korpora sind aber online zugänglich und ohne solche Software auf dem eigenen PC nutzbar.
Teilkorpora und Referenzkorpora
Teilkorpora sind solche, die nur einen Ausschnitt aus dem gesamten Spektrum einer Sprache bieten, wie beispielsweise Textkorpora, die nur Texte aus der alltäglichen Umgangssprache oder nur Texte aus Tageszeitungen enthalten.
Ein Referenzkorpus ist ein Textkorpus, das nach linguistischen Kriterien eine einzelne Sprache (also das Deutsche, das Englische usw.) in ihrer Gesamtheit dergestalt repräsentativ erfassen soll, dass anhand eines Referenzkorpus einer bestimmten Sprache gültige Aussagen über das System ebendieser Sprache generell gemacht werden können.
Statische Korpora und Monitorkorpora
Statische Korpora sind abgeschlossen und werden nicht mehr erweitert, so etwa Textkorpora mit den Werken eines verstorbenen Schriftstellers, ein Korpus bestehend aus der Gesamtheit aller in einer ausgestorbenen Sprache vorhandenen schriftlichen Quellen oder ein Korpus aus den verschrifteten Aufzeichnungen von Aufnahmen eines die Sprache erwerbenden Kleinkindes (Alte Sprachen, die nur in wenigen Dokumenten oder gar nur fragmentarisch belegt sind, bezeichnet man auch als „Korpussprachen“, weil sie nur anhand dieses einen begrenzten, nicht mehr erweiterbaren Textkorpus rekonstruierbar und beschreibbar sind).
Monitorkorpora hingegen sind Textkorpora, die auf eine Erweiterung hin konzipiert sind (wie etwa Textsammlungen bestehend aus den Artikeln einer aktuellen Tageszeitung). Sie werden deshalb als Monitorkorpora bezeichnet, weil sie unter einer beständigen systematischen Beobachtung und Erfassung, einem Monitoring, stehen.
Rohkorpora und annotierte Korpora
Unter Rohkorpora versteht man Textkorpora, die rein aus den Sprachdaten bestehen, die zur Untersuchung herangezogen werden. Annotierte Korpora sind solche Textkorpora, die neben diesen Primärdaten auch zusätzliche Angaben, sogenannte Metadaten, enthalten. Diese Annotationen können sehr unterschiedlicher Art sein: Gängig sind beispielsweise Korpora, in denen für jedes einzelne Wort zusätzlich die jeweilige Wortart angegeben wird, Korpora, die Morphemglossen enthalten (wobei die Zielsprache nicht jener des Korpus entsprechen muss), oder Korpora, die mit Angaben betreffend die Syntax der einzelnen Sätze versehen sind (Letztere werden – analog zum Ausdruck „Datenbank“ – auch als „Baumbanken“ bezeichnet, da in ihnen sogenannte syntaktische Baumstrukturen annotiert sind). Textkorpora bestehend aus Daten der gesprochenen Sprache sind häufig mit phonologischen Daten angereichert. Zu den Metadaten eines Textkorpus zählen auch Angaben über den Zeitpunkt der Textentstehung, über die Autorenschaft, über die Korpuserstellung u. a. m.
Annotierte Korpora bieten gerade für Fragestellungen der theoretischen Linguistik oder der Computerlinguistik grundsätzlich verbesserte Forschungsmöglichkeiten. Jedoch ist die Annotation gerade von umfangreicheren Textkorpora verhältnismäßig aufwändig und demzufolge kostenintensiv, sodass gerade die großen Referenzkorpora nur zum Teil mit Annotationen versehen sind.
Einsprachige und mehrsprachige Korpora
Einsprachige Korpora erlauben Aussagen über die jeweilige Einzelsprache. Mehrsprachige Korpora enthalten Texte aus mehrheitlich zwei, gegebenenfalls mehreren Sprachen. Entweder sind dabei die Texte in der zweiten Sprache eine Übersetzung der Texte der ersten Sprache – man bezeichnet solche Fälle als „Parallelkorpora“ – oder das Korpus der zweiten Sprache besteht im selben Ausmaß aus denselben Textsorten wie das Korpus der ersten Sprache (z. B. Zeitungsartikel zu denselben Themen).
Mehrsprachige Korpora spielen hauptsächlich für die maschinelle Übersetzung und für die Sprachlehrforschung eine Rolle. Dabei ist die automatische oder statistische Analyse z. B. der Häufigkeit und Verteilung von bestimmten Wörtern innerhalb einzelner Sprachen für die automatische Erstellung eines zweisprachigen Wörterbuches hilfreich.
Einige Funktionen eines mehrsprachigen Textkorpus, ohne tatsächlich ein solches zu sein, übernimmt oftmals die Bibel, weil sie auch in kleineren, weniger oft gesprochenen Sprachen vorliegt. Daher ist sie nicht nur für sprachwissenschaftliche Vergleichszwecke dienlich, sondern auch in der Bibelwissenschaft beispielsweise in Bezug auf die Erforschung der Übersetzungsgewohnheiten und auf die Erfassung biblischer Begriffe von großer Bedeutung.
Textkorpora in der Sprachwissenschaft
Textkorpora bieten die Möglichkeit, das System einer Sprache und deren Gebrauch anhand von tatsächlich geäußerten Sprachdaten in verschiedener Hinsicht zu untersuchen. Der Begriff „Korpus“ im Sinne einer Zusammenstellung von Sprachdaten, um aufgrund dieser Stichproben allgemeine Aussagen zu treffen, wird in verschiedenen Disziplinen der Sprachwissenschaft schon seit Jahrzehnten verwendet.
Linguistische Teilbereiche, die Textkorpora als ihren direkten Gegenstandsbereich haben, sind die Korpuslinguistik und die Computerlinguistik. Hier werden möglichst große Korpora ausgewertet, um allgemeine Aussagen über eine Sprache treffen zu können. Beispiele für den Einsatz von Korpora in der Korpuslinguistik sind etwa das Bestimmen von Wortbedeutungen anhand von Konkordanzen (also anhand von Belegstellen in konkreten Texten), das Eruieren von Kollokationen (also von gemeinsamem Auftreten eines Wortes mit bestimmten anderen Wörtern). Komplexere Aufgaben sind dann das Herausfiltern von syntaktischen Konstruktionen. Im Bereich der Computerlinguistik und mathematischen Linguistik sind auch Worthäufigkeiten und Wortverteilungen in Texten, Wortkollokationen oder Satz- und Wortlängen und Ähnliches von Interesse. Im sprachwissenschaftlichen Teilgebiet der Diskursanalyse werden Textkorpora unterschiedlicher Größe vornehmlich aus dem öffentlichen Sprachbereich (Politik, Medien) herangezogen, um aus solchen Sprachdaten Rückschlüsse auf latent vorhandene Einstellungen und Haltungen einer gesellschaftlichen Gruppierung zu bestimmten Dingen und Sachverhalten herauszufinden oder deren Verständnis von bestimmten Begriffen ausfindig zu machen.
Zwar stellt auch das World Wide Web eine Sammlung konkret verwendeter Sprache dar, es ist jedoch nach sprachwissenschaftlichem Verständnis nicht als Textkorpus im eigentlichen Sinne zu betrachten. Dennoch wird es unter gewissen Einschränkungen für bestimmte Fragestellungen mit entsprechender Vorsicht genutzt. Beispielsweise wurden neben verschiedenen gedruckten Texten auch regionale Websites im Rahmen der Erstellung des Variantenwörterbuchs des Deutschen herangezogen.
Referenzkorpora von Einzelsprachen
Zur Beschreibung nationaler Sprachen oder sprachlicher Varietäten werden umfangreiche Textkorpora erstellt, die heute sehr häufig auch online nutzbar sind. In letzteren Fällen ist die dazu benötigte Analysesoftware bereits im World Wide Web implementiert und kann von den Nutzern, ohne ein solches Programm auf dem eigenen PC installieren zu müssen, angewendet werden.
Das erste Textkorpus in einer nationalen Sprachvarietät war das bereits in den 1960er Jahren erstellte und vollständig nach 80 definierten Wortarten annotierte Brown Corpus, welches das zeitgenössische amerikanische Englisch repräsentieren sollte. (Der Name leitet sich von der Brown University in Providence im US-Bundesstaat Rhode Island her, an der das Korpus erstellt wurde.) Es umfasst 1 Million Wörter und setzt sich aus 500 Textauszügen zu je 2000 Wörtern zusammen, wobei Texte aus 15 unterschiedlichen Textsorten (verschiedene Zeitungs- und literarische Textsorten, religiöse Texte, Fachliteratur etc.) herangezogen wurden. Die Ansicht, dass ein Textsample in der Größe von 2.000 Wörtern die Textsorte für ein Textkorpus repräsentativ abbildet, gilt bis heute. Das Brown Corpus diente als Grundlage für das American Heritage Dictionary, das erste Wörterbuch, das ausschließlich auf Basis eines derartigen Korpus erstellt wurde. Dem Brown Corpus folgte unter anderem in den 1980er Jahren das ebenfalls vollständig annotierte Lancaster-Oslo-Bergen-Corpus (kurz: LOB Corpus), welches nach dem Vorbild des Brown Corpus aus Texten im britischen Englisch besteht.
Heute sind für das Englische unter anderem das British National Corpus (BNC), das American National Corpus und das International Corpus of English (mit Texten aus unterschiedlichen englischsprachigen Ländern) von Bedeutung.
Als das derzeit umfangreichste Korpus des Deutschen gilt das am Leibniz-Institut für Deutsche Sprache in Mannheim zusammengestellte Deutsche Referenzkorpus, das aus über 43 Milliarden Wörtern (Stand März 2019) aus geschriebener Sprache besteht und grundsätzlich allen zur Benutzung offensteht.
Im Rahmen des Forschungsprojekts „Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts“ wurde das größte ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts bereitgestellt. Außerdem finden sich dort weitere Korpora, so etwa die kompletten Online-Archive der Zeitschrift „Die Zeit“ (ab 1996), des „Tagesspiegels“ (ab 1996) und der „Potsdamer Neuesten Nachrichten“ sowie ein großes Korpus jüdischer Periodika (Germania Judaica). Die Korpora sind verknüpft mit einem großen einsprachigen deutschen Wörterbuch, dem Wörterbuch der deutschen Gegenwartssprache. Bei der Abfrage eines Stichwortes werden dabei nicht nur die Konkordanzen, sondern auch Informationen zu Synonymen, Hyponymen, Hyperonymen und Kollokationen generiert.
In der Abteilung Automatische Sprachverarbeitung der Universität Leipzig arbeitet man ebenfalls an und mit großen Korpora und pflegt unter anderem ein Korpus im Umfang von rund 1,5 Mrd. Wörtern (rund 100 Mio. Sätze). Die statistischen Daten eines reduzierten Korpus sind auch online im Wortschatz-Portal der Universität Leipzig abfragbar.
Des Weiteren gibt es seit 2010 ein online zugängliches Schweizer Textkorpus für die Standardsprache in der deutschen Schweiz. Es wurde an der Universität Basel erarbeitet und wird seit 2014 vom Schweizerischen Idiotikon gepflegt und aktualisiert. Derzeit (Stand 2021) wird es durch ein schweizerdeutsches Mundartkorpus ergänzt.
Auch in sehr vielen anderen Nationalsprachen existieren heute große Korpora. Das gilt nicht nur für den indogermanischen Sprachraum, sondern auch für andere sprecherreiche Sprachen, besonders im asiatischen Raum. Aber auch kleinere Sprachen Asiens und Afrikas werden in Form von Textarchiven oder weniger umfangreichen annotierten Textkorpora dokumentiert.
Spezielle Textkorpora
Neben den großen Referenzkorpora existiert eine immer größer werdende Anzahl von Textsammlungen, die nicht nur unter der Bezeichnung „Korpus“, sondern auch als „(Text)archive“ oder unter dem Stichwort „Datenbank“ zu finden sind. Darunter gibt es beispielsweise Dialektkorpora oder Korpora gesprochener Sprache, wie sie beispielsweise im Bayerischen Archiv für Sprachsignale und am Archiv für gesprochenes Deutsch vorliegen. Eine andere Art von Spezialkorpora sind Textgesamtausgaben wie zum Beispiel das an der Österreichischen Akademie der Wissenschaften erstellte Austrian Academy Corpus, das die Gesamtausgaben der essayistischen Zeitschriften „Die Fackel“ und „Der Brenner“ umfasst.
Besonders für die Psycholinguistik und die Klinische Linguistik ist zur Erforschung des normalen und auch des gestörten Spracherwerbs von Kindern die Datenbank „CHILDES“ von Bedeutung, in welchem Transkripte von gesprochener Kindersprache in umfangreichem Maße vorliegen.
Im Rahmen groß angelegter Projekte zur Digitalisierung alter Buchbestände werden immer mehr Lexika, Wörterbücher, Enzyklopädien und literarische Werke erfasst und online zur Verfügung gestellt. Darunter finden sich Unternehmungen wie etwa das „Deutsche Textarchiv“, das eine umfassende Auswahl an historischen Texten aus mehreren Jahrhunderten bereitstellen möchte. Derartige Textsammlungen bieten im optimalen Fall eine kostenlose, online durchführbare Volltextsuche im gesamten Bestand. Jedoch besteht in solchen Fällen häufig nicht die Möglichkeit, diese Texte für sprachwissenschaftliche Zwecke auf dieselbe bequeme Weise zu nutzen, wie speziell dafür konzipierte Korpora, da die Suchsoftware nicht danach ausgelegt ist.
Ein weiteres spezielles Korpus ist das Google Books Korpus, dessen Rohdaten von jedermann online mit dem Google Books Ngram Viewer in Form von Diagrammen zu Zeichen- oder Worthäufigkeiten ausgewertet werden kann.
Literatur
- Deutsches Institut f. Normung e. V. (Hrsg.): Aufbau und Nutzung von Terminologie-Datenbanken und Textkorpora. Deutsche Übersetzung des internationalen Fachbereichs ISO/TR 12618, erstellt im NA Terminologie. 1. Auflage. Berlin/Wien/Zürich 1997.
- Paul Baker: Using Corpora in Discourse Analysis. Continuum, London / New York 2009, ISBN 978-0-8264-7724-8.
- Reinhard Fiehler, Peter Wagener: Die Datenbank Gesprochenes Deutsch (DGD) – Sammlung, Dokumentation, Archivierung und Untersuchung gesprochener Sprache als Aufgabe der Sprachwissenschaft. In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion. 6 (2005), S. 136–147 (www.gespraechsforschung-ozs.de).
- Hagen Hirschmann: Korpuslinguistik. Eine Einführung. Metzler, Stuttgart 2019, ISBN 978-3-476-05493-7.
- Werner Kallmeyer, Gisela Zifonun (Hrsg.): Sprachkorpora – Datenmengen und Erkenntnisfortschritt. de Gruyter, Berlin/New York 2007. (=IDS Jahrbuch 2006).
- Lothar Lemnitzer, Heike Zinsmeister: Korpuslinguistik. Eine Einführung. Gunther Narr Verlag, Tübingen 2006 (= Narr Studienbücher).
- Wilfried Lenders, Gerd Willée: Linguistische Datenverarbeitung – Ein Lehrbuch. Westdeutscher Verlag, Opladen/Wiesbaden 1998.
- Anton Näf, Rolf Duffner (Hrsg.): Korpuslinguistik im Zeitalter der Textdatenbanken (= Linguistik online. Band 28, Nr. 3). 1. Juli 2006 (bop.unibe.ch [abgerufen am 13. April 2020]).
- Rainer Perkuhn, Holger Keibel, Marc Kupietz: Korpuslinguistik. Fink, Paderborn 2012, ISBN 978-3-8252-3433-1.
- Carmen Scherer: Korpuslinguistik. Winter, Heidelberg 2006, ISBN 3-8253-5164-5.
- Thomas Schmidt: Datenarchive für die Gesprächsforschung: Perspektiven, Probleme und Lösungsansätze. In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion. 6 (2005). S. 103–126. (www.gespraechsforschung-ozs.de).
- P. Wagener, K.-H. Bausch (Hrsg.) (1997): Tonaufnahmen des gesprochenen Deutsch. Dokumentation der Bestände von sprachwissenschaftlichen Forschungsprojekten und Archiven. Niemeyer, Tübingen 1997 (= Phonai Band 40).
Weblinks
- Digitales Wörterbuch der deutschen Sprache Online-Recherche im DWDS-Corpus und dem Wörterbuch der Deutschen Gegenwartssprache
- Deutsches Textarchiv (DTA) Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache
- COSMAS II Recherche- und Analysesystem zum Deutschen Referenzkorpus und anderen schriftsprachlichen Korpora am Leibniz-Institut für Deutsche Sprache (IDS)
- Archiv für Gesprochenes Deutsch Forschungsdatenzentrum für Korpora des gesprochenen Deutsch am Leibniz-Institut für Deutsche Sprache (IDS)
- Projekt Deutscher Wortschatz Online-Recherche
- Schweizer Textkorpus Online-Recherche
- Universität Hamburg Sammlung von Korpora des Sonderforschungsbereichs 538 „Mehrsprachigkeit“
- Bayerisches Archiv für Sprachsignale Sammlung von Korpora gesprochener Sprache und deren Beschreibung
Einzelnachweise
- Einen diesbezüglichen Überblick bietet zum Beispiel die Einführung in die Korpuslinguistik von Scherer (2006).
- So etwa in einer phonetischen Studie: „… our corpus consisted of monosyllabic words spoken in isolation by two males and one female.“ (dt.: „… bestand unser Korpus aus einsilbigen Wörtern, die von zwei männlichen und einer weiblichen Person unter Isolationsbedingungen gesprochen worden sind.“) (M. Halle, G. W. Hughes, J.-P. A. Radley: Acoustic Properties of Stop Consonants, Journal of the Acoustical Society of America, Vol. 20 (1967); abgedruckt in: Ilse Lehiste (ed.): Readings in Acoustic Phonetics, second printing, MIT Press, Cambridge (Mass.) 1969, ISBN 0-262-12025-9, S. 171.)
- So untersucht etwa Noah Bubenhofer exemplarisch, wie Namen für Ethnien oder der Begriff „Terrorismus“ in der „Neuen Zürcher Zeitung“ tatsächlich verwendet wird. (Noah Bubenhofer: Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. de Gruyter, Berlin 2009, ISBN 978-3-11-021584-7.)
- Ruth Esterhammer: Das Variantenwörterbuch des Deutschen: Von der Idee zum fertigen Produkt. In: Rudolf Muhr, Manfred B. Sellner (Hrsg.): Zehn Jahre Forschung zum Österreichischen Deutsch: 1995–2005. Eine Bilanz. Peter Lang, Frankfurt am Main 2006, ISBN 3-631-55450-8, S. 65–78.
- Das Deutsche Referenzkorpus – DeReKo. Ausbau und Pflege der Korpora geschriebener Gegenwartssprache. In: Digitale Sprachwissenschaft. Institut für Deutsche Sprache, März 2019, abgerufen am 3. Mai 2019.
- Schweizerdeutsches Mundartkorpus.
Autor: www.NiNa.Az
Veröffentlichungsdatum:
wikipedia, wiki, deutsches, deutschland, buch, bücher, bibliothek artikel lesen, herunterladen kostenlos kostenloser herunterladen, MP3, Video, MP4, 3GP, JPG, JPEG, GIF, PNG, Bild, Musik, Lied, Film, Buch, Spiel, Spiele, Mobiltelefon, Mobil, Telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, komputer
Ein Textkorpus Neutrum Plural Textkorpora kurz auch nur Korpus oder Corpus lateinisch corpus Korper ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mundlichen Ausserungen einer bestimmten Sprache oder Textgattung AllgemeinesTextkorpora werden in unterschiedlichen wissenschaftlichen Disziplinen untersucht In der Rechtswissenschaft und Rechtsgeschichte wird als Gesetzes Korpus eine Sammlung von Rechtsquellen bezeichnet zum Beispiel das Corpus iuris civilis Es handelt sich also hier um eine gewachsene Sammlung normativer Texte In den Sprach und Literaturwissenschaften sowie historisch und sozialwissenschaftlich orientierten Fachern wie Ethnologie oder Kulturanthropologie sind Korpora ein Mittel um wissenschaftliche Aussagen mit Datenmaterial zu stutzen oder umgekehrt aus Mustern im Datenmaterial wissenschaftliche Hypothesen zu erschliessen In der Sprachwissenschaft werden Worterbucher auf Korpusdaten gestutzt und in neuerer Zeit vermehrt auch die Sprachbeschreibung in Grammatiken um so den tatsachlichen Sprachgebrauch abzubilden Korpora aus eingeschrankten Textsorten konnen dazu verhelfen die kennzeichnenden Eigenschaften einer bestimmten Sprachvarietat abzugrenzen und zu beschreiben In dieser Weise dienen Korpora auch als Quellen zur Untersuchung von Fragestellungen der Soziolinguistik In der Literaturwissenschaft werden die Werke eines bestimmten Autors oder einer Gruppe von Autoren erfasst und erforscht Fur sprachwissenschaftliche Zwecke werden in Textkorpora bestimmte Arten und Mengen von Texten aus lebenden Sprachen nach wissenschaftlichen Kriterien zusammengestellt Solche Sammlungen haben mit Aufkommen maschineller Erfassungsmoglichkeiten durch die Digitalisierung in vielen sprachwissenschaftlichen Disziplinen sehr grosse Bedeutung erlangt Hieraus entwickelte sich die neue Disziplin der Korpuslinguistik die auch ausserhalb der Linguistik z B in den Historische Hilfswissenschaften eine Rolle spielt Ein Textkorpus liegt heute typischerweise in digitaler Form vor Fur Zwecke der Sprachbeschreibung wurden fur zahlreiche Nationalsprachen grosse das heisst viele Millionen und teils mehrere Milliarden Worter umfassende Korpora erstellt die ein gewisses Verhaltnis einzelner Textsorten in der jeweiligen Sprache abbilden sollen Zudem existieren zahlreiche Spezialkorpora wie etwa Kindersprachkorpora Dialektkorpora Korpora die aus Gesamtausgaben von literarischen Werken bestehen u a m Auch werden in zunehmendem Masse fur linguistische Einzeluntersuchungen eigens konzipierte Textkorpora erstellt Arten von TextkorporaNach formalen und inhaltlichen Kriterien konnen Textkorpora in unterschiedlicher Weise kategorisiert werden In erster Linie unterscheidet man Papierkorpora und elektronische Korpora Auf Papier zusammengetragene Textkorpora waren aufwandig zu erstellen und dementsprechend selten anzutreffen Sie spielten in der Vergangenheit beispielsweise in der Worterbuchschreibung eine bedeutende Rolle da anhand dieser Sammlungen die Bedeutungen einzelner Worter ausgemacht bzw belegt wurden Fur die Nutzung der heute ublichen maschinenlesbaren Korpora ist eine spezielle Software wie beispielsweise WordSmith notwendig Etliche Korpora sind aber online zuganglich und ohne solche Software auf dem eigenen PC nutzbar Teilkorpora und Referenzkorpora Teilkorpora sind solche die nur einen Ausschnitt aus dem gesamten Spektrum einer Sprache bieten wie beispielsweise Textkorpora die nur Texte aus der alltaglichen Umgangssprache oder nur Texte aus Tageszeitungen enthalten Ein Referenzkorpus ist ein Textkorpus das nach linguistischen Kriterien eine einzelne Sprache also das Deutsche das Englische usw in ihrer Gesamtheit dergestalt reprasentativ erfassen soll dass anhand eines Referenzkorpus einer bestimmten Sprache gultige Aussagen uber das System ebendieser Sprache generell gemacht werden konnen Statische Korpora und Monitorkorpora Statische Korpora sind abgeschlossen und werden nicht mehr erweitert so etwa Textkorpora mit den Werken eines verstorbenen Schriftstellers ein Korpus bestehend aus der Gesamtheit aller in einer ausgestorbenen Sprache vorhandenen schriftlichen Quellen oder ein Korpus aus den verschrifteten Aufzeichnungen von Aufnahmen eines die Sprache erwerbenden Kleinkindes Alte Sprachen die nur in wenigen Dokumenten oder gar nur fragmentarisch belegt sind bezeichnet man auch als Korpussprachen weil sie nur anhand dieses einen begrenzten nicht mehr erweiterbaren Textkorpus rekonstruierbar und beschreibbar sind Monitorkorpora hingegen sind Textkorpora die auf eine Erweiterung hin konzipiert sind wie etwa Textsammlungen bestehend aus den Artikeln einer aktuellen Tageszeitung Sie werden deshalb als Monitorkorpora bezeichnet weil sie unter einer bestandigen systematischen Beobachtung und Erfassung einem Monitoring stehen Rohkorpora und annotierte Korpora Unter Rohkorpora versteht man Textkorpora die rein aus den Sprachdaten bestehen die zur Untersuchung herangezogen werden Annotierte Korpora sind solche Textkorpora die neben diesen Primardaten auch zusatzliche Angaben sogenannte Metadaten enthalten Diese Annotationen konnen sehr unterschiedlicher Art sein Gangig sind beispielsweise Korpora in denen fur jedes einzelne Wort zusatzlich die jeweilige Wortart angegeben wird Korpora die Morphemglossen enthalten wobei die Zielsprache nicht jener des Korpus entsprechen muss oder Korpora die mit Angaben betreffend die Syntax der einzelnen Satze versehen sind Letztere werden analog zum Ausdruck Datenbank auch als Baumbanken bezeichnet da in ihnen sogenannte syntaktische Baumstrukturen annotiert sind Textkorpora bestehend aus Daten der gesprochenen Sprache sind haufig mit phonologischen Daten angereichert Zu den Metadaten eines Textkorpus zahlen auch Angaben uber den Zeitpunkt der Textentstehung uber die Autorenschaft uber die Korpuserstellung u a m Annotierte Korpora bieten gerade fur Fragestellungen der theoretischen Linguistik oder der Computerlinguistik grundsatzlich verbesserte Forschungsmoglichkeiten Jedoch ist die Annotation gerade von umfangreicheren Textkorpora verhaltnismassig aufwandig und demzufolge kostenintensiv sodass gerade die grossen Referenzkorpora nur zum Teil mit Annotationen versehen sind Einsprachige und mehrsprachige Korpora Einsprachige Korpora erlauben Aussagen uber die jeweilige Einzelsprache Mehrsprachige Korpora enthalten Texte aus mehrheitlich zwei gegebenenfalls mehreren Sprachen Entweder sind dabei die Texte in der zweiten Sprache eine Ubersetzung der Texte der ersten Sprache man bezeichnet solche Falle als Parallelkorpora oder das Korpus der zweiten Sprache besteht im selben Ausmass aus denselben Textsorten wie das Korpus der ersten Sprache z B Zeitungsartikel zu denselben Themen Mehrsprachige Korpora spielen hauptsachlich fur die maschinelle Ubersetzung und fur die Sprachlehrforschung eine Rolle Dabei ist die automatische oder statistische Analyse z B der Haufigkeit und Verteilung von bestimmten Wortern innerhalb einzelner Sprachen fur die automatische Erstellung eines zweisprachigen Worterbuches hilfreich Einige Funktionen eines mehrsprachigen Textkorpus ohne tatsachlich ein solches zu sein ubernimmt oftmals die Bibel weil sie auch in kleineren weniger oft gesprochenen Sprachen vorliegt Daher ist sie nicht nur fur sprachwissenschaftliche Vergleichszwecke dienlich sondern auch in der Bibelwissenschaft beispielsweise in Bezug auf die Erforschung der Ubersetzungsgewohnheiten und auf die Erfassung biblischer Begriffe von grosser Bedeutung Textkorpora in der SprachwissenschaftTextkorpora bieten die Moglichkeit das System einer Sprache und deren Gebrauch anhand von tatsachlich geausserten Sprachdaten in verschiedener Hinsicht zu untersuchen Der Begriff Korpus im Sinne einer Zusammenstellung von Sprachdaten um aufgrund dieser Stichproben allgemeine Aussagen zu treffen wird in verschiedenen Disziplinen der Sprachwissenschaft schon seit Jahrzehnten verwendet Linguistische Teilbereiche die Textkorpora als ihren direkten Gegenstandsbereich haben sind die Korpuslinguistik und die Computerlinguistik Hier werden moglichst grosse Korpora ausgewertet um allgemeine Aussagen uber eine Sprache treffen zu konnen Beispiele fur den Einsatz von Korpora in der Korpuslinguistik sind etwa das Bestimmen von Wortbedeutungen anhand von Konkordanzen also anhand von Belegstellen in konkreten Texten das Eruieren von Kollokationen also von gemeinsamem Auftreten eines Wortes mit bestimmten anderen Wortern Komplexere Aufgaben sind dann das Herausfiltern von syntaktischen Konstruktionen Im Bereich der Computerlinguistik und mathematischen Linguistik sind auch Worthaufigkeiten und Wortverteilungen in Texten Wortkollokationen oder Satz und Wortlangen und Ahnliches von Interesse Im sprachwissenschaftlichen Teilgebiet der Diskursanalyse werden Textkorpora unterschiedlicher Grosse vornehmlich aus dem offentlichen Sprachbereich Politik Medien herangezogen um aus solchen Sprachdaten Ruckschlusse auf latent vorhandene Einstellungen und Haltungen einer gesellschaftlichen Gruppierung zu bestimmten Dingen und Sachverhalten herauszufinden oder deren Verstandnis von bestimmten Begriffen ausfindig zu machen Zwar stellt auch das World Wide Web eine Sammlung konkret verwendeter Sprache dar es ist jedoch nach sprachwissenschaftlichem Verstandnis nicht als Textkorpus im eigentlichen Sinne zu betrachten Dennoch wird es unter gewissen Einschrankungen fur bestimmte Fragestellungen mit entsprechender Vorsicht genutzt Beispielsweise wurden neben verschiedenen gedruckten Texten auch regionale Websites im Rahmen der Erstellung des Variantenworterbuchs des Deutschen herangezogen Referenzkorpora von EinzelsprachenZur Beschreibung nationaler Sprachen oder sprachlicher Varietaten werden umfangreiche Textkorpora erstellt die heute sehr haufig auch online nutzbar sind In letzteren Fallen ist die dazu benotigte Analysesoftware bereits im World Wide Web implementiert und kann von den Nutzern ohne ein solches Programm auf dem eigenen PC installieren zu mussen angewendet werden Das erste Textkorpus in einer nationalen Sprachvarietat war das bereits in den 1960er Jahren erstellte und vollstandig nach 80 definierten Wortarten annotierte Brown Corpus welches das zeitgenossische amerikanische Englisch reprasentieren sollte Der Name leitet sich von der Brown University in Providence im US Bundesstaat Rhode Island her an der das Korpus erstellt wurde Es umfasst 1 Million Worter und setzt sich aus 500 Textauszugen zu je 2000 Wortern zusammen wobei Texte aus 15 unterschiedlichen Textsorten verschiedene Zeitungs und literarische Textsorten religiose Texte Fachliteratur etc herangezogen wurden Die Ansicht dass ein Textsample in der Grosse von 2 000 Wortern die Textsorte fur ein Textkorpus reprasentativ abbildet gilt bis heute Das Brown Corpus diente als Grundlage fur das American Heritage Dictionary das erste Worterbuch das ausschliesslich auf Basis eines derartigen Korpus erstellt wurde Dem Brown Corpus folgte unter anderem in den 1980er Jahren das ebenfalls vollstandig annotierte Lancaster Oslo Bergen Corpus kurz LOB Corpus welches nach dem Vorbild des Brown Corpus aus Texten im britischen Englisch besteht Heute sind fur das Englische unter anderem das British National Corpus BNC das American National Corpus und das International Corpus of English mit Texten aus unterschiedlichen englischsprachigen Landern von Bedeutung Als das derzeit umfangreichste Korpus des Deutschen gilt das am Leibniz Institut fur Deutsche Sprache in Mannheim zusammengestellte Deutsche Referenzkorpus das aus uber 43 Milliarden Wortern Stand Marz 2019 aus geschriebener Sprache besteht und grundsatzlich allen zur Benutzung offensteht Im Rahmen des Forschungsprojekts Digitales Worterbuch der deutschen Sprache des 20 Jahrhunderts wurde das grosste ausgewogene Textkorpus der deutschen Sprache des 20 Jahrhunderts bereitgestellt Ausserdem finden sich dort weitere Korpora so etwa die kompletten Online Archive der Zeitschrift Die Zeit ab 1996 des Tagesspiegels ab 1996 und der Potsdamer Neuesten Nachrichten sowie ein grosses Korpus judischer Periodika Germania Judaica Die Korpora sind verknupft mit einem grossen einsprachigen deutschen Worterbuch dem Worterbuch der deutschen Gegenwartssprache Bei der Abfrage eines Stichwortes werden dabei nicht nur die Konkordanzen sondern auch Informationen zu Synonymen Hyponymen Hyperonymen und Kollokationen generiert In der Abteilung Automatische Sprachverarbeitung der Universitat Leipzig arbeitet man ebenfalls an und mit grossen Korpora und pflegt unter anderem ein Korpus im Umfang von rund 1 5 Mrd Wortern rund 100 Mio Satze Die statistischen Daten eines reduzierten Korpus sind auch online im Wortschatz Portal der Universitat Leipzig abfragbar Des Weiteren gibt es seit 2010 ein online zugangliches Schweizer Textkorpus fur die Standardsprache in der deutschen Schweiz Es wurde an der Universitat Basel erarbeitet und wird seit 2014 vom Schweizerischen Idiotikon gepflegt und aktualisiert Derzeit Stand 2021 wird es durch ein schweizerdeutsches Mundartkorpus erganzt Auch in sehr vielen anderen Nationalsprachen existieren heute grosse Korpora Das gilt nicht nur fur den indogermanischen Sprachraum sondern auch fur andere sprecherreiche Sprachen besonders im asiatischen Raum Aber auch kleinere Sprachen Asiens und Afrikas werden in Form von Textarchiven oder weniger umfangreichen annotierten Textkorpora dokumentiert Spezielle TextkorporaNeben den grossen Referenzkorpora existiert eine immer grosser werdende Anzahl von Textsammlungen die nicht nur unter der Bezeichnung Korpus sondern auch als Text archive oder unter dem Stichwort Datenbank zu finden sind Darunter gibt es beispielsweise Dialektkorpora oder Korpora gesprochener Sprache wie sie beispielsweise im Bayerischen Archiv fur Sprachsignale und am Archiv fur gesprochenes Deutsch vorliegen Eine andere Art von Spezialkorpora sind Textgesamtausgaben wie zum Beispiel das an der Osterreichischen Akademie der Wissenschaften erstellte Austrian Academy Corpus das die Gesamtausgaben der essayistischen Zeitschriften Die Fackel und Der Brenner umfasst Besonders fur die Psycholinguistik und die Klinische Linguistik ist zur Erforschung des normalen und auch des gestorten Spracherwerbs von Kindern die Datenbank CHILDES von Bedeutung in welchem Transkripte von gesprochener Kindersprache in umfangreichem Masse vorliegen Im Rahmen gross angelegter Projekte zur Digitalisierung alter Buchbestande werden immer mehr Lexika Worterbucher Enzyklopadien und literarische Werke erfasst und online zur Verfugung gestellt Darunter finden sich Unternehmungen wie etwa das Deutsche Textarchiv das eine umfassende Auswahl an historischen Texten aus mehreren Jahrhunderten bereitstellen mochte Derartige Textsammlungen bieten im optimalen Fall eine kostenlose online durchfuhrbare Volltextsuche im gesamten Bestand Jedoch besteht in solchen Fallen haufig nicht die Moglichkeit diese Texte fur sprachwissenschaftliche Zwecke auf dieselbe bequeme Weise zu nutzen wie speziell dafur konzipierte Korpora da die Suchsoftware nicht danach ausgelegt ist Ein weiteres spezielles Korpus ist das Google Books Korpus dessen Rohdaten von jedermann online mit dem Google Books Ngram Viewer in Form von Diagrammen zu Zeichen oder Worthaufigkeiten ausgewertet werden kann Siehe auch Canterbury CorpusLiteraturDeutsches Institut f Normung e V Hrsg Aufbau und Nutzung von Terminologie Datenbanken und Textkorpora Deutsche Ubersetzung des internationalen Fachbereichs ISO TR 12618 erstellt im NA Terminologie 1 Auflage Berlin Wien Zurich 1997 Paul Baker Using Corpora in Discourse Analysis Continuum London New York 2009 ISBN 978 0 8264 7724 8 Reinhard Fiehler Peter Wagener Die Datenbank Gesprochenes Deutsch DGD Sammlung Dokumentation Archivierung und Untersuchung gesprochener Sprache als Aufgabe der Sprachwissenschaft In Gesprachsforschung Online Zeitschrift zur verbalen Interaktion 6 2005 S 136 147 www gespraechsforschung ozs de Hagen Hirschmann Korpuslinguistik Eine Einfuhrung Metzler Stuttgart 2019 ISBN 978 3 476 05493 7 Werner Kallmeyer Gisela Zifonun Hrsg Sprachkorpora Datenmengen und Erkenntnisfortschritt de Gruyter Berlin New York 2007 IDS Jahrbuch 2006 Lothar Lemnitzer Heike Zinsmeister Korpuslinguistik Eine Einfuhrung Gunther Narr Verlag Tubingen 2006 Narr Studienbucher Wilfried Lenders Gerd Willee Linguistische Datenverarbeitung Ein Lehrbuch Westdeutscher Verlag Opladen Wiesbaden 1998 Anton Naf Rolf Duffner Hrsg Korpuslinguistik im Zeitalter der Textdatenbanken Linguistik online Band 28 Nr 3 1 Juli 2006 bop unibe ch abgerufen am 13 April 2020 Rainer Perkuhn Holger Keibel Marc Kupietz Korpuslinguistik Fink Paderborn 2012 ISBN 978 3 8252 3433 1 Carmen Scherer Korpuslinguistik Winter Heidelberg 2006 ISBN 3 8253 5164 5 Thomas Schmidt Datenarchive fur die Gesprachsforschung Perspektiven Probleme und Losungsansatze In Gesprachsforschung Online Zeitschrift zur verbalen Interaktion 6 2005 S 103 126 www gespraechsforschung ozs de P Wagener K H Bausch Hrsg 1997 Tonaufnahmen des gesprochenen Deutsch Dokumentation der Bestande von sprachwissenschaftlichen Forschungsprojekten und Archiven Niemeyer Tubingen 1997 Phonai Band 40 WeblinksWiktionary Textkorpus Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Digitales Worterbuch der deutschen Sprache Online Recherche im DWDS Corpus und dem Worterbuch der Deutschen Gegenwartssprache Deutsches Textarchiv DTA Grundlage fur ein Referenzkorpus der neuhochdeutschen Sprache COSMAS II Recherche und Analysesystem zum Deutschen Referenzkorpus und anderen schriftsprachlichen Korpora am Leibniz Institut fur Deutsche Sprache IDS Archiv fur Gesprochenes Deutsch Forschungsdatenzentrum fur Korpora des gesprochenen Deutsch am Leibniz Institut fur Deutsche Sprache IDS Projekt Deutscher Wortschatz Online Recherche Schweizer Textkorpus Online Recherche Universitat Hamburg Sammlung von Korpora des Sonderforschungsbereichs 538 Mehrsprachigkeit Bayerisches Archiv fur Sprachsignale Sammlung von Korpora gesprochener Sprache und deren BeschreibungEinzelnachweiseEinen diesbezuglichen Uberblick bietet zum Beispiel die Einfuhrung in die Korpuslinguistik von Scherer 2006 So etwa in einer phonetischen Studie our corpus consisted of monosyllabic words spoken in isolation by two males and one female dt bestand unser Korpus aus einsilbigen Wortern die von zwei mannlichen und einer weiblichen Person unter Isolationsbedingungen gesprochen worden sind M Halle G W Hughes J P A Radley Acoustic Properties of Stop Consonants Journal of the Acoustical Society of America Vol 20 1967 abgedruckt in Ilse Lehiste ed Readings in Acoustic Phonetics second printing MIT Press Cambridge Mass 1969 ISBN 0 262 12025 9 S 171 So untersucht etwa Noah Bubenhofer exemplarisch wie Namen fur Ethnien oder der Begriff Terrorismus in der Neuen Zurcher Zeitung tatsachlich verwendet wird Noah Bubenhofer Sprachgebrauchsmuster Korpuslinguistik als Methode der Diskurs und Kulturanalyse de Gruyter Berlin 2009 ISBN 978 3 11 021584 7 Ruth Esterhammer Das Variantenworterbuch des Deutschen Von der Idee zum fertigen Produkt In Rudolf Muhr Manfred B Sellner Hrsg Zehn Jahre Forschung zum Osterreichischen Deutsch 1995 2005 Eine Bilanz Peter Lang Frankfurt am Main 2006 ISBN 3 631 55450 8 S 65 78 Das Deutsche Referenzkorpus DeReKo Ausbau und Pflege der Korpora geschriebener Gegenwartssprache In Digitale Sprachwissenschaft Institut fur Deutsche Sprache Marz 2019 abgerufen am 3 Mai 2019 Schweizerdeutsches Mundartkorpus