Inhaltspezifische Aktionen

Corpora

 

 

Corpora

  • COW – Corpora from the web

{Corpora für mehrere Sprachen; zwischen 1 und 10 Mrd. Tokens; kann frei heruntergeladen werden}

  • DeReKo – Das Deutsche Referenzskorpus

{ca. 5.4 Mrd. Wörter; belletristische, wissenschaftliche und populärwissenschaftliche Texte; Zeitraum: Gegenwart – neuere Vergangenheit}

  • deWaC – Deutsches web-basierte Korpus von WaCKy

{1.7 Mrd. Wörter;  Web-Texte aus der .de-Domäne; lemmatisiert und POS-annotiert; kann frei heruntergeladen werden}

{digitale Version der Zeitschrift „Polytechnisches Journal“; Zeitraum: 1820-1931; alle Bände;  Zeitschrift zu Technik-, Wissens- und Kulturgeschichte Europas}

{140.000 Chat-Beiträge; 1,06 Millionen Wortformen; in verschiedenen Versionen wie z.B. Basis-Corpus, Release-Corpus etc. verfügbar; das Release-Corpus kann frei herunterladen werden}

  • DTA – Das Deutsche Textarchiv

{ca. 532 Bücher, Zeitraum: von ca. 1650 bis 1900; linguistisch annotiert; online verfügbar}

  • ELRA – Catalogue of Language Resources
  • EuroParl Corpus – European Parliament Proceedings Parallel Corpus 1996-2012

{Tagungsbeiträge des Europaparlaments von 1996 bis 2012; für 21 Sprachen; ca. 50 Mio. Wörter pro Sprache}

  • Falko – Fehlerannotiertes Lernerkorpus

{mehrere Subcorpora; auf verschiedenen Ebenen annotiert; zu wissenschaftlichen Zwecken frei zugänglich; über das Suchtool ANNIS3 erreichbar}

{ca. 45 Mio. Wörter; Zeitraum: von 1700 bis etwa 1918; eine eingeschränkte Anzahl von Texten steht über COSMAS II im Internet zur Recherche frei zur Verfügung}

{Corpora in vielen Sprachen; online verfügbar}

{zufällig ausgewählte Sätze aus dem Web; in mehreren Sprachen; kann frei heruntergeladen werden}

  • NEGRA Version 2 Syntaktisch annotiertes Zeitungstextkorpus des Deutschen

{20602 Sätze; 355 096 Tokens; Zeitungstexte aus der Frankfurter Rundschau}

{N-Gram-Listen; 5.2 Mio. Bücher zwischen 1500 und 2008; in mehreren Sprachen inkl. Deutsch; kann frei heruntergeladen werden}

{alle Werke von Friedrich Nietzsche digital; frei zugänglich für Forschung und Lehre}

{42.000 Bücher; viele Formate; freier Download}

  • prometheus  Das digitale Bildarchiv für Forschung und Lehre (kostenpflichtig)

{Bildarchiv; 970 721 hochqualitative, digitalisierte Bilder aus 70 Datenbanken; Bereiche: Archäologie, Kunst- und Designgeschichte sowie Kulturwissenschaften}

  • RAG – Repertorium Academicum Germanicum

{prosopographisch orientierte Datenbank der Gelehrten des Alten Reiches; Zeitraum:

zwischen 1250 und 1550; 47.000 Personen erfasst, online abfragbar sind 32.000 Personen}


Lexikalische Ressourcen

  • DWDS – Das Digitale Wörterbuch Der Deutschen Sprache
  • WordNet – Lexikalisch-semantisches Netz der englischen Sprache
  • GermaNet – Lexikalisch-semantisches Netz der deutschen Sprache (nicht frei verfügbar)
  • WortWarte – Eine Sammlung von Neologismen


Weitere Ressourcen

  • WALS – World Atlas of Language Structures

 

zum Seitenanfang