CLARIN-D für Linguistische Feldforschung, Ethnologie, Sprachtypologie

CLARIN-D unterstützt die linguistische und ethnologische Feldforschung sowie die Sprachtypologie durch Services zum Auffinden von Daten zu einzelnen Sprachen und Sprachgemeinschaften sowie zur Annotation und Analyse audiovisueller Dokumentationen von Sprachgebrauch und kulturellen Praktiken. Ein besonderer Schwerpunkt liegt auf der Erstellung und der nachhaltigen Sicherung digitaler Dokumentationskorpora und typologischer Datenbanken. Mitglieder der Facharbeitsgruppe »Linguistische Feldforschung, Ethnologie, Sprachtypologie« sind Linguisten, deren Arbeitsschwerpunkt die sprachliche Diversitätsforschung ist, sowie Ethnologen und Regionalwissenschaftler, die mit audiovisuellen Daten arbeiten.

Daten für die Forschung

CLARIN stellt mit den DoBeS-Korpora die weltweit erste Sammlung an Sprachdokumentationsdaten zur Verfügung und hat hier wichtige Pionierarbeit für weitere Initiativen in diesem Feld geleistet. Die DoBeS-Korpora umfassen annotierte audiovisuelle Daten aus 68 bedrohten Sprachen und bilden die sprachliche Diversität der Welt in außergewöhnlich umfassender typologischer und geografischer Breite ab. Weitere Sammlungen mit ähnlicher Zielrichtung und Struktur sind in den CLARIN-D-Standorten Hamburg und Köln im Aufbau.

Darüber hinaus werden in CLARIN viele verschiedene Ressourcen für die Ethnologie und insbesondere die Sprachtypologie bereitgestellt und auffindbar gemacht. Über das Virtual Language Observatory (VLO) haben Forschende Zugriff auf eine Vielzahl von Ressourcen für ihre Forschung. So können zum Beispiel über das VLO jeweils mehr als eintausend Ressourcen zum Yuracaré, einem Sprachisolat im bolivianschen Amazonas, oder zum Beaver, einer athapaskischen Sprache Kanadas, gefunden werden. Durch seine mächtige und intuitive facettierte Suche ist das VLO ein hervorragender Startpunkt für die Suche nach Ressourcen zu spezifischen, weniger gut beschriebenen Sprachen.

→ Mehr zum Thema »Auffinden«

Softwarewerkzeuge für Forschungsprojekte

CLARIN-D stellt einige relevante Werkzeuge und Dienste zur Analyse und Aufbereitung von Sprachdaten bereit.

CMDI-Maker
CMDI-Maker ermöglicht die schnelle und einfache Erstellung von Metadaten im IMDI- und für die Sprachdokumentation relevanten CMDI-Formaten zur Archivierung dieser Daten in Spracharchiven und anderen Repositorien.

ELAN
ELAN ist ein zentrales Werkzeug für die Sprachdokumentation und andere Bereiche der Linguistik, die mit audiovisuellen Daten arbeiten. ELAN ermöglicht es Forschenden zeitalignierte Transkriptionen und andere Annotationen zu erstellen. ELAN kann auch Dateiformate aus Glossierungswerkzeugen wie Toolbox oder FLEx importieren.

EXMARaLDA
EXMARaLDA ist ein System von Werkzeugen und Formaten für die Arbeit mit audiovisuellen Korpora. Der Transkriptions- und Annotationseditor ist mit anderen Transkriptionswerkzeugen interoperabel und erlaubt neben der manuellen auch die automatische Annotation durch WebMAUS oder Webservices in WebLicht, sowie die Ausgabe/Visualisierung der audiovisuellen und Transkriptionsdaten in verschiedenen Formaten und Layouts. Neben dem Partitur-Editor bietet das System Desktopwerkzeuge für das Korpus- und Metadatenmanagmenet (Coma), sowie für die Suche in und Analyse von Transkriptions-, Annotations- und Metadaten (EXAKT).

Poio API
Poio API ist eine freie und quelloffene Python-Bibliothek, die den Zugriff und die Analyse von Daten aus der Sprachdokumentation erlaubt. Poio API konvertiert Dateiformate wie Elans EAF, Toolbox-Dateien, Typecraft-XML und weitere Formate zu Annotationsgraphen wie sie in ISO 24612 definiert werden. Diese Graphen erlauben einen einheitlichen Zugriff auf linguistische Daten aus einer Vielzahl an Quellen.

WebMAUS
WebMAUS ist ein Webservice der die automatische phon-genaue Alignierung von Annotationen ermöglicht. Auf WebMAUS kann nicht nur über das Web-Interface sondern auch aus den Annotationswerkzeugen ELAN und EXMARaLDA heraus zugegriffen werden.

→ Mehr zum Thema »Auswerten«

Eigene Forschungsdaten bereitstellen

Neben Tools zur Analyse von Sprachdaten erlaubt das CLARIN-Netzwerk, eigene Daten nachhaltig zu archivieren und der Fachgemeinschaft zur Weiternutzung verfügbar zu machen. In Kooperation mit einem CLARIN-Zentrum kann man seine Daten so aufbereiten, dass sie gut mit Metadaten beschrieben sind. Ein Werkzeug zur Beschreibung von Daten ist etwa der CMDI-Maker zur einfachen Erzeugung von Beschreibungen, durch die Ihre eigenen Daten und Forschungsergebnisse der Fachcommunity leicht mit Hilfe spezieller Suchmaschinen gefunden werden können.

Haben Sie Interesse Ihre Daten in der CLARIN-D Infrastruktur unterzubringen? Setzen Sie sich mit dem zuständigen Zentrum in Verbindung oder wenden Sie sich an den CLARIN-D Helpdesk.

→ Mehr zum Thema "Aufbereiten und Aufbewahren"

Nutzungsszenario

Ein Beispiel für die Nutzung der CLARIN-D Tools ist das MultiCAST. Mit Hilfe von ELAN wurden die audiovisuellen Daten transkribiert, übersetzt und annotiert. Das für dieses Projekt entwickelte Annotationsschema GRAID definiert einen Tier zur Analyse der Daten und benutzt damit die sehr flexible Ebenenstruktur von Annotationen in ELAN. Um das Korpus langfristig sichern und veröffentlichen zu können, wurden die einzelnen Daten mit Hilfe von CMDI-Maker mit Metadaten beschrieben. Die Analyse der MultiCAST GRAID-Annotationen erbrachte wichtige neue Erkenntnisse in die Diskursgrundlage von Ergativität. Die Ergebnisse dieser Analyse wurden als Haig & Schnell (2016) veröffentlicht und die Daten sind im Language Archive Cologne offen zugänglich.

CLARIN Zentren

Das Hamburger Zentrum für Sprachkorpora (HZSK) betreut die F3 »Linguistische Feldforschung, Ethnologie, Sprachtypologie« seit Oktober 2016. Das HZSK bietet sowohl Unterstützung im Bereich der Erstellung und Auswertung digitaler Sprachressourcen als auch die Möglichkeit, Sprachkorpora über das HZSK-Repositorium nachhaltig verfügbar zu machen. Die F3 arbeitet zurzeit insbesondere im Bereich der Werkzeuge und Workflows eng mit dem HZSK zusammen.

Das CLARIN-Zentrum am Max Planck Institute for Psycholinguistics stellt durch The Language Archive mehrere für die F3 zentrale Daten, Werkzeuge und Dienste bereit.

Das im Herbst 2017 eingerichtete CLARIN Knowledge Centre »Linguistic Diversity and Language Documentation« (CKLD) ist eine Zusammenarbeit von Institutionen an den Universitäten London, Köln und Hamburg. Als K Centre bietet diese Einrichtung Beratung und Unterstützung für Forschungsvorhaben im Bereich der Sprachdokumentation und Sprachtypologie.

Mitglieder

Alexandre Arkhipov, Universität Hamburg, Institut für Finnougristik/Uralistik
Peter Bouda MA, Interdisciplinary Centre for Social and Language Documentation, Minde Portugal.
Dr. Michael Cysouw, Philipps-Universität Marburg, Forschungszentrum Deutscher Sprachatlas
PD Dr. Sebastian Drude, Vigdísarstofnun, Reykjavík
Dr. Volker Gast, Friedrich-Schiller-Universität Jena, Department of English and American Studies
Dr. Geoffrey Haig, Universität Bamberg, Institut für Orientalistik
Dagmar Jung, Universität Zürich, ACQDIV Projekt
Dr. Johann-Mattis List, Max Planck Institute for the Science of Human History, Jena
Sebastian Nordhoff, Freie Universität Berlin, Arbeitsgruppe Deutsche Grammatik und Allgemeine Sprachwissenschaft
Kilu von Prince, Humboldt-Universität zu Berlin, Institut für deutsche Sprache und Linguistik
Michael Rießler, Universität Freiburg, Skandinavisches Seminar
Dr. Elena Skribnik, Ludwig-Maximilians-Universität München, Institut für Finnougristik / Uralistik
Sabine Stoll, Universität Zürich, Psycholinguistisches Laboratorium
Dr. Beáta Wagner-Nagy, Universität Hamburg, Institut für Finnougristik/Uralistik
Claudia Wegener, Universität zu Köln, Institut für Linguistik
Dr. Thomas Widlok, Universität zu Köln, Institut für Afrikanistik und Ägyptologie
Taras Zakharko MA, Universität Zürich, Institut für Vergleichende Sprachwissenschaft
Nils Schiborr, Universität Bamberg, Institut für Orientalistik
Prof. Dr. Henning Schreiber, Asien-Afrika-Institut, Universität Hamburg

Vorsitz und Kontakt

Leitung: Prof. Dr. Nikolaus P. Himmelmann, Universität zu Köln
Koordination: Felix Rau (f.rau@uni-koeln.de)

Ressourcen von der Fachgemeinschaft für die Fachgemeinschaft

Im Rahmen der Implementierungsphase von CLARIN-D wurden von den Facharbeitsgruppen wichtige Ressourcen und Werkzeuge identifiziert, weiterentwickelt und für die Fachgemeinschaft verfügbar gemacht. Diese kleinen Projekte werden in CLARIN-D als Kurationsprojekte bezeichnet.

Kurationsprojekte

Kurationsprojekt 1: Poio API – ein Framework zur Bearbeitung und Nutzung von Feldforschungsdaten in der linguistischen Forschung | Informationen zum Projekt
Kurationsprojekt 2: Field Linguistic Tool Repository | Informationen zum Projekt