CLARIN-D für die Sozialwissenschaften
CLARIN-D unterstützt die Arbeit mit inhaltsanalytischen Methoden für sozialwissenschaftliche Forschung durch die Bereitstellung von Services zum Auffinden von Sprachdaten, zur Analyse von großen Mengen geschriebener Texte und zur langfristigen Verfügbarmachung und Bereitstellung von Korpora und Forschungsergebnissen. Zur Unterstützung der Sozialwissenschaften durch die digitale Forschungsinfrastruktur vernetzen sich Forschende in der Sozial- und Politikwissenschaft in der F7 »Inhaltsanalytische Methoden in den Sozialwissenschaften« des CLARIN-D Projekts.
Daten für die Forschung
Über das Virtual Language Observatory (VLO), eine spezielle Suchmaschine für sprachbasierte Forschungsdaten, haben SozialwissenschaftleInnen Zugriff auf eine Vielzahl von Ressourcen für ihre Forschung, zum Beispiel Nachrichtentext-Korpora in deutscher Sprache. Parlamentsprotokolle aus deutschen Landtagen und dem Bundestag werden im Rahmen des F7-Kurationsprojektes PolMine zur Verfügung gestellt. Darüber hinaus unterstützt die Facharbeitsgruppe Bemühungen um die Zusammenstellung und Verfügbarmachung neuer Korpusquellen, wie zum Beispiel retrodigitalisierte Jahrgänge deutscher Qualitätszeitungen der letzten Jahrzehnte.
Über eine spezielle Volltextsuche, die Federated Content Search (FCS) von CLARIN-D, sind viele in der CLARIN-Gemeinschaft verfügbaren Ressourcen im Volltext durchsuchbar, etwa um Beispiele für die Verwendung bestimmter Begriffe zu finden. Gefundene Belegstellen und die zugehörigen Dokumente können für weitere Analysen als Textkorpus heruntergeladen werden.
Softwarewerkzeuge für Forschungsprojekte
CLARIN-D stellt viele Programme und Webservices zur Analyse und Aufbereitung von Sprachdaten bereit. Darunter beispielsweise WebAnno zur manuellen und halb-automatischen Annotation von Texten oder WebLicht zur automatischen Annotation von Texten mit unterschiedlichen Werkzeugen, die ganz nach Bedarf und Vorliebe miteinander kombiniert werden können.
Für PolitikwissenschaftlerInnen von besonderem Interesse ist zudem die innerhalb von CLARIN-D weiterentwickelte Software polmineR, ein R-Paket mit welchen Zugriff auf Texte und Analysewerkzeuge für deutsche Plenarprotokolle ermöglicht wird.
Eigene Forschungsdaten bereitstellen
Neben Tools zur Analyse von Sprachdaten erlaubt das CLARIN-Netzwerk, eigene Daten nachhaltig zu archivieren und der Fachgemeinschaft zur Weiternutzung verfügbar zu machen. In Kooperation mit einem CLARIN-Zentrum kann man seine Daten so aufbereiten, dass sie genau beschrieben sind. Ein Hilfsmittel zur Beschreibung von Daten ist etwa der CMDI-Maker zur einfachen Erzeugung von Beschreibungen, durch die Ihre eigenen Daten und Forschungsergebnisse für die Fachcommunity leichter auffindbar gemacht werden. Daneben ist die Archivierung der Daten selbst und deren Verfügbarmachen für andere über ein CLARIN-Zentrum möglich (ein Depositums-Vertrag sichert Datenbesitzer und archivierendes Zentrum gegenseitig ab, und auch die Lizenz zur Weiternutzung der Daten durch Dritte wird festgelegt). Schon im Vorfeld des Beginns eines Projektes unterstütz dabei ein Werkzeug zur Erstellung eines Datenmanagement-Plans.
Haben Sie Interesse Ihre Daten in der CLARIN-D Infrastruktur unterzubringen? Setzen Sie sich mit dem zuständigen Zentrum in Verbindung oder wenden Sie sich an den CLARIN-D Helpdesk. Im Fall von eigenen Datensammlungen geschriebener Sprache oder Werkzeugen dafür können Sie sich beispielsweise an das Team des Stuttgarter CLARIN-Zentrums wenden.
AnsprechpartnerInnen aus der Fachgemeinschaft
Innerhalb von CLARIN-D sind die Arbeitsgebiete in Facharbeitsgruppen (F) organisiert. Die F7 "Inhaltsanalytische Methoden in den Sozialwissenschaften" stellt sich die Aufgabe, die Vernetzung der oftmals noch isoliert voneinander stattfindenden korpuslinguistischen Forschung in den Sozialwissenschaften voranzutreiben und bestehende Anwendungsmöglichkeiten einem breiteren potentiellen Anwenderkreis bekannt zu machen.
Die Aktivitäten der Facharbeitsgruppe werden daher durch drei grundlegende Ziele strukturiert:
- Erstens sollen formelle und informelle Möglichkeiten der Vernetzung und des Austausches geschaffen werden, die es den Mitgliedern und einem offenen Netzwerk interessierter (Nachwuchs-)Forschender ermöglichen, sich eine Übersicht über den Stand der korpuslinguistischen Analyse in den Sozialwissenschaften zu verschaffen und mögliche Kooperationspartner leichter zu identifizieren
- Zweitens soll die Diffusion von Erfahrungen aus bestehenden Forschungsvorhaben und Erfolgsmodellen in der Gemeinschaft verbessert und beschleunigt werden. Dabei soll eine intensive Diskussion über Qualitätsstandards in Bezug auf die neuen korpuslinguistischen Methoden geführt werden
- Drittens sollen methodologische Desiderate von Seiten der sozialwissenschaftlichen Inhaltsanalyse identifiziert und der Bedarf an möglichen technischen Weiterentwicklungen in die computerlinguistische Forschung zurück kommuniziert werden
Mitglieder
- Eva Barlösius und Axel Philipps (Universität Hannover)
- Andreas Blätte (Universität Duisburg-Essen)
- Sebastian Haunss (Universität Bremen)
- Jeannette Hofmann (WZB Berlin)
- Christian Rauh (WZB Berlin)
- Bernd Schlipphak (Universität Münster)
- Matthias Lemke (Helmut-Schmidt-Universität/Universität der Bundeswehr Hamburg)
Vorsitz und Kontakt
- Cathleen Kantner (Universität Stuttgart)
- Gary S. Schaal (Helmut-Schmidt-Universität/Universität der Bundeswehr Hamburg)
Ressourcen von der Fachgemeinschaft für die Fachgemeinschaft
Im Rahmen der Implementierungsphase von CLARIN-D wurden von den Facharbeitsgruppen wichtige Ressourcen und Werkzeuge identifiziert, weiterentwickelt und für die Fachgemeinschaft verfügbar gemacht. Diese kleinen Projekte werden in CLARIN-D als Kurationsprojekte bezeichnet.
Für PolitikwissenschaftlerInnen mit Programmierkenntnissen von besonderem Interesse ist die innerhalb des F7- Kurationsprojekts entwickelte Software polmineR, ein R-Paket mit welchen Zugriff auf Texte und Analysewerkzeuge für deutsche Plenarprotokolle ermöglicht wird.
Im Projekt ePol wurde der Leipzig Corpus Miner (LCM) entwickelt. Der LCM ist eine Analyseinfrastruktur für Text Mining auf sehr große Dokumentkollektionen (das ePol-Korpus umfasste 3,5 Millionen Zeitungsartikel). Der Funktionsumfang umfasst unter anderem Volltextsuche, Frequenz- und Kookkurrenzanalyse, Topic Modelle und Klassifikation von Textabschnitten. Eine virtuelle Maschine steht unter hier frei zum Download zur Verfügung. Im Nachfolgeprojekt iLCM wird die Analysesoftware konsolidiert und um vielfältige Funktionen erweitert.