CLARIN-D Blog

Sprach-Analysen der Wikipedia-Korpora im DeReKo mithilfe von COSMAS II

https://youtu.be/bKw1yaf_imk

In diesem Screencast zeigt Dr. Eva Gredel von der Universität Mannheim, wie die Wikipedia-Korpora im Deutschen Referenzkorpus (DeReKo) mithilfe von COSMAS II für Sprachanalysen genutzt werden können. 

Ganz konkret geht es um eine von ihr durchgeführte Fallstudie zu itis-Kombinationen als Wortbildungsprodukte auf den Diskussionsseiten der Wikipedia.

Das Phänomen
Das Morphem itis, das in medizinischer Fachsprache für Wortbildungsprodukte zum Einsatz kommt, hat als Basiskonstituente üblicherweise Bezeichnungen für Körperteile oder Organe. Seit dem 19. und 20. Jahrhundert kamen dann weitere, gemeinssprachliche itis-Kombinationen wie Telefonitis hinzu. Auch in der Wikipedia, dass sich im 21. Jahrhundert entwickelte, tauchen in bestimmten Kontexten gemeinsprachliche itis-Kombinationen auf. 

Als Beispiele führt Dr. Gredel folgende itis-Kombinationen auf: 

-itisMFS (seit der Antike)   Rach-itis           (Nortmeyer 1987)

-itisBS (19.Jhdt.)                Dichter-itis        (Hoppe 2010)

-itisWikipedia (21.Jhdt.)    Abkürzer-itis     (Gredel 2018)
                                    Newsticker-itis
                                    Zitier-itis

Weiterlesen

COSMAS II Screencast

https://youtu.be/0pY2cSgd4kQ

In diesem Screencast wird eine Nutzungsmöglichkeit von COSMAS II gezeigt. COSMAS, das Corpus Search, Management and Analysis System, ist ein Portal für Korpusrecherchen innerhalb textueller Korpora des IDS. Als Beispiel wird die Untersuchung der Entwicklung des öffentlichen Diskurses über Geflüchtete gezeigt

Es wird im Detail gezeigt, welche Schritte für eine solche Analyse in COSMAS II vorgenommen werden müssen. So muss zunächst ein für den Forschungskontext geeignetes Teilkorpus zusammengestellt werden. Hierfür muss nach einer Anmeldung in COSMAS II ein Textarchiv ausgewählt werden. Im Screencast wird beispielsweise das Archiv für geschriebene Sprache ausgewählt. Als Textkorpus werden Texte aus der Zeitung Die Zeit zwischen 1953 und 2015 ausgewählt.

Weiterlesen

Integrationspolitik im Bundesländervergleich - Prof. Dr. Andreas Blätte - Forum CA3

https://youtu.be/m1UesOXybEY

Prof. Dr. Andreas Blätte von der Universität Duisburg-Essen beginnt seinen Vortrag auf dem Forum CA3 in Hamburg mit der Frage, ob ein Bundesintegrationsministerium geschaffen werden soll. In größerem wissenschaftlichem Kontext eingebettet lässt sich die Frage stellen, wie die Schaffung von Integrationministerien die Aufmerksamkeitsstruktur für das Thema Integration beeinflusst. 

Herr Blätte stellt folgende Thesen bezüglich der Effekte, die ein Integrationsministerium haben könnte, und für die Korpora von Nöten sind, auf: 

  • Ausdifferenzierungsthese
    Es bildet sich ein ausdifferenzierter Bereich der Integrationspolitik, andere Bereiche werden so entlastet
  • Mobilisierungsthese
    Der Integrationsminister trägt die Verantwortung dafür zu sorgen, dass die Kabinettsmitglieder ihre Aufgaben im Integrationsbereich erfüllen  
  • Mehrebeneneffekte
    Ein Land, welches ein Integrationsministerium hat, könnte eine Vorbildrolle für andere Länder und/oder den Bund bilden 
  • Leitbildthese
    Entwicklungen in größeren Bereichen, denen sich Bund und Länder nicht weiter entziehen können, und die Institutsunabhängig sind  
Weiterlesen

Semantische Annotation - Éva Mújdricza-Maydt und Dr. Richard Eckart de Castilho - Forum CA3

https://youtu.be/6vcCDvNDXz4

Éva Mújdricza-Maydt und Dr. Richard Eckart de Castilho stellen auf dem Forum CA3 in Hamburg die Ergebnisse des Kurationsprojektes 3 "Semantische Annotation für Digital Humanities", das innerhalb der F-AG 7 "Inhaltsanalytische Methoden in den Sozialwissenschaften" entstanden ist, vor. 

Das Projekt verfolgte zweierlei Ziele. Zum Einen die semantische Annotation deutscher Korpora, um diese als weiterverwendbare Ressource zur Verfügung zu stellen, und zum anderen die Optimierung des Annotationstools WebAnno für Aufgaben innerhalb und außerhalb des linguistischen Kontextes. 

Weiterlesen

Web-MAUS Evaluation und Dokumentation eines Integrationsprozesses anhand des ICE-Scotland Corpus - Simon Betz - Forum CA3

https://youtu.be/J-EjQU5JnKg

Simon Betz von der Universität Bielefeld stellt stellvertretend für die  F-AG 6 "Gesprochene Sprache und andere Modalitäten" das CLARIN Kurationsprojekt 3 vor. Hierbei handelt es sich um eine WebMAUS Evaluation anhand des ICE-Scotland Corpus. 

Die generellen Ziele des Kurationsprojektes waren 

  • Best Practice Guidelines für phonetische Anreicherung von Korpusdaten zu entwickeln und definieren
  • Zur Verbesserung von WebMAUS beitragende Tests und Vorschläge zu liefern, um systematische Fehler zu beheben
  • Ein reich annotiertes Sprachkorpus, welches Teil des International Corpus of English: Scotland ist, bereitzustellen
Weiterlesen

Empirische Grundlagen Der Linguistik - Dr. Marc Kupietz - Forum CA3

https://youtu.be/5aaqnj_DXI8

Dr. Marc Kupietz vom Mannheimer Institut für Deutsche Sprache (IDS) präsentiert auf dem Forum CA3 2016 in Hamburg DeReKo- das Deutsche Referenz Korpus, sowie die Korpus Analyse Platform KoRaP.

Seit 2004 wird am IDS das DeReKo aufgebaut und erweitert. Es soll als eine Art Ur-Stichprobe gegenwärtigen Sprachgebrauchs gelten und bietet unter anderem die Möglichkeit virtuelle Korpora zu definieren. Wichtig sind beim DeReKo nicht die relativen Größenverhältnisse einzelner Strata, sondern die ausreichende Streuung und Besetzung dieser. Zu den vorhandenen Strata gehören Texte aus der Belletristik, populärwissenschaftliche Texte wie Zeitschriften, konzeptuelle Schriften wie Polmine-Plenarprotokolle, sowie konzeptuelle Mündlichkeit im Bereich internetbasierter Kommunikation.

Weiterlesen

Unterrichtsdiskurs live - Prof. Dr. Angelika Redder auf dem Forum CA3

https://youtu.be/uUlMW72k4xU

Frau Prof. Dr. Angelika Redder von der Universität Hamburg spricht auf dem Forum CA3 in Hamburg über Möglichkeiten, wie der Unterricht mit Hilfe digitaler Sprachressourcen analysiert und verbessert werden kann. Zwei Projekte, die sich dieser Aufgabe annehmen und von Frau Redder in ihrem Vortrag vorgestellt werden, sind EuroWiss und MuM-Multi

Die wichtigsten Voraussetzungen, um einen Unterrichtsdiskurs erstellen zu können, ist ein integrales Transkriptsionssystem, ein komplexer Editor sowie konstellative Metadaten. Das Erfüllen dieser Voraussetzungen ermöglicht korpuslinguistische Arbeit, Diskursanalyse auf unterschiedlichen Ebenen, integrale Kommunikationsanalyse sowie das Erstellen von Aus- Fort- und Weiterbildungsmaterialien.

Weiterlesen

Digitale Sprachressourcen in der Lehrerbildung - Prof. Dr. Angelika Storrer - Forum CA3

https://youtu.be/ObaE1rYqcIs

Welche Möglichkeiten bieten digitale Sprachressourcen in der Lehrerbildung? Dieser Frage geht Prof. Dr. Angelika Storrer von der Universität Mannheim nach und teilte ihre diesbezüglichen Erfahrungen auf dem Forum CA3 in Hamburg.

Digitale Sprachressourcen wie Onlinewörterbücher, digitale Korpora und Werkzeuge zu deren Auswertung werden immer leistungsfähiger und können gut in die Lehrerbildung eingebunden werden. So können mit dem Gebrauch solcher Ressourcen beispielsweise Wörterbuchwerkstätten entwickelt werden, bei denen Studierende neben dem Nutzen der Korpora und entsprechender Werkzeuge auch erfahren können, welche Verfahren nötig sind um linguistisch annotierte Korpora zu erstellen. 

Weiterlesen

Auffinden in CLARIN-D - Dr. Alexander Geyken - Forum CA3

https://youtu.be/HCXjWryIxZY

Dr. Alexander Geyken von der Berlin Brandenburgischen Akademie der Wissenschaften spricht auf dem Forum CA3 2016 in Hamburg über die Aufgabe des Auffindens innerhalb unserer Forschungsinfrastruktur. Als Beispielressource verwendet er hierfür historische Texte. 

Für die Datensuche gibt es über CLARIN-D drei Möglichkeiten:

  • Metadatensuche mittels des Virtual Language Observatorys (VLO)
    Das VLO ermöglicht innerhalb aller CLARIN Ressourcen zu suchen. Die Suche kann hierbei präzisiert werden, indem direkt nach speziellen Sprachen, Kollektionen, Ressourcentypen, Modalitäten, Genre und mehr gesucht wird
  • Volltextsuche sowie
  • über die CLARIN Zentren 
Weiterlesen

CLARIN Federated Content Search: Suche in verteilten Sprachressourcen

https://youtu.be/SaUJVdfz1CA

In diesem Screencast stellen wir unser Werkzeug CLARIN Federated Content Search (FCS) vor. Es ermöglicht eine Suche nach unterschiedlichen Verwendungen eines Wortes in verteilten Sprachressourcen. Hierfür kann ein beliebiger Begriff in die Suchmaske eingegeben werden. um ihn entweder Sprachunabhängig oder in einer bestimmten Sprache darzustellen. Auch die Art der Darstellung lässt sich manuell festlegen.  

Eine dieser Darstellungsformen, die auch in diesem Screencast gezeigt wird, ist KWIC - also Keyword in Context. Hierbei wird das Wort in verschiedenen möglichen Kontexten dargestellt. 

Weiterlesen