Im ersten Teil dieses Screencasts erklärte Simon Meier, Mitglied der CLARIN F1, wie für diskursanalytische Fragestellungen das Deutsche Referenzkorpus (DeReKo) in COSMAS II mit der integrierten Funktion der Themenannotation genutzt werden kann. hier geht es zum Blogpost der Teil 1 des Videos behandelt.
Dieser Blogpost beschäftigt sich nun mit Teil 2 von Meier's Screencast, in dem er zeigt, wie die in Teil 1 gefundenen Belege exportiert und mithilfe des kostenlosen Korpusanalysewerkzeugs AntConc weiter untersucht werden können.
Im letzten Screencast zeigte Meier bereits, dass Formulierungen wie heute weiß man in populärwissenschaftlichen Texten sowie Texten über Ernährung und Gesundheit besonders häufig vorkommen. Die Frage ist nun, welche Gegenstände typischerweise, und mit welchen sprachlichen Mitteln, so repräsentiert werden. Um die Frage zu beantworten werden die Belege zusammen mit Referenzbelegen in AntConc analysiert.
Vorgehensweise
Da im ersten Screencast nur nach einer bestimmten Formulierung, nämlich heute weiß man, gesucht wurde, wird dieser Schritt wiederholt um mit Einsatz des logischen Operators OR alle möglichen Äquivalente und Alternativen zu finden. Die Belege zu den Themen Populärwissenschaft und Ernährung und Gesundheit, insgesamt 594, werden nun als KWIC heruntergeladen. In einem ersten Schritt lässt sich nun in AntConc eine Wortliste erstellen, mittels derer die häufigsten Wörter in absteigender Reihenfolge angezeigt werden können. Da das Ziel jedoch eine vergleichende Untersuchung ist, wird noch ein thematisch unspezifisches Referenzkorpus gebraucht, um berechnen zu können, welche Wörter in den gefundenen Belegsätzen signifikant häufiger sind als in einem Referenzkorpus. Ein solches kann auf der Seite Wortschatz Leipzig heruntergeladen werden. Meier läd ein Deutsches Korpus aus dem Jahr 2015 mit 100.000 Wörtern und rund 2.000.000 Wörtern herunter.
Ergebnis
Wieder in AntConc können nun die Keywords berechnet werden. Nach dem Hochladen des Referenzkorpus kann durch klicken auf