CLARIN-D Newsflash Januar 2020

Buchveröffentlichung des Deutschen Textarchivs

2019, zum Jubiläum, seines 250. Geburtstages, ist im Suhrkamp/Insel Verlag eine Nachschrift der ›Kosmos-Vorträge‹ Alexander von Humboldts in einer gedruckten Ausgabe, herausgegeben von Christian Kassung (Humboldt-Universität zu Berlin) und Christian Thomas (BBAW), erschienen. Mit diesem Manuskript der Henriette Kohlrausch, deren bislang unbekannte Verfasserschaft in diesem Band belegt und erstmals einer breiten Öffentlichkeit bekannt gemacht wurde, liegt somit die einzige bekannte Nachschrift der populären Vorträge in der Berliner Sing-Akademie in einer zuverlässigen, anhand der Handschrift geprüften Textfassung vor. Diese basiert auf der gemäß TEI-XML im DTA-Basisformat für Manuskripte (DTABf-M) annotierten Textgrundlage, die 2014/15 im »Hidden Kosmos«-Projekt erstellt und im Deutschen Textarchiv publiziert wurde.

Neue Ressourcen

Das Saarbrücker Kochbuch-Corpus (SaCoCo) kann jetzt unter einer freien Lizenz heruntergeladen werden.

Neue Services

Die BAS WebServices veröffentlichen eine erste Alpha-Version des neuen Services 'Speaker Diarization'. Speaker Diarization, d.h. die Klassifikation und Segmentierung von Sprachaufnahmen nach Sprecher-Identitäten, ist nach wie vor eines der schwierigsten Probleme der KI. Mit dem neuen Services des BAS können Anwender z.B. ihre Interview-Video-Aufzeichnungen automatisch in Interviewer und Interviewee trennen.

Im Transkriptionseditor Octra sind nun Spracherkennung und Segmentation direkt verfügbar. Sie öffnen eine .wav-Audiodatei in Octra, drücken die Taste M, warten ein wenig und dann erscheint eine Wortsegmentation des Wortlauts – korrigieren Sie diese manuell und exportieren Sie sie in eine Vielzahl von Formaten. Einfach magisch!

Neue Werkzeuge für das Deutsche Textarchiv über CLARINs Language Resource Switchboard (LRS) zugänglich. Im Rahmen des für 25 Monate angelegten Verbundprojekts CLARIAH-DE mit dem vornehmlichen Ziel, die beiden mit Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) aufgebauten geisteswissenschaftlichen Forschungsinfrastrukturen CLARIN-D und DARIAH-DE zu einer gemeinsamen digitalen Forschungsinfrastruktur zusammenzuführen, wurden an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) neue Werkzeuge zur Textanalyse zugänglich gemacht. Alle im Deutschen Textarchiv enthaltenen Werke können mittlerweile per URL an das innerhalb von CLARIN-PLUS entwickelte Language Resource Switchboard (LRS) übermittelt werden. Das LRS evaluiert die einzelnen Textdateien und bietet im Anschluss eine Auswahl an unterschiedlichen Tools an, mithilfe derer die Texte analysiert werden können. Neben der Möglichkeit der morphologischen Analyse der Texte finden sich dort Werkzeuge für Lemmatisierung, Named Entity Recognition, Part-Of-Speech Tagging sowie Constituency und Dependency Parsing.

Veranstaltungen 2019

Am 14. November 2019 fand die Abschlussveranstaltung der CLARIN-D Facharbeitsgruppen (F-AGs) in der Neuen Aula der Eberhard-Karls-Universität Tübingen statt. Mehr als 20 Teilnehmerinnen und Teilnehmer fanden sich zusammen, um noch einmal ein Resümee aus der jahrelangen Arbeit der F-AGs in CLARIN-D zu ziehen. Cathleen Kantner, Nikolaus Himmelmann, Christoph Draxler und Julia Müller stellten in Vorträgen die Arbeit ihrer jeweiligen F-AG vor. Im Anschluss fand eine Postersession statt, bei der die F-AGs Highlights aus ihrer langjährigen Arbeit präsentierten.

Vom 14. bis 15. November 2019 fand die erste CLARIAH-Vollversammlung mit mehr als 50 Teilnehmerinnen und Teilnehmern in der Neuen Aula der Eberhard-Karls-Universität statt. Der erste Tag diente dazu, bisherige Ergebnisse und den aktuellen Stand des Projekts darzustellen. Am zweiten Tag beriet sich der externe wissenschaftliche Beirat, während parallel die einzelnen Arbeitsgruppen des Projekts tagten.

Ankündigungen: Veranstaltungen 2020

Die 7. Jahrestagung des Verbands Digital Humanities im Deutschsprachigen Raum wird an der Universität Paderborn vom 2. bis 6. März stattfinden. Das Thema der diesjährigen DHd lautet "Spielräume – Digital Humanities zwischen Modellierung und Interpretation". Das Programm ist hier zu finden: https://dhd2020.de/programm/. Dieses Jahr werden wir zum ersten Mal zusammen mit CLARIAH-DE einen Informationstand während der DHd 2020 präsentieren. Kommen Sie vorbei - wir freuen uns auf den Austausch. 

Das Leibniz-Institut für Deutsche Sprache in Mannheim lädt vom 10. bis 12. März zur traditionellen Jahrestagung ein. Drei Tage lang wird es um das spannende Thema "Deutsch in Europa. Sprachpolitisch, grammatisch, methodisch gehen". Wir möchten besonders auf den Vortrag von Prof. Dr. Erhard Hinrichs hinweisen, der am 11. März einen Vortrag über "Multilinguale Sprachressourcen für die linguistische Forschung" hält. Außerdem sind weitere CLARIN-D KollegInnen auf der Methodenmesse vertreten. Schauen Sie vorbei! 

Die diesjährige CLARIN Annual Conference findet in Madrid vom 5. bis 7. Oktober statt. Der Call for Abstracts ist bereits erschienen und um Einreichungen wird bis 14. April gebeten. Das Spezialthema der Veranstaltung lautet dieses Jahr: "Language resources, tools and services for interdisciplinary research". Weitere Ankündigungen sind auf der Veranstaltungswebsite von CLARIN zu finden. 

Preise und Auszeichnungen

Die BAS WebServices haben von Google einen Forschungspreis verliehen bekommen, der von Januar bis Ende Juni läuft. Mit dieser Hilfe kann das Nutzungskontingent bei der Google Cloud Processing Spracherkennung (BAS Service "ASR") von 8 auf 450 Stunden im Monat erhöht werden. Das Längenkontingent für media files wurde ebenfalls deutlich erhöht. Einen Blogpost dazu gibt es auch. 

Neue Publikationen

"Language technology for digital humanities: introduction to the special issue" von Erhard Hinrichs, Marie Hinrichs, Sandra Kübler und Thorsten Trippel

Neue Projekte

Handbuch „Encoding Correspondence“: Open Peer Review eröffnet. Das Handbuch „Encoding Correspondence. A Manual for Encoding Letters and Postcards in TEI-XML and DTABf” ist seit kurzem mit den ersten Artikeln unter https://encoding-correspondence.bbaw.de online. Weitere Artikel werden im Laufe der nächsten Wochen ergänzt. Das Handbuch soll Editor/-innen dabei helfen, im Rahmen von digitalen Editionen und Projekten die Texte von Briefen und Postkarten mitsamt ihren Metadaten in TEI-XML und DTABf zu kodieren. Diskutiert werden u.a. Aspekte und Probleme bei der Kodierung mit <opener> und <closer>, von Postskripta, Briefköpfen oder die Erweiterung des Austauschformats CMIF.

Geschrieben von : Jörg Knappen

1000 Buchstaben übrig