Datenmanagement in den Geisteswissenschaften: Fortschritt in der Standardisierung von Metadatenformaten für sprachbezogene Forschungsdaten

Datenmanagement in den Geisteswissenschaften: Fortschritt in der Standardisierung von             Metadatenformaten für sprachbezogene Forschungsdaten

Im Juli 2019 hat die Internationale Organisation für Normung (ISO) einen neuen Standard veröffentlicht, der dazu beiträgt, sprachbezogene Forschungsdaten bei der Archivierung aussagekräftig und nachhaltig zu beschreiben. Der Standard ISO 24622-2 „Component Metadata Specification Language“ normiert dabei, wie man ein Schema für die Beschreibung angibt, so dass die Beschreibungen bedarfsgerecht erstellt werden können.

Bei der Archivierung von Forschungsdaten werden Informationen über Daten gesammelt und so bereitgestellt, dass später auch andere Forschende diese Daten auffinden können und aus der Beschreibung zunächst Einschätzungen zur Relevanz der Daten ableiten können. Daneben können potentielle Nutzende eine Vorstellung davon erhalten, wie sie diese Daten in die eigene Forschung einbeziehen und mit ihnen eigene Forschungsfragen beantworten könnten. Diese Beschreibungen werden als Metadaten bezeichnet.

Die Erfahrung zeigt, dass es aufgrund der Unterschiede in den Arten der Forschungsdaten und der Forschungsfragen sehr schwer ist, ein allumfassendes, allgemeingültiges Muster – oder auch Schema – zu finden, nach dem die Beschreibungen zu erstellen sind. So sind psychologische Experimente anders zu beschreiben (Anzahl der Probanden, Forschungsfrage, freie und gebundene Variablen, Erfassungsystem etc.) als Textsammlungen für grammatikalische Untersuchungen oder zur Erstellung von Word-Embeddings (Anzahl der „Wörter“, Sprache, Länge der Texte, Quelle der Texte, Alter der Texte, Autoren ...). Trotz ihrer langen Tradition haben Bibliotheken für Bücher unterschiedliche Metadatenformate, z. B. Dublin Core, MARC 21, PREMIS, MODS. Viele Metadaten-Schemata haben einige Felder – auch Datenkategorien genannt –, die sich ähneln, aber auch einige Bereiche, in denen sie sich unterscheiden. Um es zu ermöglichen, Forschungsdaten sowohl angemessen zu beschreiben als auch die ähnlichen Strukturen der Metadaten auszunutzen, wurde ein Verfahren entwickelt, das als Komponenten-Metadaten-Infrastruktur („Component Metdadata Infrastructur“, auch CMDI) bezeichnet wird: Für jeden Typ von Forschungsdaten wird ein angemessenes Beschreibungsschema – ein Metadatenprofil – erstellt, wobei Teile von Metadatenschemata, die für andere Typen erstellt wurden, wiederverwendet werden können. Solche Teile bezeichnet man als Komponenten. Ein Beispiel für so eine Komponente könnte z. B. sein, dass für Personen (z. B. Forschende, die einen Datensatz erstellt haben) immer ein Vorname, Nachname, eine Institution und eine E-Mail-Adresse angegeben wird. Wenn in den Metadaten eines anderen Forschungsdatentyps eine Person angegeben werden soll, kann dann auf diese Personen-Komponente Bezug genommen werden, dadurch muss dieser Teil des Schemas nicht neu definiert werden. Außerdem können Werkzeuge, die auf solchen Metadaten arbeiten, direkt damit umgehen, darunter Spezialsuchmaschinen für Forschungsdaten, Editoren, Workflow-Werkzeuge, etc.

Der neue Standard ISO 24622-2 beschreibt, wie man solche Komponenten definiert, so dass man sie mit anderen – gegebenenfalls eigenen angepassten – Komponenten zusammen benutzen kann. Es stellt damit eine Umsetzung des zugrundeliegenden Modells dar, das in einem anderen Standard, ISO 24622-1 als Komponentenmodell bereits normiert wurde, das also die konzeptuelle Grundlage für die Implementierung darstellt.

Aus dem Bereich der Infrastrukturinitiative CLARIN waren Metadaten-Expertinnen und -Experten an der Erstellung dieses Standards maßgeblich beteiligt. Mit der CLARIN-Component Registry betreibt CLARIN ERIC eine Referenzimplementierung, die den Standard umsetzt. Auch CLARIN-Werkzeuge wie die Suchmaschine VLO, Metadateneditoren wie COMEDI oder ARBIL, Webservice-Workflowerkzeuge wie WebLicht setzen bereits auf ISO 24622-2 auf. Wesentliche Beiträge zur Entwicklung wurden von CLARIN-Beteiligten aus Deutschland, Griechenland, Österreich und den Niederlanden beigetragen. Die Koordination des Standards erfolgte dabei durch Thorsten Trippel, der als deutscher CLARIN-Experte für das Deutsche Institut für Normung (DIN) die Leitung des Standardisierungs-Projekts übernommen hatte.

Mit der Veröffentlichung des Standards ISO 24622-2, der auf ISO 24622-1 aufbaut, setzen damit alle CLARIN-Datenzentren automatisch diese internationalen Normen um, wenn sie valide CMDI-Metadaten ausliefern, deren Schemata in der CLARIN Component Registry registriert sind. Die Umsetzung dieser Norm wird damit einen Beitrag zur nachhaltigen Dokumentation und damit zur verlässlichen Infrastruktur für Forschungsdaten mit sprachlichen Bezügen in den Geisteswissenschaften haben.

Geschrieben von : Thorsten Trippel

1000 Buchstaben übrig