Verteilte Suche

Der CLARIN Federated Content Search (CLARIN FCS) ermöglicht eine parallele Suche in Sprachressourcen, die in verschiedenen Repositorien archiviert sind. Dazu werden standardisierte Verfahren und Protokolle verwendet, technisch gesprochen verwendet der CLARIN FCS die Contextual Query Language (CQL) als Abfragesprache auf Basis des Protokolls Search Retrieve via URL (SRU).

Die FCS-Komponente Aggregator fasst die einzelnen Query-Ergebnisse zusammen. Dadurch werden Queries transparent über mehrere Suchmaschinen ermöglicht. In einem nächsten Schritt können die Ergebnisse weiter linguistisch verarbeitet werden, indem sie vom Aggregator an WebLicht weitergeleitet werden.

Der Aggregator wandelt die Ergebnisse um, so dass sie als Eingabedaten in WebLicht weiterverarbeitet werden können, zum Beispiel Namenserkennung (Named Entity Recognition) durchzuführen.

Besonders interessant für

  • Sprachwissenschaftler
  • Computerlinguist

Ausgangslage:

Eine Suchanfrage, zum Beispiel ein Wort oder eine Phrase.

Ziel:

Verteilte Suche in zahlreichen Korpora durch mehrere Suchmaschinen der CLARIN-D Zentren über eine Oberfläche und automatische komplexe linguistische Verarbeitung der Ergebnisse

Lösung:

Der Zugriff auf CLARIN Federated Content Search durch Aggregator deren Ergebnisse in Weblicht verschickt und weiterverarbeitet werden.

Eine kurze Anleitung zur Ausführung einer verteilten und Verarbeitung der Ergebnisse unter Verwendung der CLARIN-D Infrastruktur

Ein Beispiel zur Nutzung von CLARIN Federated Content Search durch Aggregator

  • Gehen Sie zum Aggregator
  • Formulieren Sie eine Suchanfrage (z.B. Prinz) und klicken Sie „Suche“ (Lupensymbol rechts neben der Eingabezeile). Sie sollten die Suche idealerweise verfeinern, indem Sie die Sprachen der Ressourcen und Korpora auswählen. Außerdem können Sie die Anzahl der Ergebnisse pro Korpus ändern.
  • Um die Ergebnisse im Format KWIC (Key Word in Context) darzustellen, klicken Sie „Display as Key Word in Context“.
  • Die Ergebnisse können in verschiedenen Formaten (CSV, Excel, TCF, Klartext) heruntergeladen werden. Klicken Sie dazu „Download“ und wählen Sie ein Format.
  • Sie können mehrere Ergebnisse aus einem Korpus aufrufen. Klicken Sie die Taste „View“ (Augensymbol) und anschließend „... More Results“.

Überführen der CLARIN FCS Ergebnisse nach Weblicht

  • Klicken Sie „View“ und verwenden Sie dann die Taste „Use Weblicht“ auf der rechten Seite und wählen Sie „Send to Weblicht“ per Drop-down.
  • Um Weblicht zu benutzen, müssen Sie sich zuerst anmelden. Die Verwendung von Shibboleth vereinfacht das Anmelden, indem Sie Ihre vorhandenen Zugangsdaten verwenden können. Geben Sie Ihre institutionelle Zugehörigkeit (z.B IDS) aus der vorgegebenen Liste an und loggen Sie sich ein.
  • Nach der Anmeldung werden Sie auf die Hauptseite der Weblicht-Website weitergeleitet.

Ein Beispiel zur Verarbeitung der CLARIN FCS Ergebnisse in WebLicht

  • Klicken Sie „Start Weblicht“ und „Start“, um eine neue Tool-Kette zu bauen.
  • Auf der rechten Seite wird Ihnen die in das Format TCF umgewandelte Datei aus dem Aggregator angezeigt. Klicken Sie „OK“.
  • In der unteren Spalte sehen Sie die Tool-Kette und die Eingabedaten im TCF-Format an erster Stelle. In der oberen Spalte stehen weitere Tools zur Wahl. Klicken Sie die „i“-Taste, um Informationen über diese Tools zu erhalten.
  • Wählen Sie beispielsweise mit Doppelklick den „SfS Tokenizer-OpenNLP“ aus. Das Tool wird automatisch der Tool-Kette hinzugefügt. Klicken Sie „X“ im Tool-Kasten, um es aus der Kette zu entfernen.
  • Sie können mehrere Tools hinzufügen, um die Tool-Kette zu verlängern. Wählen Sie dazu mit doppeltem Mausklick „IMS:TreeTagger“ und „Berlin:Person Name Recognizer“ und klicken Sie anschließend "Run Tools".
  • Die Ergebnisse jedes Tools können nun heruntergeladen werden (Pfeil abwärts).
  • Abschließend klicken Sie die Taste „Tree“ neben „Download“, um die Ergebnisse darzustellen.