Extraktion, Strukturierung und Evaluation von Informationen

Gezielte Datensuche

Auf der Suche nach Einheiten der Biodiversität (2018)
Motivation

Während meiner, wenn auch kurzen, akademischen Laufbahn war eine der zeitaufwendigsten Arbeiten die Sammlung und Organisation von Informationen. Wer kennt es nicht stundenlang in den Weiten des Internets zu tauchen und mit Hilfe von Suchmaschinen bestimmte Informationen zu filtrieren? Speichern von Dokumenten in einer schier endlosen Hierarchie von Ordnern die manchmal recht spontan benannt werden. Links speichern, Notizen auf Zetteln sammeln, Zettel sortieren, einheften, ...

Viele meiner Suchen standen im Zusammenhang mit bestimmten Einheiten der Biodiversität, welche in der Regel einen wissenschaftlichen Namen tragen. Darüber hinaus sind sie aber auch unter verschiedenen umgangssprachlichen Namen bekannt. Wie organisiert man die gesammelten Informationen am besten? Link-Sammlungen? Speichern unter...?

Associator

Unter dem Arbeitstitel "Associator" habe ich angefangen an einer Anwendung zu arbeiten, die beim Sammeln und Organisieren von Informationen aus dem Bereich der Biodiversität helfen soll.

Aktueller Stand

  • Eingabe: URL zu einem öffentlich zugänglichen Text Dokument
  • Verarbeitung Phase 1
    • Meta Daten Extraktion (Autor, Sprache, Beschreibung)
    • Text Extraktion
  • Benutzer Interaktion
    • Hinzufügen von "Tags": manuelle Eingabe / durch Auswertung des extrahierten Textes
    • Auswahl zu folgender interner Links
    • Auswahl der für die Verknüpfung zu verwendenden "Begriff-Sammlung" (derzeit wissenschaftliche Pflanzen Namen von The Plant List)
  • Verarbeitung Phase 2
    • Quelle mit Tags verknüpfen
    • Quelle mit im Text gefundenen Begriffen der "Begriff-Sammlung" verknüpfen
    • Quelle mit im Text gefundenen Ländernamen verknüpfen (bisher nur Deutsch)

Zukünftiges

  • Begriff-Sammlungen
    • Benutzer definierte "Begriff-Sammlungen". Z.B. alle umgangsprachlichen Namen einer bestimmten Gruppe von Lebewesen.
    • Catalogue of Life und Encyclopädie des Lebens als Begriff-Sammlungen verwenden
    • Kultursorten Namen (Äpfel, Birnen, Trauben, usw.)
  • Benutzersystem
    • Einführen
    • Jeder ist Kurator
  • Recherchesystem
    • Filtern nach Kuratoren, Autoren, usw.

Wissenschaftliche Pflanzennamen und verknüpfte Informationen

Für den Artikel "Integrating Biodiversity Data into Botanic Collections" aus dem Jahr 2016 habe ich wissenschaftliche Pflanzennamen aus Samenkatalogen extrahiert. Eine der ersten Schwierigkeiten bestand darin, dass die Kataloge in unterschiedlichen technischen sowie gestalterischen Formaten vorlagen und somit der Extraktions-Algorithmus entsprechend flexibel sein musste.

Ein weiteres Anliegen war es festzustellen, welchen Status die verwendeten Namen haben (Synonyme oder offiziell anerkannte Namen). Dazu habe ich externe Quellen wie The Plant List, die Enzyklopädie des Lebens und den Katalog des Lebens als Referenzen für die Statusbestimmung verwendet.

Zuletzt habe ich für jeden der extrahierten Namen festgestellt, ob Einträge in der Roten Liste vorhanden sind und ob die enstsprechende Art als invasiv eingestuft wurde. Auch hierzu bediente ich mich externer Quellen (International Union for Conservation of Nature - Red List, Global Invasive Species Information Network).