Forschungsdaten

Namen identifizieren Personen. Im Alltag klappt das meistens sehr gut. Wir wissen aus dem Kontext und den Personenbeziehungen, von welchem Michael man genau spricht. Besteht ein solcher Zusammenhang jedoch nicht, wird es teilweise schwierig zu erkennen, wer genau eigentlich gemeint ist. Sprechen wir von der gleichen Person oder gibt es mehrere Personen mit dem gleichen Namen?

Nicht nur Alexander Schmidt, Sarah Müller und Martin Maier fragen sich dies. Auch eine Änderung des Namens oder die Latinisierung eines ausländischen Namens kann dazu führen, dass sich mehrere Namen eine einzigen Person zuordnen lassen. Beispielsweise lassen sich die georgischen Nachnahmensendungen „შვილი“ mit lateinischen Buchstaben etwa in -schwili, -shwili, -schvili und wahlweise -shvili übertragen. Im deutschen Sprachraum ist die erste Variante gebräuchlich, im Englisch die Letztere. Trotz unterschiedlicher Schreibweise kann die gleiche Person gemeint sein. Umlaute und ,ß‘ wäre weitere Beispiele für eine Veränderung der Schreibweise, die einen Namen unfreiwillig abwandeln können. So wird schnell aus Müller ein Mueller oder sogar Muller. Datenbanken können dabei häufig nicht erkennen, ob sich eine oder mehrere Personen dahinter verbergen.

Aber wieso ist dieses Problem überhaupt gravierend? Eine der zentralen Schwierigkeiten bei Datenbanken zu Personen, Literatur, Objekten und Institutionen ist die Eindeutigkeit bzw. Entität von Daten. Daher wird stets versucht etwa Doubletten zu vermeiden. Dabei behilft man sich mit sogenannten Wortnetzen bzw. Thesauren, um ein bestimmtes Objekt eindeutig zu benennen. Der „Art & Architecture Thesaurus® Online“ (kurz AAT) des Getty Research Institute oder die Gemeinsame Normdatei für Personen (kurz GND) der Deutschen Nationalbibliothek sind etwa zwei zentrale kontrollierte Vokabulare, die in den Geisteswissenschaften häufig zur Anwendung kommen.
Besonders für Institutionen wie etwa die Max-Planck-Gesellschaft, ist es aus mehreren Gründen wichtig, dass die vielen verschiedenen Forschungspublikationen ihrer Mitarbeiter/-innen auch der eigenen Organisation zugeordnet werden können. Denn in der MPG arbeiten auch Wissenschaftler/innen, die etwa ebenso an Hochschulen lehren und forschen. Mehrere berufliche Anbindungen oder gar einen Arbeitsplatzwechsel können somit dazu führen, dass sich hinter mehreren Datenbankeinträgen eine einzige Person verbirgt. Daher benutzt die Max-Planck-Digital-Library für das MPG-eigene Repository „MPG.PuRe“ mit CoNE einen eignen Service für ein kontrolliertes Vokabular. Aus institutioneller Perspektive wie Bibliotheken, Archiven und Museen ist dies eine etablierte Möglichkeit die Entität vieler Daten zu erreichen.

Seit einigen Jahren existiert aber noch ein weiterer bzw. ergänzender Weg. So bieten verschiedene große Wissenschaftsverlage sogenannte Autorenidentifikationsnummer an, um über einen standardisierten Identifikator dem Autoren genau eine Entität zuschreiben zu können. Spätestens mit dem Aufkommen von sozialen Medien und der digitalen Vernetzung im akademischen Bereich – wie etwa Academia.edu und ResearchGate – war es wohl naheliegend, die Pflege des Autorenidentifikationsnummer und das Ergänzen von weiteren Informationen dem Autor selbst teilweise zu überlassen. Bei dieser neuen Möglichkeit dominieren bisher aber vor allem kommerzielle Anbieter, was Schwierigkeiten aufwerfen kann; es sei an dieser Stelle nur an die Hintergründe des DEAL-Projekts erinnert.

ORCID®

Seit 2012 gibt mit der sogenannten „Open Researcher and Contributor ID“ (kurz ORCID) ein Code, der von einer Non-Profi-Organisation getragen wird. Große internationale Forschungsinstitution, viele Universitäten und etliche Wissenschaftsverlage haben sich darin zusammengefunden und einen numerischen Code zur eindeutigen Identifizierung von Wissenschaftlern entwickelt. Diese sechzehnstellige Zahl soll dabei zu einem Quasi-Standard für die Autorenidentifikation ausgebaut werden. In der Bundesrepublik sind etwa die Deutsche Nationalbibliothek, die Fraunhofer-Gesellschaft, die Georg-August-Universität Göttingen und die TU München Mitglieder von ORCID.

Durch diesen wissenschaftlichen Standard und die vielen, internationalen Institutionen, welche dahinter stehen, kann die ORCID vermutlich in der Zukunft für wissenschaftliche Publikationen zu einem wesentlichen Metadatenelement werden. So routiniert wie die Emailadressen wird dann vielleicht auch die sechszehnstellige, eigene ORCID mit angegeben. Über Schnittstellen könnte dann beispielsweise ein Plugin die Autorenbibliographie auf einer Universitätsseite oder einer eigenen Homepage automatisch generieren, aktualisieren und mit weiteren Verknüpfungen versorgen. Ebenso könnten Forschungsdaten und Publikationen eindeutig miteinander verbunden werden. Da ich als Autor die ORCID selbst pflegen kann, keine kommerzielle Absicht dahinter steht und die Langfristigkeit geben ist, hat mich dieser Service sehr überzeugt. Ab jetzt bin ich auch unter 0000-0002-2880-8947 (bzw. https://orcid.org/0000-0002-2880-8947) erreichbar.

Was sind eigentlich geisteswissenschaftliche Forschungsdaten? Forschungsdaten sind sehr allgemein alle Ergebnisse, die zwischen dem Studium der Primärdaten (zeitgenössische Literatur, Archivquellen, Gegenstände, Ausgrabungen) und der Veröffentlichung der gewonnenen Erkenntnisse (etwa als Buch oder in einem Aufsatz) liegen. Die virtuelle Fachbibliothek Osteuropa der Bayerischen Staatsbibliothek zeigt diesen Zwischenbereich von Forschung – zwischen Wissensgenerierung und -veröffentlichung – recht anschaulich in einer Pyramidengraphik. Solche Aspekte des Forschungsdatenmanagement – kurz FDM – werden meiner Meinung nach in Zukunft für die wissenschaftliche Forschung zunehmend wichtiger werden. Die Leitlinien der DFG zum Umgang mit Forschungsdaten und auch Empfehlungen des BMBF zum Umgang mit Forschungsdaten zeigen schon deutlich in diese Richtung. Für die aktuelle Diskussion zu einer nationalen Forschungsdateninfrastruktur siehe besonders den Twitter-Hashtag #finfra18.

Was sind die Forschungsdaten konkret, mit denen man als Wissenschaftler/-innen arbeitet? So unterschiedlich die Projekte im Bereich der Geisteswissenschaften sind, Arbeitsbibliographien entstehen zum Beispiel bei nahezu allen Themen. Für meine Dissertation habe ich letztlich ca. 3.800 Primärliteratureinträge – also für Veröffentlichungen vor 1991 – zusammengetragen. Hiervon habe ich nur knapp die Hälfte in der Fakultäts- bzw. Verlagsfassung verwendet und in dem Literaturverzeichnis aufgelistet.

Was passiert aber mit der anderen Hälfte? In der Dissertationsveröffentlichung erscheinen sie jedoch nicht. Eigentlich wäre daher die Mühe, viele entlegene Zeitungsartikel und Magazinbeiträge bibliographisch aufzunehmen, vergeblich gewesen. Die von mir zusammengetragenen Daten wären eventuell langfristig verloren gegangen, wenn ich sie nicht mehr aufgreifen sollte. Für die anderen Kolleg/-innen wären sie dann nicht frei zugänglich. Eine veröffentlichte Arbeitsbibliographie kann dies ermöglich.

Hinzu kommt ein zweiter Aspekt, nämlich die Transparenz. Denn es kann für die Forscher/-innen aus benachbarten Bereichen genauso interessant sein, welche Primärquellen ich in meiner Arbeit nicht verwende. Für sie ist nämlich durch die Bibliographie in meinem Buch nicht nachvollziehbar, auf welche designhistorische Literatur ich mich nicht gezogen habe.

Und drittens orientiere ich durch die freie Zugänglichkeit meiner Arbeitsbibliographie auch an der GO Fair Initiative (siehe hier und hier) der Europäischen Kommission. Durch die Interoperabilität – die Verarbeitbarkeit von Daten – und die Wiederverwendbarkeit von Daten ermögliche ich es zukünftigen Forscher/-innen, die sich etwa mit der Geschichte des bundesdeutschen Industriedesigns beschäftigen, dass sie meine Arbeitsbibliographie zu der Primärliteratur als einen Ausgangspunkt ihrer Projekte hinzuziehen können. So ist es möglich, dass sie etwa auf historische Zeitungs- und Magazinartikel zurückgreifen, die bis dahin nicht rezipiert worden waren.

Symbolbild: Technische Daten eines LINT der NordWestBahn, photographiert von F1 absolutely am 09.05.2010, freie Nutzung uneingeschränkt erlaubt

Mein Dissertationsprojekt habe ich lang mit diesem Blog begleitet. Er bildet daher auch den Kontext meiner Forschungstätigkeit ab, da ich hier auch über Konferenz- und Archivbesuche geschrieben oder erste Zwischenergebnisse formuliert habe, die ich später in der Dissertationsveröffentlichung wieder aufgenommen habe. Es ist daher konsequent, wenn ich die vergangenen Textbeiträge ebenfalls archiviere und zugänglich mache.

Sowohl im Blog als auch bei der Arbeitsbibliographie gibt es keine rechtlichen Probleme mit der Veröffentlichung, da ich der Urheber bin und etwa über das Forschungsprojekt kein Repository vorgegeben war. Die Seite www.forschungsdaten.info beschreibt jedoch sehr gut die verschiedenen, rechtlichen Aspekte die bei Forschungsdaten beachtet werden müssen. Dies wird etwa bei Archivphotographien oder Zeitzeug/-innen-Interview relevant.

Offen bleibt dabei jedoch, welche Daten nun wirklich veröffentlich werden. Wie es beispielsweise auf dem DHMuc-Blog thematisiert wird, habe auch ich mich gegen die Weitergabe von Notizen, persönlichen Schlagwörtern usw. entschieden. Ich „beschränke“ mich daher auf die bibliographischen Daten.

Aber wie mache ich nun meine Forschungsdaten zugänglich und archiviere sie? Ich habe mich mit Open Data LMU der LMU-Universitätsbibliothek für ein institutionelles Repository entschieden. Da ich die Arbeit an der Ludwig-Maximilians-Universität München verfasst habe, lag es nahe auch die Forschungsdaten dort zugänglich zu machen. Zugleich kann ich mit der Universitätsbibliothek sicher sein, dass die Daten dort langfristig bereitgestellt werden. Eine andere Möglichkeit wäre etwa das DARIAH-DE-Repository gewesen. Weitere Möglichkeit hätte man etwa über DataCite recherchieren können.

Aber welche Datenformate eigenen sich für die Langzeitarchivierung von Forschungsdaten? Die ViFa Osteuropa gibt eine gute Handreichung zu den empfohlen Dateiformate, in welchen die Forschungsdaten gespeichert werden sollten. Für den Blog habe ich ein WordPress-Tool verwendet, dass alle Blogposts im xml-Format ausgibt. Die Arbeitsbibliographie habe ich in verschiedenen Versionen erstellt, um eine möglichst große Bandbreite anzubieten und die Nachnutzung zu vereinfachen. Ich habe mich für die drei Dateiformate -html, -txt und pdf (PDF/A-3) entschieden. Als Ausgabestil habe ich wiederum einen BibTeX-Export, einen RefMan-RIS-Export und menschenlesbare Bibliographievariante gewählt.

Meine Arbeitsbibliographie und mein Forschungsblog sind nun veröffentlicht und archiviert. Sie sind auf dem Open Data LMU-Server unter der DOI https://doi.org/10.5282/ubm/data.122 und https://doi.org/10.5282/ubm/data.123 zu finden. Über Feedback, Anmerkungen und Verbesserungsvorschläge würde ich mich freuen.

yves vincent grossmann

Namen, Verwechslungen und ORCID – Wie erreiche ich Eindeutigkeit in der Wissenschaft?

Geisteswissenschaftliche Forschungsdaten – Was ist das und was mache ich konkret damit?