Geisteswissenschaftliche Forschungsdaten – Was ist das und was mache ich konkret damit?

Was sind eigentlich geisteswissenschaftliche Forschungsdaten? Forschungsdaten sind sehr allgemein alle Ergebnisse, die zwischen dem Studium der Primärdaten (zeitgenössische Literatur, Archivquellen, Gegenstände, Ausgrabungen) und der Veröffentlichung der gewonnenen Erkenntnisse (etwa als Buch oder in einem Aufsatz) liegen. Die virtuelle Fachbibliothek Osteuropa der Bayerischen Staatsbibliothek zeigt diesen Zwischenbereich von Forschung – zwischen Wissensgenerierung und -veröffentlichung – recht anschaulich in einer Pyramidengraphik. Solche Aspekte des Forschungsdatenmanagement – kurz FDM – werden meiner Meinung nach in Zukunft für die wissenschaftliche Forschung zunehmend wichtiger werden. Die Leitlinien der DFG zum Umgang mit Forschungsdaten und auch Empfehlungen des BMBF zum Umgang mit Forschungsdaten zeigen schon deutlich in diese Richtung. Für die aktuelle Diskussion zu einer nationalen Forschungsdateninfrastruktur siehe besonders den Twitter-Hashtag #finfra18.

Was sind die Forschungsdaten konkret, mit denen man als Wissenschaftler/-innen arbeitet? So unterschiedlich die Projekte im Bereich der Geisteswissenschaften sind, Arbeitsbibliographien entstehen zum Beispiel bei nahezu allen Themen. Für meine Dissertation habe ich letztlich ca. 3.800 Primärliteratureinträge – also für Veröffentlichungen vor 1991 – zusammengetragen. Hiervon habe ich nur knapp die Hälfte in der Fakultäts- bzw. Verlagsfassung verwendet und in dem Literaturverzeichnis aufgelistet.

Was passiert aber mit der anderen Hälfte? In der Dissertationsveröffentlichung erscheinen sie jedoch nicht. Eigentlich wäre daher die Mühe, viele entlegene Zeitungsartikel und Magazinbeiträge bibliographisch aufzunehmen, vergeblich gewesen. Die von mir zusammengetragenen Daten wären eventuell langfristig verloren gegangen, wenn ich sie nicht mehr aufgreifen sollte. Für die anderen Kolleg/-innen wären sie dann nicht frei zugänglich. Eine veröffentlichte Arbeitsbibliographie kann dies ermöglich.

Hinzu kommt ein zweiter Aspekt, nämlich die Transparenz. Denn es kann für die Forscher/-innen aus benachbarten Bereichen genauso interessant sein, welche Primärquellen ich in meiner Arbeit nicht verwende. Für sie ist nämlich durch die Bibliographie in meinem Buch nicht nachvollziehbar, auf welche designhistorische Literatur ich mich nicht gezogen habe.

Und drittens orientiere ich durch die freie Zugänglichkeit meiner Arbeitsbibliographie auch an der GO Fair Initiative (siehe hier und hier) der Europäischen Kommission. Durch die Interoperabilität – die Verarbeitbarkeit von Daten – und die Wiederverwendbarkeit von Daten ermögliche ich es zukünftigen Forscher/-innen, die sich etwa mit der Geschichte des bundesdeutschen Industriedesigns beschäftigen, dass sie meine Arbeitsbibliographie zu der Primärliteratur als einen Ausgangspunkt ihrer Projekte hinzuziehen können. So ist es möglich, dass sie etwa auf historische Zeitungs- und Magazinartikel zurückgreifen, die bis dahin nicht rezipiert worden waren.

Symbolbild: Technische Daten eines LINT der NordWestBahn, photographiert von F1 absolutely am 09.05.2010, freie Nutzung uneingeschränkt erlaubt

Mein Dissertationsprojekt habe ich lang mit diesem Blog begleitet. Er bildet daher auch den Kontext meiner Forschungstätigkeit ab, da ich hier auch über Konferenz- und Archivbesuche geschrieben oder erste Zwischenergebnisse formuliert habe, die ich später in der Dissertationsveröffentlichung wieder aufgenommen habe. Es ist daher konsequent, wenn ich die vergangenen Textbeiträge ebenfalls archiviere und zugänglich mache.

Sowohl im Blog als auch bei der Arbeitsbibliographie gibt es keine rechtlichen Probleme mit der Veröffentlichung, da ich der Urheber bin und etwa über das Forschungsprojekt kein Repository vorgegeben war. Die Seite www.forschungsdaten.info beschreibt jedoch sehr gut die verschiedenen, rechtlichen Aspekte die bei Forschungsdaten beachtet werden müssen. Dies wird etwa bei Archivphotographien oder Zeitzeug/-innen-Interview relevant.

Offen bleibt dabei jedoch, welche Daten nun wirklich veröffentlich werden. Wie es beispielsweise auf dem DHMuc-Blog thematisiert wird, habe auch ich mich gegen die Weitergabe von Notizen, persönlichen Schlagwörtern usw. entschieden. Ich „beschränke“ mich daher auf die bibliographischen Daten.

Aber wie mache ich nun meine Forschungsdaten zugänglich und archiviere sie? Ich habe mich mit Open Data LMU der LMU-Universitätsbibliothek für ein institutionelles Repository entschieden. Da ich die Arbeit an der Ludwig-Maximilians-Universität München verfasst habe, lag es nahe auch die Forschungsdaten dort zugänglich zu machen. Zugleich kann ich mit der Universitätsbibliothek sicher sein, dass die Daten dort langfristig bereitgestellt werden. Eine andere Möglichkeit wäre etwa das DARIAH-DE-Repository gewesen. Weitere Möglichkeit hätte man etwa über DataCite recherchieren können.

Aber welche Datenformate eigenen sich für die Langzeitarchivierung von Forschungsdaten? Die ViFa Osteuropa gibt eine gute Handreichung zu den empfohlen Dateiformate, in welchen die Forschungsdaten gespeichert werden sollten. Für den Blog habe ich ein WordPress-Tool verwendet, dass alle Blogposts im xml-Format ausgibt. Die Arbeitsbibliographie habe ich in verschiedenen Versionen erstellt, um eine möglichst große Bandbreite anzubieten und die Nachnutzung zu vereinfachen. Ich habe mich für die drei Dateiformate -html, -txt und pdf (PDF/A-3) entschieden. Als Ausgabestil habe ich wiederum einen BibTeX-Export, einen RefMan-RIS-Export und menschenlesbare Bibliographievariante gewählt.

Meine Arbeitsbibliographie und mein Forschungsblog sind nun veröffentlicht und archiviert. Sie sind auf dem Open Data LMU-Server unter der DOI https://doi.org/10.5282/ubm/data.122 und https://doi.org/10.5282/ubm/data.123 zu finden. Über Feedback, Anmerkungen und Verbesserungsvorschläge würde ich mich freuen.

Die erste Münchner Summerschool „Digital Humanities“

Letzte Woche konnte ich an der Summerschool „Digital Humanities“ in München teilnehmen. Die Veranstaltung wurde von dem Arbeitskreis Digital Humanities Munich, dem Zentrum für Digitale Geisteswissenschaften der BSB München und dem Kompetenzverbund Historische Forschung München durchgeführt. Federführend waren hierbei besonders das Referat Digitalisierung der Bayerische Akademie der Wissenschaften – speziell Dr. Eckhart Arnold – und IT-Gruppe Geisteswissenschaften an der LMU. Die Summerschool fand vom 27. bis 31. Juli in den Räumen der LMU-Universitätsbibliothek statt.

Analyse dieses Beitrag durch Voyant Tools

Analyse dieses Beitrag durch Voyant Tools

Laut Ausschreibungstext war es das Ziel der „Münchner Summerschool ‚Digital Humanities‘ [einen Einblick zu geben] in die Computerwerkzeuge und -methoden, die in unterschiedlichen Forschungsstadien zum Einsatz kommen können“.[1] Soviel sei schon vorweg verraten, dieser Anspruch konnte voll erfüllt werden. Während dieser intensiven Woche gelang es allen Referent_innen die verschiedenen Aspekte, Arbeitsmöglichkeiten und Anwendungsbereiche spannend sowie anschaulich zu präsentieren. Der Stundenplan war dicht gefüllt und versprach Ausflüge in viele interessante Themengebiete. Sinnvoll war dabei die Programmverteilung, nämlich morgens Theorie und nachmittags Praxis. Der Twitter-Hashtag zur der Tagung (den ich benutzte) war #dhmuc.

Den ersten Tag eröffnete Dr. Eckart Arnold (BAdW) und fragte zugleich, was „Digital Humanities“ sind – und was wiederum nicht. Er verstand dabei die digitalen Geisteswissenschaften als den Einsatz von Computern und Internettechniken für die Forschung zwecks 1. Recherche und Sammlung, 2. Auswertung und 3. Veröffentlichung. Mit seinen einleitenden Worten gelang es Arnold eine gemeinsame Basis für die Summerschool im Bezug auf Digital Humanities zu legen. Dr. Lilian Landes (BSB München) wiederum reflektierte anhand ihres eigenen Werdegangs über das Berufsfeld der Digital Humanities. Ihre Hinweise und Gedanken zum diesem neuen Arbeitsgebiet gewann besonders deshalb an Plausibilität, da es ihr gelang Entwicklungen, Ansprüche und Anforderungen aus eigener Erfahrung zu schildern. Anstatt auf einer abstrakten Metaebene über schlechte Jobaussichten in den Geisteswissenschaften zu philosophieren, waren ihre Ausführungen zum Berufsfeld der Digital Humanities ermunternd und zugleich auch auffordernd im Bereich der Qualifizierung von IT-Kenntnisse. Persönlich hat mich dies dazu animiert, in Zukunft Kompetenzen im Bereich der Informationstechnologien zu entwickeln, um an der Schnittstelle Geisteswissenschaften und Informatik kompetenter agieren zu können.

Der zweite Tage begann mit zwei Einführungen in html&CSS von Dr. Eckart Arnold sowie in Relationale Datenbanken von Dr. Stephan Lücke (LMU – IT-Gruppe Geisteswissenschaften). Beiden Referenten gelang es ihr Wissen einer vermeintlich „trockenen“ Materie mit viel Hingabe vermitteln. Die Hemmschwelle, sich mit html&CSS oder Datenbanken zu beschäftigten, wurde dadurch merklich gesenkt. Arnold und Lücke brachten es zugleich fertig auf das Vorwissen aller Teilnehmer_innen – das sehr rudimentär war – geschickt einzugehen. Erfolgserlebnisse waren garantiert. Danach erschien keines der beiden Themen mehr als „Geheimwissen“. Vielmehr machten erste Einblick in die Materie Lust auf mehr.

Der dritten Tag begann mit dem Versuch XML als „die lingua francia der Digital Humanities“ vorzustellen. Nach der zweiten Sitzung von Lücke zu „Relationalen Datenbanken“ präsentierten Prof. Dr. Christian Wolff und Dr. Manuel Burghardt „Textwerkzeuge und ihr Einsatz in den digitalen Geisteswissenschaften“. Sowohl ihre Folien als auch die Arbeitsbeispiele sind in einem eigenen WordPress-Blog sehr anschaulich dokumentiert. In dem praktischen Teil der Präsentation stellte Burghardt den Teilnehmer_innen der Summerschool das Voyant Tools vor. Dabei wurde der Text von Kafka auf häufig verwendete Wörter und Wortarten analyisiert. Diese sehr gelungene Sitzung zeigte eindrucksvoll, welche Web-Werkzeuge schon jetzt zur Verfügung stehen und eigentlich nur darauf warten von Geisteswissenschaftler_innen benutzt zu werden. Den Tag beendeten zwei spannende Projektpräsentationen von Manuel Raaf zum ostfränkischen Wörterbuch sowie von Stefan Müller zur Ptolemäischen Edition an der Bayerischen Akademie der Wissenschaften.

Am vierten Tag stellte Georg Hohmann vom Deutschen Museum in München das Semantic Web vor. Kerngedanke desSemantic Webs ist es Daten, welche für Maschinen vordergründig unstrukturiert sind, mit zusätzlichen Informationen zu ergänzen, um daraus ein gigantischen globalen Graphen entwickeln zu können. Mit dem RDF-Standard lässt sich beispielsweise das Ziel eines Hyperlinks, z.B. eine Webseite, spezifizieren. Damit soll dieser maschinenlesbar explizieren, dass sich hinter dieser Adresse http://www.w3.org/standards/semanticweb/ die offizielle Webseite desSemantic Webs verbirgt. Im Anschluss gab ManuelRaaf einen Einblick in die Informatik von „relativen Ausdrücken„. Ziel ist es bei diesem Zugang Zeichenketten mit Hilfe syntaktischer Regeln bedienen zu können. Beispielsweise wird es dadurch möglich in einem Word-Textdokument alle Überschriften-Elemente beispielsweise mit < Weiterlesen