Allgemeine Fragen zum FDM
Fragenübersicht
- Warum sollte ich mich als Forschender schon in der Planungsphase mit dem Forschungsdatenmanagement auseinandersetzen?
- Wie erstelle ich einen Datenmanagementplan?
- Wie organisiere ich meine Daten effizient?
- Was sollte ich bei der Wahl der Dateiformate beachten?
- Welche Möglichkeiten habe ich zur Speicherung der Daten während des Arbeitsprozesses?
- Wie kann ich die Datensicherheit in meinem Projekt und bei meinen Daten erhöhen?
- Wie bewahre ich meine Daten langfristig auf?
- Warum sollte ich meine Daten möglichst Open Access veröffentlichen?
- Wie finde ich ein passendes Repositorium?
- Unter welcher Lizenz sollte ich meine Daten veröffentlichen?
- Was kann gegen eine Open Access-Veröffentlichung sprechen?
- Welche Möglichkeiten habe ich, auch ohne Open Access-Veröffentlichung die Sichtbarkeit meiner Forschung zu erhöhen?
- Wo finde ich Forschungsdaten, die von anderen zur Nachnutzung publiziert wurden?
- Wie zitiere ich Forschungsdaten?
Warum sollte ich mich als Forschender schon in der Planungsphase mit dem Forschungsdatenmanagement auseinandersetzen?
Ein effektives Forschungsdatenmanagement spielt eine entscheidende Rolle in der modernen Wissenschaft und bietet Ihnen als Forschenden – zwar verbunden mit einem anfänglichen Mehraufwand – letzten Endes eine Vielzahl an Vorteilen, die sich aus den folgenden Gründen und Anforderungen an die wissenschaftliche Praxis ergeben.
- Reproduzierbarkeit, Überprüfbarkeit und Transparenz
Spätestens vor ca. 15 Jahren wurde von Forschenden aus verschiedenen wissenschaftlichen Disziplinen immer häufiger festgestellt, dass Ergebnisse wissenschaftlicher Studien unter Hinzunahme der veröffentlichen Text- und Datenpublikationen nicht reprodziert und somit bestätigt werden können. In der Psychologie wurde diese Erkenntnis als Replikationskrise bekannt und hat dazu geführt, dass die Arbeit mit Daten sich in dieser Fachdisziplin wesentlich verändert hat. Dies zeigt, wie wichtig es ist, alle Verarbeitungsschritte und Lebensphasen der erhobenen Daten und auch alle zugehörigen Methoden, Tools usw. sauber zu dokumentieren, um nicht eines Betrugs o.ä. bezichtigt zu werden. - Erhaltung der Datenintegrität
Wo mit Daten gearbeitet wird, wird auch häufig an Daten gearbeitet und je mehr Mitarbeitende ein Projekt hat, desto wahrscheinlicher wird es, dass sich durch die Arbeit an diesen Daten Fehler einschleichen, die Einbußen hinsichtlich Qualität und Genauigkeit der Daten mit sich ziehen, die durch vorgelagerte Prozesse von vornerherein vermieden oder minimiert werden können. - Schutz rechtlich sensibler Informationen und ethische Anforderungen
Rechtliche Anforderungen stellen Forschende bei der Arbeit mit Daten vor allem mit Blick auf den Umgang mit personenbezogenen Daten (z.B. mit Blick auf die DSGVO) oder mit dem Urheberrecht immer wieder vor ungeahnte Herausforderungen. Ein durchdachter Ansatz im Datenmanagement hilft, sensible Informationen zu identifizieren und dann entsprechend Lösungen zu finden, um diese zu schützen und so rechtlichen, aber natürlich auch ethischen Verpflichtungen nachzukommen. Ein Beratungsgespräch mit unserem zentralen Forschungsdatenreferat kann Ihnen dabei helfen, diese sensiblen Informationen in Ihrem Projekt zu identifizieren und bereits erste Lösungsansätze aufzeigen. - Nachnutzung, Kooperation und Austausch
Eine saubere Dokumentation Ihrer Daten soll nicht nur dazu führen, dass Ihre Forschung repliziert werden kann, sondern anderen Forschenden vor allem durch Kooperation, Austausch und Nachnutzung eine Möglichkeit geben, den wissenschaftlichen Fortschritt zu fördern. Häufig können Forschende die Anwendungsbereiche der eigenen Daten gar nicht überblicken, da sogar Forschende aus fachfremden Disziplinen einen Verwendungszweck für diese Daten haben. - Erfüllung von Förderanforderungen
Viele Fördermittelgeber verlangen inzwischen in Anträgen in unterschiedlichem Maße Angaben zum Forschungsdatenmanagement. In den letzten Jahren sind die Anforderungen dahingehend stetig gestiegen, auch um eine Mehrfachförderung zu vermeiden und die Fördergelder möglichst effizent einsetzen zu können. - Öffentliche Rechenschaftspflicht
Da viele Forschungsprojekte mit öffentlichen Mitteln finanziert werden, ergibt sich daraus in gewisser Weise auch eine Art Rechenschaftspflicht gegenüber der Öffentlichkeit, da die resultierenden Daten verfügbar und vor allem nachvollziehbar gemacht werden müssen.
Aus dieser Auflistung von Gründen und Anforderungen für ein solides Forschungsdatenmanagement ergibt sich, dass dieses idealerweise nicht erst beginnt, nachdem die Daten erhoben wurden. Vielmehr sollten bereits bei der Projektplanung und vor der Erhebung Überlegungen angestellt werden, wie mit den Daten umgegangen wird. Zur Orientierung kann der Forschungsdatenlebenszyklus (s. Glossar) dienen.
Wie erstelle ich einen Datenmanagementplan?
Ein Datenmanagementplan (DMP) ist ein lebendes Dokument, welches den Umgang mit Forschungsdaten von der Planung bis zum Abschluss eines Forschungsvorhabens mitsamt aller möglichen Anpassungen dokumentiert.
Der einzige Forschungsförderer, der einen DMP bisher explizit sechs Monate nach erfolgreichem Projektbeginn fordert, ist die EU. Die Gestaltung von DMPs ist bisher nicht konventionalisiert und obliegt so der Kreativität der Erstellenden. Insofern der Fördermittelgeber keine eigenen Templates bereitstellt, empfehlen wir die Nutzung des Templates von Science Europe aus dem Practical Guide to the International Alignment of Research Data Management (ab Seite 15) oder alternativ den webbasierten Dienst RDMO (s. Tools).
Wie organisiere ich meine Daten effizient?
Datenorganisation umfasst alle grundlegenden Prozesse und Methoden, die zum Wiederauffinden von Daten genutzt werden. Im Bereich des Forschungsdatenmanagements sind hierfür vor allem die Datei- und Ordnerbenennung, Ordnerstrukturierung und die Datenversionierung von zentraler Bedeutung. Erste Informationen zu diesem Thema bietet diese kurze Coffee Lecture von Christian Krippes.
Da im Arbeitsprozess häufig nicht nur zahlreiche Datensätze sondern durch verschiedene Modifizierungsstufen auch jeweilige Versionen entstehen, ist es empfehlenswert, einheitliche Festlegungen zur Dateibenennung und Versionierung zu treffen. Dies fördert kollaborative Arbeitsprozesse und ermöglicht darüber hinaus die langfristige Nachvollziehbarkeit und Nachnutzbarkeit der Daten während und nach dem Projekt. Zusätzlich sollte vor Projektbeginn eine erste Ordnerstruktur (z.B. für Rohdaten, Analysedaten, Datenauswertungen, Projektmaterialien etc.) erstellt werden, an die sich alle Projektmitarbeitenden zu halten haben.
Aufgrund der jeweiligen Besonderheiten der in den verschiedenen Fachdisziplinen erzeugten Daten können Namenskonventionen ganz unterschiedlich ausgestaltet sein. Dateinamen sollten jedoch stets eine Angabe über die Art der Daten (Originaldaten, bereinigte Dateien, Analysedateien), dem Dateistadium (Arbeitsdatei, Ergebnisdatei etc.) und dem Speicherdatum (im Format YYYY-MM-DD oder YYYYMMDD) beinhalten. Beispiele für Dateibenennungen sind etwa (s. auch HU Berlin: Dateien strukturieren):
- [Sediment]_[Probe]_[Instrument]_[YYYYMMDD].dat
- [Experiment]_[Reagens]_[Instrument]_[YYYYMMDD].csv
- [Experiment]_[Versuchsaufbau]_[Versuchsperson]_[YYYYMMDD].sav
- [Beobachtung]_[Ort]_[YYYYMMDD].mp4
- [Interviewpartner]_[Interviewer]_[YYYYMMDD].mp3
Für eine einfachere Versionierung der Dateien reicht die Angabe des Speicherdatums im Dateinamen wie oben angegeben meist aus. Sollten an einem Tag mehrere Versionen erstellt werden, muss bei der Benennung auf eine zweite Ebene der Versionierung zurückgegriffen werden. Dafür eignet sich einfach ein v2, v3 usw. am Ende des Dateinamens. Wenn es aber beispielsweise notwendig ist, Veränderungen an mehreren Dateien zu einer Version zusammenzuführen oder gemeinsam in großen Arbeitsgruppen zu versionieren, sollte dafür auf entsprechende Software wie z.B. Git und das GitLab der JLU (s. Tools) zurückgegriffen werden.
Was sollte ich bei der Wahl der Dateiformate beachten?
Um Daten langfristig aufbewahren und nachhaltig nutzen zu können, ist die Wahl eines geeigneten Dateiformats von zentraler Bedeutung. Grundsätzlich sollte darauf geachtet werden, dass Dateien bzw. Formate nicht verschlüsselt, komprimiert, proprietär oder patentiert sind. Bevorzugen Sie dementsprechend offene, dokumentierte Standards.
Formatempfehlungen finden Sie in den HeFDI-Empfehlungen zur Verwendung von Dateiformaten beim Einreichen
von Forschungsdaten, die auf den Empfehlungen der ETH Zürich basieren.
Welche Möglichkeiten habe ich zur Speicherung der Daten während des Arbeitsprozesses?
Die regelmäßige Sicherung der Daten während des Arbeitsprozesses ist angesichts möglicher technischer und menschlicher Fehler sehr wichtig. Alle Prozesse rund um die Datenspeicherung obliegen der Verantwortung der Forschenden, die darin durch die Infrastruktur der Universität unterstützt werden.
Das HRZ bietet für die Speicherung der Daten verschiedene Lösungen, die Sie hier finden können. Im Falle größeren Speicherplatzbedarfs insbesondere im Rahmen umfangreicherer Forschungsprojekte kontaktieren Sie bitte rechtzeitig das HRZ.
Wie kann ich die Datensicherheit in meinem Projekt und bei meinen Daten erhöhen?
Unter den Begriff Datensicherheit fallen alle Verfahren, die sich mit dem Schutz von Daten vor unbefugtem Zugriff, Verlust, ungewollten Veränderungen, Beschädigung, aber auch mit der sicheren Löschung von Daten befassen. Es gibt Verfahren, die übergeordnet durch die universitäre Infrastruktur oder die FDM-Verantwortlichen der Forschungsprojekte sichergestellt werden müssen und andere, die von allen auf der Arbeitsebene eingehalten werden sollten.
Auf Ebene der universitären Infrastruktur sollte deshalb von vorneherein eine möglichst hohe Netzwerksicherheit gegeben sein sowie Sicherheitssoftware und Firewalls bereitgestellt werden, die auf die Bedürfnisse der eigenen Institution angepasst ist. Außerdem ist es von Vorteil, wenn bereits auf dieser Ebene Backup-Strukturen existieren, auf die man notfalls zurückgreifen kann. Dennoch sollten auch auf Projekt- und Arbeitsebene Backup-Strategien (s. unten) eingeführt werden, die einen schnelleren Zugriff auf die gesicherten Daten zulassen.
In Projekten bedeutet dies für den FDM-Verantwortlichen beispielsweise ein Rollen- und Rechtemanagement als Zugriffskontrolle auf die Daten zu implementieren. Der Zugriff könnte durch die Nutzung einer Zwei-Faktor-Authentifizierung noch weiter gesichert werden. Außerdem sollten projektspezifische Sicherheitsrichtlinien und ein von allen Mitarbeitenden einzuhaltender Backup-Plan erstellt sowie regelmäßige projektinterne Schulungen zu diesem Thema durchgeführt werden. Ein backup-Plan soll in der Regel Antworten zu den folgenden Fragen liefern:
- Welches Backup-Tool verwenden Sie?
- Von welchen Daten soll ein Backup erstellt werden?
- Wo sollen die Backups der Daten gespeichert werden?
- Wie oft sollen Backups der Daten vorgenommen werden?
Auch das Erstellen eines Notfallplans sollte bereits im Planungsprozess mitgedacht werden, da wichtige Verantwortliche kurzfristig ausfallen können.
Auf der Arbeitsebene, wo aktiv mit den Daten gearbeitet wird, sollten Arbeitsweisen etabliert werden, die eine hohe Integrität der Daten gewährleisten. In den verschiedenen Modifikationsstadien (z.B. Originaldaten, bereinigte Daten, analysefähige Daten) sollten deshalb stets schreibgeschütze Versionen erstellt werden und alle weiteren Bearbeitungen anschließend nur in Kopien dieser Master-Dateien vorgenommen werden. Wird mit rechtlich sensitiven Daten gearbeitet und gibt es im Projekt oder an der eigenen Institution keine Infrastruktur, wo diese Daten DSGVO-konform abgelegt werden können, sollten die Daten vor der Speicherung und dem Austausch verschlüsselt werden (s. Tools). Um dem Verlust oder ungewollten Veränderungen vorzubeugen, ist es auf dieser Ebene außerdem wichtig, die vom FDM-Verantwortlichen vorgegebenen Backup-Routinen gemäß der 3-2-1-Backup-Regel (3 Kopien auf 2 unterschiedlichen Datenträgern sowie 1 an einem dezentralen Speicherort) in die tägliche Arbeit mit den Daten zu integrieren.
Wie bewahre ich meine Daten langfristig auf?
Gemäß den Grundsätzen guter wissenschaftlicher Praxis sollen Forschungsdaten in der Regel über einen Zeitraum von mindestens 10 Jahren aufbewahrt werden. Aufbewahrung meint in diesem Fall nicht zwangsläufig eine Veröffentlichung, auch wenn diese immer dann angestrebt werden sollte, wenn keine triftigen Gründe (z.B. rechtliche Hindernisse) dagegen sprechen, da die Einhaltung der Anforderungen an die Aufbewahrungsfristen so durch die publizierende Institution sichergestellt ist.
Die Umsetzung einer reinen Aufbewahrung ohne Veröffentlichung liegt bei den Forschenden. Theoretisch wäre dafür auch das Aufbewahren der Daten auf privaten Datenträgern ausreichend, insofern es z.B. für Überprüfungszwecke eine Möglichkeit gibt, an die Daten zu kommen (z.B. über die Angabe einer Kontaktadresse in der Textpublikation). Idealerweise geschieht die Aufbewahrung ohne Veröffentlichung jedoch in Repositorien, die eine solche Ablage erlauben (z.B. figshare), da dort unter anderem Metadaten vergeben werden können, ohne die eigentlichen Daten sichtbar zu machen. Für die Langzeitarchivierung (d.h. alles über 10 Jahre) und alle damit in Verbindung stehenden Prozesse (z.B. Emulation oder Migration) gibt es im hessischen Hochschulkontext noch keine nutzbaren Infrastrukturen, aber mit LaVaH ein Projekt, welches diese aufbauen will.
Warum sollte ich meine Daten möglichst Open Access veröffentlichen?
Das Veröffentlichen von Forschungsdaten bringt zahlreiche Vorteile mit sich:
- Langfristige Archivierung und Erfüllung von Förderbedingungen
Mit der Veröffentlichung Ihrer Forschungsdaten über anerkannte Repositorien wie z.B. JLUdata wird Ihnen eine Verfügbarkeit der Daten von mindestens zehn Jahren in der Regel garantiert, wodurch Sie sich keine Gedanken mehr über die Aufbewahrung machen müssen. Außerdem verlangen viele Forschungsförderer inzwischen die Veröffentlichung von Forschungsdaten als Voraussetzung für die Förderung. -
Sichtbarkeit, Nachnutzung und Innovation
Veröffentlichte Daten steigern die Sichtbarkeit ihrer Arbeit. Die Daten lassen sich besser auffinden und können so von anderen auf nationaler und internationaler Ebene für neue Analysen, Experimente oder Studien weiterverwendet werden, was Ressourcen einspart und Innovation fördert. -
Nachvollziehbarkeit, Transparenz und Zitierbarkeit
Offene Forschungsdaten ermöglichen es anderen, Ergebnisse zu überprüfen und nachzuvollziehen. Das erhöht die wissenschaftliche Integrität und fördert durch die Möglichkeit der Zitierbarkeit eine transparente Forschung gemäß der guten wissenschaftlichen Praxis. Untersuchungen zeigen, dass Veröffentlichungen häufiger zitiert werden, wenn auch die jeweils zugrunde liegenden Daten publiziert wurden (s. Piwowar & Vision 2013). -
Wissenstransfer in die Gesellschaft
Offen zugängliche Daten ermöglichen einen schnelleren Transfer von wissenschaftlichem Wissen in die Wirtschaft, Politik und Öffentlichkeit.
Wie finde ich ein passendes Repositorium?
Um das richtige Repositorium für Ihre Forschungsdaten zu finden, sollten Sie am besten folgendermaßen vorgehen:
- Auswahlkriterien/-fragen überlegen, z.B.
- Gibt es Beschränkungen hinsichtlich Dateigröße, Datensatzgröße oder Dateiformat?
- Ist die Vergabe der von mir gewünschten Lizenz möglich (z.B. unterstützen viele Repositorien keine Software-Lizenzen)?
- Sollen die Daten (erst einmal) zugriffsbeschränkt veröffentlicht werden (z.B. Möglichkeit zur Nutzung von Embargos oder kontrolliertem Zugriff)?
- Wird bei der Publikation eine DOI vergeben?
- Ist das Repositorium in irgendeiner Art und Weise zertifiziert (z.B. durch das CoreTrustSeal) oder lege ich da besonderen Wert drauf?
- Welche Rechte übergebe ich durch den Veröffentlichungsvertrag an das Repositorium?
- Wie nachhaltig ist das Repositorium?
- Erlaubt das Repositorium die Veröffentlichung der Daten für mindestens 10 Jahre? - Fachspezifische Repositorien prüfen
Viele Fachdisziplinen besitzen eigene Datenrepositorien, die die Bedürfnisse der jeweiligen Fachcommunity optimal erfüllen, indem beispielsweise auch fachspezifische Metadaten bei der Einreichung abgefragt werden. Der Einstieg gelingt beispielsweise über das Verzeichnis re3data.org, das mehr als 3.000 nationale und internationale Repositorien nach Fachdisziplin, Datenart oder Zertifikat indiziert. Leider bietet es keine Möglichkeit, die Ergebnisse nach Relevanz zu sortieren, weshalb die Auswahl des richtigen Repositoriums letztlich nicht trivial ist. - Institutionelles Repositorium finden
Sofern Sie kein passendes fachspezifisches Repositorium finden, nutzen Sie JLUdata, das Repositorium der Justus-Liebig-Universität Gießen. Bitte beachten Sie für die Einreichung die FAQ, den Veröffentlichungsvertrag sowie die HeFDI-Kurationsempfehlungen ( deutsch / englisch ), die zusammen mit Forschungsdatenreferenten verschiedener hessischer Hochschulen verfasst wurden und auch für Einreichende einen guten Überblick über die wichtigsten Aspekte geben, die bei der Datenkuration von den Kuratoren der hessischen Forschungsdatenrepositorien beachtet werden. - Generische Repositorien nutzen
Wenn Sie weder fachspezifische Repositorien finden und das institutionelle Repositorium z.B. aufgrund der Anforderungen durch die Datenkuration auch keine Option darstellt, stehen auch generische Repositorien wie Zenodo oder Figshare zur Verfügung. Auch diese vergeben DOIs, ermöglichen unterschiedliche Lizenzoptionen, aber sind häufig nicht kuratiert.
Unter welcher Lizenz sollte ich meine Daten veröffentlichen?
Die Veröffentlichung von Daten unter einer bestimmten Lizenz erlaubt eine detaillierte Festlegung der zulässigen Form ihrer Nutzung. Wenngleich in der Regel vor allem rein quantitative Daten selbst nicht dem Urheberrecht unterliegen, schaffen Sie durch die Nutzung einer offenen Lizenz eine Rechtssicherheit sowohl auf Seiten der bereitstellenden als auch der nutzenden Person. Auch bei dem Verzicht auf jegliche Beschränkungen ist es daher wichtig, diesen zu formulieren. Es ist an dieser Stelle aber auch wichtig anzumerken, dass der Verzicht auf die Urheberrechte an den Daten nicht die Pflicht zur Zitation der Nachnutzenden außer Kraft setzt, da sich diese aus der guten wissenschaftlichen Praxis und nicht aufgrund einer rechtlich bindenden Lizenzvereinbarung ergibt. Deshalb sollte eine Attributions-Lizenz auch nicht genutzt werden, um die Namensnennung bzw. das Zitieren praktisch zu erzwingen.
Je nachdem, ob man ausschließlich Daten oder eher Code bzw. Software veröffentlichen möchte, bieten sich verschiedene Lizenzmodelle an. Das verbreitetste Lizenzmodell für reine Datenpublikationen sind die Creative Commons-Lizenzen (CC-Lizenzen), die auch von den meisten Repositorien angeboten werden. CC-Lizenzen sind unabhängig vom lizenzierten Inhalt und decken Urheberrechte, Leistungsschutzrechte und in der aktuellen Version – sofern existent – auch das Datenbankherstellerrecht ab.
Für die Publikation von Code oder Software sollte man hingegen auf spezielle Softwarelizenzen zurückgreifen. Grundlegend werden diese in permissive und Copyleft-Lizenzen unterschieden. Das Copyleft entspricht bei den CC-Lizenzen dem SA-Baustein (Share Alike) und stellt sicher, dass abgeleitete Werke ausschließlich unter denselben Bedingungen, d.h. der Nutzung der gleichen Lizenz und der Offenlegung des Quellcodes, weiterzugeben sind. Sie schützen also die Freiheit der Software auch nach Weiterentwicklung. Die beiden bekanntesten Vertreter sind die GNU General Public License (GPL) und GNU Affero General Public License (AGPL). Permissive Lizenzen erlauben dagegen, dass abgeleitete Werke auch unter anderen möglicherweise proprietären Lizenzen weitergegeben werden können. Nachnutzende können den Quellcode also anpassen und müssen Anpassungen nicht zwingend offenlegen.
Unabhängig von Ihrer rechtlichen Verbindlichkeit erfüllt die Lizenz CC-BY die Idee von Open Access und Open Science sicherlich am ehesten, wogegen die ‚Weitergabe unter gleichen Bedingungen' zu Kompatibilitätsproblemen mit anderen Lizenzen, das Verbot von Bearbeitung zu Einschränkungen bei der Nutzung durch z.B. Data-Mining oder auch zu Problemen bei der Langzeitarchivierung führen kann. Das Verbot kommerzieller Nutzung erschwert die Verwendung in kommerziellen Datenbanken und reduziert damit potentiell die Sichtbarkeit Ihrer Forschung. Außerdem ist nicht eindeutig geklärt, was eigentlich alles unter die kommerzielle Nutzung fällt.
Welche Lizenz Sie auch wählen – Sie sollten eine bewusste und informierte Entscheidung treffen. Dieser Vortrag bietet noch einmal einen kurzen Überblick über Creative Commons Lizenzen und Lizenzierung im Allgemeinen. Welche Vorteile freie, Open Access-fördernde Lizenzen für die Bildung bringen, wird in folgendem Video zu Open Educational Resources gezeigt.
Was kann gegen eine Open Access-Veröffentlichung sprechen?
Auch wenn die eigene Forschung durch öffentliche Gelder gefördert wird kann es mehrere Gründe geben, Forschungsdaten nicht vollständig offen zugänglich zu machen:
- Datenschutz
Rechtsvorschriften wie die DSGVO untersagen eine Offenlegung personenbezogener, sensibler oder schützenswerter Daten ohne explizite Einwilligung der Betroffenen. Selbst eine Einwilligung kann unter Umständen nicht ausreichen, um die Daten komplett Open Access zu veröffentlichen. Mehr Informationen zum Umgang mit personenbezogenen Daten finden Sie hier. Im Zweifelsfall sollten Sie aber stets eine Prüfung durch einen Datenschutzbeauftragten in Betracht ziehen. - Urheberrecht und Nutzungsrechte
Rechte Dritter (z.B. an Bildern, Texten, Software) können dem vollständigen Open Access entgegenstehen, wenn das Material unter Lizenzrestriktionen steht. Häufig ist dies beispielsweise in der linguistischen Korpusforschung der Fall, wo der eigentliche Korpus bzw. die Textsammlung nicht mit veröffentlicht werden kann. - Patentrechte und Vertraulichkeit
Bei Forschungsprojekten mit Partnern aus der freien Wirtschaft können patentrechtliche Vereinbarungen gelten, die eine frühzeitige Veröffentlichung aufgrund des wirtschaftlichen oder gesellschaftlichen Erkenntnisinteresses (z.B. durch Innovationen) verhindern. - Unverhältnismäßiger Zeit- und Ressourcenaufwand
Die sorgfältige Aufbereitung, Dokumentation und ggf. rechtliche Prüfung für eine Open Access-Veröffentlichung ist oft zeitaufwendig. Dies kann bei sehr großen und komplexen Datensätzen vor allem dann ein legitimes praktisches Hindernis sein, wenn die Qualität der Veröffentlichung durch die veröffentlichende Person nicht mehr sichergestellt werden kann. -
Fördervorgaben und Embargofristen
Auch wenn viele Fördermittelgeber eine Open Access-Veröffentlichung empfehlen, gibt es bei den meisten keine absolute Pflicht. Teilweise sind Embargofristen oder Ausnahmen explizit vorgesehen. Wichtig ist, die Förderregelungen bereits vor Projektbeginn zu prüfen, um herauszufinden, welche Datensätze offen veröffentlicht werden sollten und welche nicht.
Welche Möglichkeiten habe ich, auch ohne Open Access-Veröffentlichung die Sichtbarkeit meiner Forschung zu erhöhen?
Selbst wenn Ihre Forschungsdaten nicht vollständig Open Access zugänglich gemacht werden können, gibt es Wege, die Sichtbarkeit Ihrer Forschung zu steigern:
- Metadaten und Datensatzbeschreibung publizieren
Hinterlegen Sie umfangreiche Metadaten (z.B. Beschreibung des Datensatzes, verwendete Methoden und Kontaktadresse) in einem Repositorium, das eine ausschließliche Veröffentlichung von Metadaten zulässt. So ist Ihr Datensatz auffindbar sowie über einen DOI zitierbar, auch wenn der Vollzugriff eingeschränkt ist. - Publikation aggregierter oder anonymisierter Daten
Wenn die Rohdaten aufgrund rechtlicher Hindernisse nicht publiziert werden können, ist vielleicht dennoch eine Publikation bearbeiteter Daten möglich, die auf diesen Rohdaten basieren. Für Korpora können dies beispielsweise Wortlisten samt Zählung oder die Publikation von Kollokationen oder Kookkurrenzen sein. Bei personenbezogenen Daten kann eine Anonymisierung in Betracht gezogen werden. Es ist wichtig, in der Beschreibung des Datensatzes dann auf mögliche Einschränkungen in der Nachnutzung aufmerksam zu machen. - Datenpublikation mit Zugangsbeschränkung
Stellen Sie die Daten unter kontrollierten Bedingungen bereit (z.B. nur nach Antrag oder Vertragsabschluss), damit interessierte Forschende sie unter bestimmten Auflagen nutzen können. Vor allem Forschungsdatenzentren wie Qualiservice oder QualiBi bieten Infrastrukturen, die diese Art der Veröffentlichung datenschutzkonform ermöglichen. Aber auch ResearchGate erlaubt beispielsweise eine Publikation der Metadaten von Datensätzen und anschließende Herausgabe auf Anfrage. - Data Journal-Publikationen
Publizieren Sie neben Ihrem eigentlichen Paper auch ein „Data Paper“ in einem Data Journal. Dies sind Fachartikel, in denen Sie Ihre Daten und deren Entstehung beschreiben, auf die Metadaten verweisen und gegebenenfalls die Bedingungen für einen Zugang erläutern.
Wo finde ich Forschungsdaten, die von anderen zur Nachnutzung publiziert wurden?
Um Forschungsdaten aus Ihrer Fachdisziplin und zu einem bestimmten Thema gezielt zu finden und ihre Relevanz zu prüfen, empfiehlt sich ein systematisches Vorgehen über mehrere Recherchewege:
- Suche in fachspezifischen Repositorien
Die effektivste Methode für das Finden von relevanten Forschungsdaten ist die Recherche in von der Forschungscommunity anerkannten fachspezifischen Repositorien, insofern Ihnen diese bereits bekannt sind. Sollte ein solches Repositorium nicht bekannt sein oder Sie wollen einmal über den Tellerrand schauen, können Sie für die Recherche der Repositorien re3data.org nutzen - Nutzung von disziplinübergreifenden Datenportalen und Datensuchmaschinen
Wenn Sie keinen Erfolg mit fachspezifischen Repositorien oder bei der Nutzung von re3data.org haben oder ein umfassenderes Bild wünschen, eignen sich große Datenportale oder Metasuchmaschinen wie DataCite Commons, be2find, BASE, OpenAIRE EXPLORE, Google Dataset Search oder die Datenportale der Fachinformationsdienste. Diese durchsuchen viele Repositorien und Datenbanken parallel, es werden aber teilweise nur allgemeine Metadaten ausgegeben. Außerdem ist teilweise nicht ersichtlich, ob die Daten frei verfügbar sind. - Recherche in Datenjournalen und Publikationen
Viele Forschungsdaten werden in Verbindung mit sogenannten Data Papers oder als Anhang zu Fachartikeln publiziert. Datenjournale beschreiben Datensätze sehr detailliert, verlinken direkt auf das Repositorium mit den eigentlichen Daten und bieten meist hohe Qualität bei der Dokumentation. Die Publikation eines Data Papers erhöht die Sichtbarkeit des Datensatzes und hilft Ihnen, relevante Informationen und Kontext zur Datenentstehung zu erhalten. Aber auch in normalen Journal-Publikationen lohnt es sich mittlerweile aufgrund der erhöhten Anforderungen durch die Forschungsförderer fast immer, zu schauen, ob dort auch Referenzen zu den Daten anhängen, die dann meist in generischen oder institutionellen Repositorien und nicht bei den Seiten der Journals selbst liegen.
Wie zitiere ich Forschungsdaten?
Um die Nutzung und Nachnutzung von eigenen und fremden Forschungsdaten im Sinne der guten wissenschaftlichen Praxis adäquat zu dokumentieren, ist eine eindeutige Datenzitation unerlässlich. Es gibt bislang keinen international verbindlichen Standard zur Datenzitation, aber etablierte Empfehlungen und Minimalstandards, die sich im deutschsprachigen Raum weitgehend durchgesetzt haben und sich an internationalen Vorbildern orientieren (z.B. DataCite). Viele Repositorien und Institutionen geben zudem konkrete Vorgaben.
Eine Datenzitation sollte mindestens folgende Elemente enthalten:
- Urheber/in
- Veröffentlichungsjahr
- Titel
- Versionsnummer (falls mehrere Versionen vorhanden sind)
- Publikationsagent (z.B. Name der Institution oder des Journals, bei der bzw. dem die Daten publiziert sind)
- Publikationsdienst (z.B. Name des Repositoriums, auf dem die Daten publiziert sind)
- Ressourcentyp (z.B. Datensatz, Text, Bild)
- Persistent Identifier (DOI oder andere dauerhafte Identifikatoren)
Eine Datenzitation sähe dann folgendermaßen aus:
Urheber/in (Veröffentlichungsjahr): Titel. Versionsnummer. Publikationsagent (Publikationsdienst). Ressourcentyp. Persistent Identifier.