Leitfaden: Wie Sie Ihre Forschungsdaten veröffentlichen
Auswahl eines Datenrepositoriums - aka Wo die Daten veröffentlicht werden sollen
Es gibt im Allgemeinen zwei verschiedene Arten von Datenrepositorien:
- Allzweck-Repositorien, die das Hochladen und Veröffentlichen eines Ordners mit im Prinzip beliebiger Struktur und Inhalt ermöglichen. Sie haben eine niedrigere Einstiegshürde und sind bei weitem der häufigste Typ. Der Nachteil ist, dass der Inhalt normalerweise nicht maschinenlesbar ist.
- Bereichsspezifische Repositorien, die hochgeladene Daten parsen und normalisieren, um einen gemeinsamen Standard und reichhaltige Metadaten für die Maschinenlesbarkeit zu gewährleisten. Unser gewähltes Repositorium für Materialwissenschaften und kondensierte Materie ist NOMAD, entwickelt und gepflegt vom NFDI Konsortium FAIRmat. ct.qmat ist Mitglied von FAIRmat und wir arbeiten daran, unsere Workflows anzupassen, um einfach in NOMAD zu veröffentlichen. Daher betreiben wir eine ct.qmat NOMAD Oasis, die ein elektronisches Laborbuch, Analyse-Frameworks powered by JupyterHub und ein Datenrepositorium mit reichhaltigen Metadaten kombiniert.
Ihre Daten sind "out of the box" für NOMAD geeignet, wenn sie mit einer von NOMAD unterstützten Simulationssoftware1 erstellt wurden oder experimentelle Daten sind, die in NeXus2-Dateien gespeichert sind. In diesem Fall empfehlen wir Ihnen, über NOMAD zu veröffentlichen. In anderen Fällen könnte es sinnvoll sein, auf ein Allzweck-Datenrepositorium zurückzugreifen. Es gibt mehrere geeignete Optionen in absteigender Präferenzreihenfolge:
- Viele Zeitschriften haben ihr eigenes Repositorium, in dem sie die Veröffentlichung der zugehörigen Forschungsdaten verlangen.
- Institutionelle Repositorien
- Wenn keines der oben genannten Repositorien Ihren Bedürfnissen entspricht, können Sie ein öffentliches Datenrepositorium wie Zenodo nutzen, das vom CERN betrieben wird.
Drei einfache Schritte
Um Forschungsdaten zu veröffentlichen, empfehlen wir, die folgenden drei Schritte zu befolgen, bevor Sie ein Paper bei arXiv oder einer Zeitschrift einreichen. Wenn Sie über NOMAD veröffentlichen, können Sie direkt zu 2. Upload to Repository springen.
1. Datenvorbereitung
- Prüfen Sie, ob die Zeitschrift die Option verlangt oder anbietet, die elektronischen Forschungsdaten bei der Zeitschrift zu veröffentlichen. Wenn ja, folgen Sie den Richtlinien der Zeitschrift, wenn nicht, fahren Sie mit der Vorbereitung Ihrer Daten für WueData fort. Auch im ersten Fall finden Sie den folgenden Text möglicherweise nützlich.
- Bereiten Sie einen Ordner mit allen relevanten Daten auf Ihrem Computer vor. Dieser Ordner wird später in das Repositorium hochgeladen. Organisieren Sie den Ordner logisch und verständlich und vermeiden Sie tiefe Ordnerhierarchien. In den meisten Fällen können Sie die Struktur des Papers verwenden, um die Daten zu organisieren, z. B. indem Sie einen Unterordner für jede Abbildung (inkl. Anhängen) erstellen. Erstellen Sie eine menschenlesbare Klartext-README-Datei (z. B.
README.mdoderREADME.txt) im Stammordner, die die relevanten Daten/Codes/Konfigurationsdateien beschreibt, wo sie zu finden sind und (falls zutreffend) was getan werden muss, um die Ergebnisse zu reproduzieren. - Fügen Sie mindestens die Daten hinzu, die direkt in der Publikation verwendet wurden. Das bedeutet, dass jede Abbildung in Ihrer Publikation von den extrahierten Daten in einem Format begleitet sein sollte, das für andere lesbar ist. Wenn es beispielsweise einen Farbplot gibt, sollte das zugrunde liegende Datenarray veröffentlicht werden. Wenn möglich, versuchen Sie, Ihre Daten in einem gängigen Format zu exportieren, zum Beispiel csv- oder hdf5-Dateien. Vermeiden Sie Datenformate, die proprietäre Software zum Anzeigen benötigen. Es ist akzeptabel, die Daten in einem anderen Format hochzuladen, wenn diese Datei von einer Anleitung begleitet wird, wie die Daten geladen werden können.
- Stellen Sie sicher, dass die hochgeladenen Daten für externe Benutzer übersichtlich angeordnet sind. Verwenden Sie beispielsweise aussagekräftige Dateinamen wie
Figure_1_Panel_c. - Besprechen Sie zusätzlich zu den oben beschriebenen Daten mit Ihren Koautoren, welche anderen Daten nützlich zu teilen sind. Best Practice ist es, alle Rohdaten, alle selbst erstellten Codes und alle relevanten Skripte und Konfigurationsdateien von Instrumenten und Codes zusammen mit einer Beschreibung der Datenverarbeitung (z. B. in der Readme-Datei) zu veröffentlichen. Notieren Sie die verwendeten Softwarepakete einschließlich ihrer Versionen. Fügen Sie Quellcodes und/oder Skripte hinzu, die Sie zur Verarbeitung der Daten verwendet haben. Ziel ist es, dass andere die veröffentlichten Ergebnisse unter Verwendung der veröffentlichten Codes und der gemessenen Rohdaten reproduzieren können.
- Machen Sie Code und Skripte für die Veröffentlichung portabel und für andere nutzbar. Lesen Sie Daten beispielsweise nicht mit absoluten Pfaden (z. B. C:/my_name/PhD/project/raw_data/measurement.hd5), sondern nur mit relativen Pfaden (z. B. raw_data/measurement.hd5).
- Überprüfen Sie alles doppelt. Stellen Sie sicher, dass alle Koautoren und andere relevante Personen (z. B. Autoren von Codes, die Sie veröffentlichen möchten) der Veröffentlichung der Daten, Skripte und Codes zugestimmt haben. Entfernen Sie alle unnötigen Dateien, nicht teilbare Datenobjekte (roh und verarbeitet!), in Ihren Skripten fest codierte Passwörter, Kommentare mit privaten Informationen usw.
- Erstellen Sie eine einzelne Archivdatei aus Ihrem Datenordner. Es wird empfohlen, zip zu verwenden, da es von praktisch jedem Betriebssystem nativ unterstützt wird. Ihre Daten sind nun bereit zur Veröffentlichung. Ein beispielhaftes Datenpaket finden Sie hier.
2. Upload in das Repositorium
Anleitung für NOMAD
Weitere Details finden Sie in den Anleitungen auf der NOMAD-Website hier, hier und hier. Abgesehen von der Zuweisung einer DOI und der Registrierung eines Kontos sind die Anleitungen für unsere ct.qmat NOMAD Oasis identisch.
- Wenn Sie noch kein Konto auf dem zentralen NOMAD-Server unter https://nomad-lab.eu/prod/v1/ haben, ist die Registrierung einfach und erfordert Ihre E-Mail-Adresse.
- Sie müssen einen neuen Upload erstellen, der über den Menüpunkt PUBLISH -> Uploads oben links zugänglich ist.
- Sie können einen neuen leeren Upload erstellen oder einen Beispiel-Upload hinzufügen, der die Funktionen von NOMAD demonstriert.
- Sie können den Namen des Uploads ändern. Dies dient Ihrer Bequemlichkeit und hat keine funktionale Auswirkung.
- Ein Upload ist eine Ordnerstruktur, ähnlich einem Projektordner. Aber im Gegensatz zu den anderen auf dieser Seite besprochenen Repositorien besteht eine Veröffentlichung in NOMAD nicht primär aus diesem Ordner mit seinen Dateien und Unterordnern, sondern aus einer Reihe von Einträgen im NOMAD-Archiv in einem standardisierten Format. Dennoch sind die den Einträgen zugrunde liegenden Rohdateien ebenfalls zugänglich.
- Dateien können per Drag & Drop, Klicken oder über die API hinzugefügt werden. NOMAD entpackt automatisch .zip- und .tar.gz-Dateien.
- NOMAD scannt automatisch nach unterstützten Dateiformaten. Erkannte Dateien werden geparst und normalisiert, was bedeutet, dass die Daten extrahiert und in ein standardisiertes Format transformiert werden, wobei automatisch ein Eintrag für jede Hauptdatei generiert wird.
- Koautoren und Gutachter hinzufügen: Über die Schaltfläche
mit dem Tooltip "Manage upload members" rechts neben dem Upload-Namen können Koautoren und Gutachter hinzugefügt werden. Koautoren können den Upload bearbeiten, während Gutachter nur Lesezugriff haben. Beachten Sie, dass Sie die Koautoren vor der Veröffentlichung auflisten müssen.
- Autoren-Metadaten bearbeiten: Über die Schaltfläche "Edit author metadata" können zusätzliche Informationen zu einigen oder allen während des Parsens erstellten Einträgen hinzugefügt werden. Nämlich Kommentare und Referenzen (z. B. Links zu Publikationen). Darüber hinaus kann man ein Dataset erstellen, das die Einträge enthält, oder die Einträge zu einem bestehenden Dataset hinzufügen, wodurch Einträge aus mehreren Uploads kombiniert werden. Datasets sind die Objekte, die in NOMAD eine DOI haben können.
- Upload veröffentlichen:
- Dies veröffentlicht den Upload und verschiebt ihn aus Ihrem privaten Staging-Bereich in das öffentliche NOMAD. Dieser Schritt ist endgültig. Alle öffentlichen Daten werden unter der Creative Commons Attribution Lizenz (CC BY 4.0) zur Verfügung gestellt.
- Wenn Sie möchten, können Sie ein Embargo auf Ihre Daten legen. Dadurch werden einige Metadaten (z. B. chemische Formel, Systemtyp, Raumgruppe usw.) öffentlich, aber die Rohdatei- und Archivinhalte bleiben verborgen (außer für Sie und Benutzer, mit denen Sie die Daten explizit teilen). Sie können bereits Datasets erstellen und DOIs für Daten mit Embargo zuweisen, z. B. um sie in Ihr unveröffentlichtes Paper aufzunehmen. Das Embargo dauert bis zu 36 Monate. Danach werden Ihre Daten öffentlich zugänglich gemacht. Sie können das Embargo auch früher aufheben, wenn Sie möchten.
- DOI zuweisen: Um nach der Veröffentlichung eine DOI zuzuweisen, benötigen Sie ein Dataset wie unter Punkt 4 beschrieben. Über den Menüpunkt PUBLISH -> Datasets können Sie Ihre Datasets anzeigen und jedem eine DOI zuweisen.
Anleitung für WueData
- Wenn Sie sich zum ersten Mal registrieren, bitten Sie das universitätsweite FDM-Team (wuedata@uni-wuerzburg.de), Sie zu einem bestehenden Workspace hinzuzufügen oder einen für Ihre Forschungseinheit zu erstellen. Sie müssen folgende Informationen angeben:
- Ihren Namen
- Den Workspace, der Ihrer Forschungseinheit zugeordnet ist, z. B. "Experimentelle Physik 4"
- Wie viele Datenpakete Sie veröffentlichen möchten und wie viel Speicherplatz Sie benötigen.
- Wer die Publikationskosten über die kostenlosen 2TB hinaus trägt, halten Sie die verantwortliche Person (d. h. Gruppenleiter; Lehrstuhlinhaber) auf dem Laufenden.
- Einloggen in WueData. Sie können nun jeden Workspace auswählen, der Ihnen in der Übersicht zugewiesen wurde. Workspaces können einer Person oder einer Gruppe zugewiesen werden. Innerhalb eines Workspaces haben alle diesem Workspace zugewiesenen Benutzer Lese- und Schreibzugriff auf die darin gespeicherten unveröffentlichten Forschungsdaten und Metadaten.
- Erstellen Sie Ihre Datenpakete.
- Zu Beginn müssen Sie nur einen Titel angeben, der später geändert werden kann.
- Laden Sie Ihre Daten per Drag & Drop hoch.
- Wenn Sie gezippte Daten hochladen, stellen Sie sicher, dass das System die Daten während des Uploads entpacken darf (Häkchen bei "Unpack archive when uploading" setzen).
- Fügen Sie eine README-Datei hinzu.
- Füllen Sie alle Metadaten aus.
- Ihr Gruppenleiter (d. h. Lehrstuhlinhaber) hält die Rechte.
- Finanzierung und Herausgeber sollten mit dem Research Organization Registry (ROR) aufgeführt werden.
- ct.qmat ist https://ror.org/00kkpv737
- Fügen Sie die URI der Forschungsstipendien hinzu, die die Forschung finanziert haben.
- Erwähnen Sie zusätzlich ct.qmat im Feld "Description", da "Funding" derzeit nicht durchsuchbar ist.
- Nachdem Sie die hochgeladenen Daten und die Metadaten überprüft haben, klicken Sie auf die Schaltfläche "Bereit zum Publizieren" und kontaktieren Sie wuedata@uni-wuerzburg.de. Sie prüfen dann, ob sie die Daten öffnen und darauf zugreifen können, und senden Ihnen ein Kurationsprotokoll.
- Arbeiten Sie alle Punkte ein und kontaktieren Sie wuedata@uni-wuerzburg.de erneut. Die Daten werden dann nach maximal zwei Tagen veröffentlicht. Das Datenpaket erhält eine DOI, die Sie in Ihren Abschnitt zur Datenverfügbarkeit Ihres Manuskripts aufnehmen können.
- Nachdem Ihr Paper veröffentlicht wurde, können Sie die DOI der entsprechenden Paper-Publikation zu den Metadaten hinzufügen. Die Daten werden nun mindestens zehn Jahre lang gespeichert und können nicht mehr gelöscht oder geändert werden.
Anleitung für OpARA
Siehe auch die Opara-Anleitung der TUD.
- Loggen Sie sich mit Ihrem TUD- oder Gastkonto bei OPARA ein.
- Wählen Sie in Ihrem persönlichen Menü "My data".
- Erstellen Sie eine neue Einreichung, indem Sie auf die Schaltfläche "+" in der ersten Zeile klicken (oder die gezippte Datendatei dorthin ziehen).
- Wählen Sie "Submit to archive".
- Füllen Sie auf der Metadatenseite mindestens "Project title" (der Cluster wäre angemessen, stellen Sie sicher, dass "ct.qmat" irgendwo steht), die Projektwebsite (https://ctqmat.de), "Title" und "Abstract" für den Datensatz, "Type of the data", "Specifications of the disciplines", "Contributing persons" und "References to related materials" aus. Verwenden Sie letzteres, um den Link zum veröffentlichten Paper hinzuzufügen, dessen Daten Sie hochladen.
- Laden Sie die gezippte Datendatei hoch (falls nicht in Schritt 3 geschehen).
- Weisen Sie einen wissenschaftlichen Gutachter für die Daten zu (idealerweise einen ct.qmat-Kollegen mit Zugang zu OPARA).
- Klicken Sie auf die Schaltfläche "Deposit".
Anleitung für Zenodo
- Um etwas auf Zenodo hochzuladen, benötigen Sie ein Konto. Wenn Sie bereits ein ORCID- oder GitHub-Konto haben, können Sie diese direkt mit Ihrem Zenodo-Login verknüpfen und sich darüber anmelden.
- Wenn Sie auf die Upload-Schaltfläche klicken, erhalten Sie eine Seite, auf der Sie Ihre Dateien hochladen, die Art des Uploads bestimmen und Metadaten für das Forschungsobjekt erstellen können. Sie können Ihr Zip-Archiv einfach per Drag & Drop in das Upload-Fenster ziehen.
- Eine Zenodo-Publikation kann mit Zenodo-Communities verknüpft werden, um Publikationen zu bündeln und das Finden ähnlicher Publikationen zu vereinfachen. Sie finden die Schaltfläche zur Auswahl einer Community oben auf der Seite, über dem Datei-Upload-Fenster.
- Unter dem Upload-Fenster befinden sich die Datensatz-Metadaten. Füllen Sie die grundlegenden Informationen aus. Als Ressourcentyp können Sie z. B. Dataset wählen. Wählen Sie einen aussagekräftigen Titel, zum Beispiel Daten und Code für „Titel der Publikation“. Stellen Sie sicher, dass alle Autoren und Zugehörigkeiten hinzugefügt werden. Die Beschreibung sollte Informationen darüber enthalten, was die Daten sind und wo welche Teile der Daten zu finden sind. Sie können den Inhalt Ihrer Readme-Datei verwenden.
- Stellen Sie sicher, dass Sie die richtige Lizenz für Ihre Daten wählen. Wenn die Daten offen wiederverwendet und weiterverbreitet werden sollen, ist die Standard Creative Commons Attribution 4.0 International (CC BY 4.0) eine gute Wahl für die Datenlizenz.
- Unter den grundlegenden Informationen können Sie zusätzliche Metadaten eingeben. Dazu gehören unter anderem Mitwirkende (unterschieden von Autoren/Erstellern), Sprachen, Datensatzversion, Finanzierungsinformationen (ct.qmat ist https://ror.org/00kkpv737), verwandte Werke und Referenzen sowie Informationen zur Textpublikation.
- Der letzte Schritt ist das Speichern des Entwurfs, die Vorschau und die Veröffentlichung. Nach der Veröffentlichung erhalten Sie eine DOI für die veröffentlichten Daten. Ihr Forschungscode ist nun auffindbar, zitierbar, verständlich, reproduzierbar und archiviert. Wenn Sie Fehler finden und die Daten ändern möchten, können Sie auch eine neue Version desselben Projekts auf Zenodo hochladen.
3. Preprints und Publikationen aktualisieren
Ihr Preprint und später das Paper sollten das Datenrepositorium zitieren. Phys. Rev. empfiehlt beispielsweise, einen Satz vor den Danksagungen hinzuzufügen. Sie können so etwas verwenden wie „Die unterstützenden Daten und Codes für diesen Artikel sind verfügbar bei WueData [REF].“ Hier ist [Ref] ein Eintrag in Ihrer Bibliographie, der die DOI in der Form AUTORENNAMEN, JAHR, WueData, url zitiert. Alle innerhalb von ct.qmat veröffentlichten Preprints und Paper sollten auch zu unserer Publikationsdatenbank hinzugefügt werden, die hier zu finden ist.
-
Eine Liste der unterstützten Simulationssoftware finden Sie hier unter "Processing". ↩
-
NeXus ist ein FAIR-Datenformat, das von NOMAD für experimentelle Daten verwendet wird, siehe hier. NOMAD/FAIRmat stellt Werkzeuge zur Konvertierung von Daten nach NeXus zur Verfügung. Wenn Sie daran interessiert sind, Ihre Daten nach NeXus zu konvertieren, können Sie sich an datamanagement.ct.qmat@listserv.dfn.de wenden oder direkt auf dem FAIRmat Discord Server fragen. Abhängig von Ihrem Format und Ihren Geräten gibt es möglicherweise bereits einen einfachen Workflow. Wenn nicht, könnte es sinnvoll sein, vorerst eines der anderen Repositorien zu verwenden, aber Sie können damit beginnen, einen Workflow für die Konvertierung zukünftiger Daten zu entwickeln. ↩