ORGANISATION COLLECTE TRAITEMENT PRESERVATION PARTAGE REUTILISATION

Partager les {méta}données

En général, le partage des données est d’abord interne, entre services différents d’une même structure, ou entre partenaires d’un projet. Une fois que les données d’un projet sont nettoyées et stabilisées, il est important de penser à les publier. Les données de la recherche peuvent être publiées via un dépôt disciplinaire, institutionnel ou plus généraliste tel que l’entrepôt national Recherche Data Gouv. Il est recommandé de publier ces jeux de données dans un entrepôt sécurisé générant automatiquement un DOI (Digital Object Identifier). Certaines restrictions à la diffusion des données peuvent exister, notamment dans le cas de données personnelles ou sensibles. Le plus important est de se poser les bonnes questions telles que : quelles données partager ou publier ? Comment ? Dans quel délai ? Quelle licence sera associée aux données ? etc. [Source, Université Paris-Saclay]

Pourquoi standardiser par la métadonnée?
Quelles sont les métadonnées minimales à partager?
Focus sur l'outil développé par le PNDB : MetaShARK
Où partager ses {méta}données?
Entrepôts de données
Data paper
Partager les codes sources
Identifiant péréenne

Pourquoi standardiser par la métadonnée?

Standardiser par la métadonnée permet :

la description fine, l’inférence, l’identification et l'interopérabilité des données
s'intégrer dans l'approche la plus FAIR possible
une meilleure reproductibilité en sciences écologiques.

L’Ecological Metadata Language - EML- est un standard pivot mondialement reconnu et qui a plus de 25 ans de retours d’expériences par les écologues / écoinformaticiens du national center for Ecological Analysis and Synthesis dans le cadre du projet DataONE

Exemple de cas pratique de standardisation par la métadonnée (à gauche) et "traduction en EML" (à droite)

Images et textes tirés de M.B. Jones et al., 2006 https://www.annualreviews.org/doi/10.1146/annurev.ecolsys.37.091305.110031

Quelles sont les métadonnées minimales à partager?

La gouvernance du PNDB, a validé une liste de métadonnées indispensables afin d'avoir un degrès de "FAIRitude" (cf. principes FAIR) minimal et relativement élévé

Données ouvertes (CC-BY 4.0 compatible Etalab)
Licence obligatoire
Lien direct de téléchargement des jeux de données brutes
Périmètre thématique (Toute la biodiversité y compris la paléo- et archéo-biodiversité)
Périmètre géographique (Données produites par la France)
Couverture temporelle (à minima une date d’acquisition de données)
Résumé
Titre, auteurs et contacts
Cadre d’acquisition (a minima via un champ texte)
DOI / identifiants uniques
couverture taxonomique (si présence de taxons)
mots clés en lien avec Thesaurus
Attributs des données (Dictionnaire des attributs de données avec unités et descriptions)
Annotation sémantique (Mots-clés et noms d’attributs, ressources utilisables illimitées)

Ces informations minimales sont donc communes à toutes les fiches de métadonnées présentes dans le catalogue du PNDB

=> Le PNDB peut vous aider à identifier les informations minimales à collecter et partager lors de la rédaction d'un PGD [voir pages étapes du cycle de vie des données Organisation & Collecte] et vous former sur les principes FAIR et sur le cycle de vie des données [voir page Formations]

Focus sur l'approche développée par le PNDB autour de l'initiative de l'Environmental Data Initiative (EDI)

Le package R EML Assembly Line

Le package R EML Assembly Line, aussi nommé EAL, développé par l' EDI est un package R réalisé pour les scientifiques et les gestionnaires de données afin de créer des métadonnées EML de haute qualité pour la publication de jeux de données. EAL est optimisé pour automatiser les publications récurrentes (séries chronologiques ou données dérivées de sources de séries chronologiques) mais fonctionne bien pour les publications « ponctuelles », notamment via l'utilisation d'interface dédiée comme le package R Shiny MetaShARK ou celle de la plaetforme Galaxy. EAL donne la priorité à l'extraction automatisée de métadonnées à partir de fichiers de données afin de minimiser l'effort humain requis et encourage les meilleures pratiques EML pour permettre un haut degré de "FAIRitude" des jeux de données à moindres coûts.

Caractéristiques :

Optimisé pour automatiser les publications de données récurrentes
Fonctionne bien pour les publications de données ponctuelles
Donne la priorité à l’extraction automatisée de métadonnées à partir de fichiers de données
S'aligne sur les meilleures pratiques EML du réseau américain de recherche écologique à long terme (LTER)
Ne nécessite aucune connaissance d’EML
Nécessite peu de connaissance du langage R voire pas du tout si utilisé via MetaShARK et/ou Galaxy
Accepte tous les types de données
Indépendance vis a vis de l'entrepôt de donées de publication

Le PNDB a collaborer avec l'EDI dans le cadre du projet OpenMetaPaper pour contribuer au code source du package EAL et notamment ajouter la prise en charge des formats de données SIG (shapefile, GeoJSON, GeoTiff) et netCDF et également l'ajout d'annotation sémantique.

MetaShARK

Nota Bene : MetaShARK (pour Metadata Shiny Application for Resources and Knowledge) est un outil dont le développement d'une version de test a été financé par le Fond National pour la Science Ouverte, dans le cadre du projet OpenMetaPaper .

Il a pour objectif d'extraire et générer, avec le plus d’inférence/automatisation/suggestion possible, les métadonnées, c’est-à-dire les informations décrivant le contexte des données, et ce dans le format pivot international qui est EML.

MetaShARK est donc une application R Shiny en cours de développement sous forme d'une interface graphique et utilisant les packages R EML et EML Assembly Line. Cette interface permettra in fine de parcourir facilement les spécifications de l’EML et de saisir des métadonnées.

Nota Bene : toutes les {méta}données recherche moissonnées par le PNDB seront remontées au GBIF si ces dernières sont compatibles avec le format et standard "DarwinCore" (ex. Données d’occurrence primaires (incluant spécimens), Listes taxonomiques Métadonnées sur des ressources, Données d’échantillonnage).

Pour aller plus loin, rendez-vous sur les tutoriaux "gestion de données et métadonnées" développés par le PNDB pour l'initiative "Galaxy Ecology"

Où partager ses {méta}données?

Dans le cadre de la politique de Science ouverte portée par le Ministère de l'Esignement Supérieur et de la Recherche, le stockage de vos données doit se faire dans les entrepôts de données de votre institution ou entrepôt institutionnel. nous pouvons notamment citer les entrepôts INRORES du CNRS-INEE , dataverse de l'IRD , dataverse du CIRAD, ...

[Voir cette liste pour le domaine de la biodiversité]

=> Un groupe de travail coordonnée par le PNDB et le GBIF France, au sein de l'unité d'Appui et de Recherche - PatriNat - a rédigé une note synthèse "comprendre, partager, réutiliser les données de biodievrsité, complémentarité des systèmes d'information GBIF, SIB, SINP, PNDB". Cette dernière a pour objectif d'accompagner lescommunautés dans la compréhension, le partage et l'utilisation des données de biodiversité, et donc dans la préservation des {méta}données.

De plus Recherche Data Gouv propose un logigramme pour savoir "où déposer ses données?" voir le logigramme

Entrepôts de données

Dans le cadre de la politique de Science ouverte portée par le Ministère de l'Enseignement Supérieur et de la Recherche, le stockage de vos données doit se faire dans les entrepôts de données .

un entrepôt thématique

Dans le cas de disciplines structurées pour le partage des données, il existe des entrepôts thématiques, comme c'est le cas pour le domaine de la biodiversité

Réalisée par le Comité pour la science ouverte à travers le Collège des Données de la recherche , voici la note méthodologique pour aider à choisir l’entrepôt thématiques le plus adaptés à vos données. Ci-dessous les entrepôts thématique de confiance dans le domaine de la biodiversité ("environnement" et certains de "biologie").

Si aucun entrepôt thématique n’est identifié, les producteurs de données peuvent déposer, par ordre de priorité :

dans un entrepôt institutionnel, si applicable ;
dans un espace institutionnel de l’entrepôt pluridisciplinaire Recherche Data Gouv ;
dans l’espace générique de l’entrepôt Recherche Data Gouv

=> Le PNDB peut vous accompagner dans le choix du bon entrepôt pour vos données et métadonnées (Liste des responsables du réseau des systèmes d'informations - RSI - instance de gouvernance du PNDB)

Data Paper

Un data paper est une publication scientifique qui décrit précisément un jeu de données, et informe la communauté scientifique de son existence, de ses modalités et de son potentiel de réutilisation.

=> le qui, quoi, où, quand, commet, pourquoi des données = métadonnées

Il décrit un jeu de données via les métadonnées
Il démontre la qualité et quantité des données, leur méthode de collecte et de traitement.
Il montre l’originalité et la portée de ce jeu de données, ainsi que leur potentiel pour des utilisations futures (arguments décisifs pour l’acceptation de la publication).
Il donne généralement accès au jeu de données, dans un fichier attaché ou par un lien pérenne (URL, DOI) vers l’entrepôt (data repository, ou repository of research data) où le jeu est déposé. Le jeu de données décrit dans le data paper est en effet normalement accessible gratuitement à tous pour une réutilisation pouvant être commerciale (en France, licence ouverte Etalab V2.0 compatible licence CC-BY 4.0). Toutefois, selon les possibilités offertes par les entrepôts, les données peuvent être temporairement sous embargo, ou accessibles uniquement sur demande.

Source IRD : https://data.ird.fr/datapapers/ et adaptée

Cette valorisation de Data paper se fait en lien avec le GBIF France et dans le cadre du projet OpenMetaPaper (soutenu par le Fond National pour la Science Ouverte) qui vise à "booster" la plublication de data papers et de décrire finement les métadonnées

Pour aller plus loin autour des data papers : voir la documentation dédiée du service Information Scientifique et Technique du CIRAD

Partager les codes sources

L'approche partage de codes sources sur GitHub / GitLab, puis dans le but de proposer un haut degré de FAIRitude, les conseils sont de définir les dépendances via conda, puis de les mettre à disposition via des containers (par exemple via Docker ou Singularity), puis le cas échéant d'en faire un outil Galaxy-Ecology pour un accès direct aux fonctions du code source.

ACCES A LA PLATEFORME D'ANALAYSE GALAXY-ECOLOGY

=> Le PNDB peut vous accompagner dans la découverte de Galaxy-E (voir tutoriels en écologie) et/ou vous inititer à cette plateforme (voir Formations)

Identifiant péréenne

Un identifiant pérenne (Persistent identifier ou PID) est un code alphanumérique associé à un objet ou ressource de façon permanente. Il est disponible et gérable à long terme ; il ne changera pas si l’objet est renommé ou déplacé (changement de site, d’entrepôts de données…).Il peut s'agir par exemple d'un DOI, ou encore d'un numéro ORCID. [Source OPIDoR].

Lors que vous déposez vos données et métadonnées dans un entrepôts thématiques et/ou institutionnels, ce dernier vous attribue un DOI.

=> Le PNDB peut vous accompagner dans le choix du bon entrepôt de données, et relaie par son catalogue votre jeux de données et ses métadonnées via le DOI attribué par l'entrepôts.

Pour aller plus loin :

identifiant OPIDoR

ORGANISATION COLLECTE TRAITEMENT PRESERVATION PARTAGE REUTILISATION