Présentation des Outils & Services
En tant qu'infrastructure de recherche, les missions du PNDB s’inscrivent dans une approche FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable), et consistent à :
- fournir un accès aux jeux de données et de métadonnées, à des services associés et à des produits dérivés des analyses ;
- promouvoir l’animation scientifique pour identifier les lacunes en termes d'accompagnement à l'ouverture et à la réutilisation des données, et favoriser les complémentarités entre les communautés productrices et utilisatrices des données. ;
- faciliter le partage des pratiques avec les autres communautés de recherche, favoriser le partage des données et leur réutilisation, s’insérer dans la réflexion de l’infrastructure Data Terra.
- favoriser la cohérence avec les efforts nationaux, européens et internationaux relatifs à l’accès et à l’exploitation des données de recherche sur la biodiversité, à la promotion de produits et services.
En tant que centre de référence thématique du système Terre-Environnement pour le dispositif Recherche Data Gouv, le PNDB propose une offre d'outils et de services adaptés aux communautés de recherche en biodiversité.
Nota Bene : le PNDB facilite l'accès à des outils et services portés par d'autres acteurs de l'écoinformatique ou des données en général (ex. IPT du GBIF, plan de gestion de données de OpiDor, etc...)
Sommaire des outils et services
Outils du PNDB
Le tryptique "comprendre, partager, utiliser"
Le PNDB structure ses outils selon trois grands axes qui sont « comprendre les données et métadonnées », « les partager », et « les utiliser ».
Pour le premier axe comprendre, le PNDB souhaite développer en tant que centre de référence thématique en écoinformatique une entrée (ex. un site web qui représenterait une entrée ludique et didactique : MetaSEED) pour comprendre le monde des données et métadonnées de biodiversité et propose en attendant de se baser sur le site web (cf. partie service) et les tutoriels mis en ligne sur le site du réseau de formation Galaxy.
Pour l’axe partager les données, le PNDB développe actuellement l'outil MetaShARK Ce projet est en lien étroit avec le GBIF France pour la valorisation et la publication de data papers.
Nota Bene : MetaShARK (pour Metadata Shiny Application for Resources and Knowledge) est un outil R&D financé par le Fond National pour la Science Ouverte, dans le cadre du projet OpenMetaPaper . Cet outil n'est pas disponible car actuellement en crash test interne.
Pour l’axe utiliser :
- il y a le catalogue de métadonnées (Metacat) donnant un accès direct aux données référencées et en licence libre (CC-BY 4.0). Ce catalogue permet de présenter des rapports d’évaluation de la qualité des données/métadonnées selon les principes FAIR et de rassembler des ensembles de données dans des sous-portails dédiés.
- un service de plateforme d’analyse en ligne, (Galaxy-Ecology) qui permet de produire d’utiliser directement des outils pour construire des workflows analytiques permettant par exemple de générer des métriques en lien avec des indicateurs de suivi et d’état de la biodiversité en capitalisant notamment sur le concept de variables essentielles de biodiversité.
Accès directs aux outils du PNDB
Services du PNDB
Le PNDB propose des services de in-formations, d’accompagnement et de facilitation autour de la compréhension, du partage et de l’analyse des données de biodiversité à destination des communautés scientifiques. Il offre des services tout au long du cycle de la donnée allant de l’élaboration des plans de gestion de données à l’analyse de ces dernières via la production d’indicateurs, en passant par la publication de Data Paper.
De plus, en tant que centre de référence thématique du MESR, le PNDB contribue à favoriser l'appropriation des principes FAIR (Facile à Trouver, Accessible, Interopérable, Réutilisable) et à faire monter en compétence les communautés scientifiques concernées autour de la science ouverte et stimule les interactions entre producteurs et utilisateurs de données au travers de formations, ateliers, workshops, séminaires, facilitation de projets, articles & synthèses… et ce en lien avec les acteurs en écoinformatique (GBIF France, SIB, CESAB, etc...)
[Pour en savoir plus sur les centres de références thématiques]
Présentation "Comprendre le PNDB en 1 heure"
Cette présentation d'une durée d'1 heure peut se faire en présentiel ou en visio et comprend 2 temps : environ 1/2 h de présentation et 1/2h d'échange.
[Télécharger la présentation / Download the presentation]
Partager les {méta}données et publication d'un data paper
Standardiser par la métadonnée permet :
- la description fine, l’inférence, l’identification et l'interopérabilité des données
- s'intégrer dans l'approche la plus FAIR possible
- une reproductibilité en sciences écologiques.
L’Ecological Metadata Language - EML- est un standard pivot mondialement reconnu et qui a plus de 25 ans de retours d’expériences par les écologues / écoinformaticiens du national center for Ecological Analysis and Synthesis dans le cadre du projet DataONE
Un data paper est une publication scientifique qui décrit précisément un jeu de données, et informe la communauté scientifique de son existence, de ses modalités et de son potentiel de réutilisation.
=> le qui, quoi, où, quand, commet, pourquoi des données = métadonnées
- Il décrit un jeu de données via les métadonnées
- Il démontre la qualité et quantité des données, leur méthode de collecte et de traitement.
- Il montre l’originalité et la portée de ce jeu de données, ainsi que leur potentiel pour des utilisations futures (arguments décisifs pour l’acceptation de la publication).
- Il donne généralement accès au jeu de données, dans un fichier attaché ou par un lien pérenne (URL, DOI) vers l’entrepôt (data repository, ou repository of research data) où le jeu est déposé. Le jeu de données décrit dans le data paper est en effet normalement accessible gratuitement à tous pour une réutilisation pouvant être commerciale (en France, licence ouverte Etalab V2.0 compatible licence CC-BY 4.0). Toutefois, selon les possibilités offertes par les entrepôts, les données peuvent être temporairement sous embargo, ou accessibles uniquement sur demande.
Source IRD : https://data.ird.fr/datapapers/ et adaptée
Cette présentation se fait en lien avec le GBIF France et dans le cadre du projet OpenMetaPaper (soutenu par le Fond National pour la Science Ouverte) qui vise à "booster" la plublication de data papers et de décrire finement les métadonnées
----------------------------------
Exemple de format proposé pour un ateliersur le sujet :
- Première partie : les data papers et le projet OpenMetaPaper du PNDB
- 9h-9h45 Introduction aux data papers
- 9h45-10h15 Présentation du projet FNSO 2019 OpenMetaPaper
- Pause 10h15-10h30
- Deuxième partie : Intérêt de partager les données brutes sur entrepôt de données + métadonnées fines dans catalogue PNDB et en parallèle données au standard Darwin-Core dans GBIF. Présentation des outils permettant de générer la métadonnée détaillée en EML et de transformer les données au standard de Darwin Core :
- 10h30-11h Arpha writing tool / IPT pour GBIF
- 11h-11h30 Patager et générer des métadonnées détaillées
- 11h30 -12h échanges et questions
[voir un exemple] [webinaire PNDB/GBIF-Fr sur les data papers] [support de présentation PNDB/GBIF-FR sur les data papers]
Présentation "FAIR par le faire"
[Télécharger la présentation en CC-BY 4.0]
Atelier "FAIR Implementation Profile"
Les ateliers FAIR Implementation Profile - FIP - permettent un "diagnostic" des technologies, outils, standards, une cartographie nationale des système d'informations et entrepôts de données via l’approche FAIR (Facile à trouver, Accessible, Intéropérable, Réutiliseable) et d'accompagner et faciliter les structures à monter en compétences dans les principes FAIR
Initiation à Galaxy-Ecology
Galaxy-ecology est une plateforme d'analyses en ligne permettant de :
- le nettoyage des données
- la visualisation et les tendances
- la personnalisation et/ou l’utilisation de cadre analytiques robustes et reproductibles
- la production d’indicateur
Vous débutez sous Galaxy ou voulez juste voir comment cela fonctionne ? Vous trouverez des supports de formations en vous rendant sur le site du « Galaxy Training Network » dont des tutoriels introductifs à Galaxy et d’autres dédiés Galaxy-E. |
[Pour en savoir plus sur Galaxy-Ecology] [lien vers un webinaire "initiation à Galaxy-Ecology] [lien vers support de présentation "initiation à Galaxy-E"]
Atelier "variables essentielles de biodiversité"
un workshop : From raw biodiversity data to operational indicators through Essential Biodiversity Variables (cf. lien du congrès)
-
Abstract : Because data integration with different ecological scales in biodiversity science is complex, the biodiversity community (scientists, policy makers, managers, citizen, NGOs) needs to build, a framework of harmonized and interoperable data from raw, heterogeneous and scattered datasets, in order to observe, measure and understand the spatio-temporal dynamic of biodiversity from local to global scale. One of the most relevant approaches to reach that aim is the concept of Essential Biodiversity Variables (EBV). Because we can potentially extract a lot of information from raw datasets sampled at different ecological scales, the EBV concept represent a useful leverage for identifying appropriate data to be collated as well as associated analytical workflow for processing these data. Thanks to FAIR data and source code implementation (Findable, Accessible, Interopability, Reusable), it is possible to make transparent assessment of biodiversity by generating operational indicators through the EBV framework, and help designing or improving biodiversity monitoring at various scales.
Based on the EBV, the French biodiversity data hub (“Pôle National de Données de Biodiversité” - PNDB ), is an e-infrastructure for and by researchers developing an integrated framework for 1) extracting EBV information from raw data using Ecological Metadata Language , (EML), 2) running reproducible ecological analysis through open-access workflows, and 3) producing biodiversity indicators for research, expertise and policy makers thanks to the Galaxy-Ecology collaborative platform .
In line with both the GO FAIR initiative and the GEO BON network , the PNDB is proposing a case study to focus on i) advancing conceptual developments related to EBV, such as the complementarities between EBVs and Pressure-State-Response frameworks (e.g. DPsIR) or the improvement of the research/expertise interface, ii) implementing EBVs for and with various communities (scientific research, expertise and policy makers), and iii) operationalizing EBV based on existing technologies (EML, Galaxy-Ecology). All of this will benefit various communities of biodiversity scientists.
-
Auteurs : Coline Royaux (Sorbonne Université & MNHN), Jean-Baptiste Mihoub (Sorbonne Université), Olivier Norvez (FRB & MNHN), Sandrine Pavoine (MNHN), Dominique Pelletier (Ifremer), Aurélie Delavaud (FRB) & Yvan Le Bras (MNHN)
[le workshop est disponible içi]
Ressources en écoinformatique
Ci-dessous une liste de ressources (supports de formations, lien vers des école d'été, accompagnement pour ldes outils, etc...). Cette liste est non exhaustive (V1) et si vous désirez compléter/améliorer cette dernière, merci de nous contacter à contact.pndb(at)mnhn.fr