Présentation des Outils & Services
En tant qu'infrastructure de recherche virtuelle et centre de référence thématique du système Terre-Environnement, le PNDB propose une offre d'outils et de services adaptés aux communuatés de recherche en biodiversité.
Les missions du PNDB s’inscrivent dans une approche FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable), et consistent à :
- fournir un accès aux jeux de données et de métadonnées, à des services associés et à des produits dérivés des analyses ;
- promouvoir l’animation scientifique pour identifier les lacunes en termes d'accompagnement à l'ouverture et à la réutilisation des données, et favoriser les complémentarités entre les communautés productrices et utilisatrices des données. ;
- faciliter le partage des pratiques avec les autres communautés de recherche, favoriser le partage des données et leur réutilisation, s’insérer dans la réflexion de l’infrastructure Data Terra.
- favoriser la cohérence avec les efforts nationaux, européens et internationaux relatifs à l’accès et à l’exploitation des données de recherche sur la biodiversité, à la promotion de produits et services.
Sommaire des outils et services
Outils du PNDB
le tryptique "comprendre, partager, utiliser"
Le PNDB structure ses outils selon trois grands axes qui sont « comprendre les données et métadonnées », « les partager », et « les utiliser ».
Pour le premier axe comprendre, le PNDB développe en tant que centre de référence thématique en écoinformatique un site web (MetaSEED) qui sera une entrée ludique et didactique pour comprendre le monde des données et métadonnées de biodiversité.
Pour l’axe partager les données, le PNDB développe actuellement, dans le cadre d'un projet R&D (financement Fond National pour la Science Ouverte), une application interactive (MetaShARK) pour extraire et générer, avec le plus d’inférence/automatisation/suggestion possible, les métadonnées, c’est-à-dire les informations décrivant le contexte des données, et ce dans le format pivot international qui est EML et dont nous parlions à l’instant.
Pour l’axe utiliser :
- il y a le catalogue de métadonnées (Metacat) donnant un accès direct aux données de biodiversité référencées et en licence libre (CC-BY 4.0).
- un service de plateforme d’analyse en ligne, (Galaxy-Ecology) qui permet de produire ou d’utiliser directement des workflows analytiques pour générer par exemple des indicateurs de suivi et d’état de la biodiversité en capitalisant notamment sur le concept de variables essentielles de biodiversité.
Accès directs aux outils du PNDB
Services du PNDB
Le PNDB propose des services d’accompagnement et de facilitation autour de la compréhension, du partage et de l’analyse des données de biodiversité à destination des communautés scientifiques. Il offre des services tout au long du cycle de la donnée allant de l’élaboration des plans de gestion de données à l’analyse de ces dernières via la production d’indicateurs, en passant par la publication de Data Paper.
De plus, en tant que centre de référence thématique du MESR, le PNDB le PNDB contribue à favoriser le concept FAIR (Facile à Trouver, Accessible, Interopérable, Réutilisable) et à faire monter en compétence les communautés scientifiques concernées autour de la science ouverte et stimule les interactions entre producteurs et utilisateurs de données au travers travers de formations, ateliers, workshop, séminaire, facilitation de projets, articles & synthèse…
[Pour en savoir plus sur les centres de références thématiques]
Présentations / Informations
Comprendre le PNDB en 1 heure
Cette présentation d'une durée d'1 heure peut se faire en présentiel ou en visio et comprend 2 temps : environ 1/2 h de présentation et 1/2h d'échange.
Simplixifier le paysage des acteurs données de biodiversité
Qui fait quoi ? Où dois-je déposer mes données? Comment utliser les données ou outils associés ? qui contacter?
Le paysage des acteurs "données de la biodiversité" en France étant relativement complexe (mais pas compliqué), le PNDB propose une présentation pour "simplixifier" ce paysage et ainsi "orienter/accompagner" les communautés de recherche pour s'orienter. Ce travail se fait notamment dans le cadre dun groupe de travail interne PatriNat visant à expliquer les liens (fonctionnels/scientifiquess/techniques) entre les différents systèmes d'informations (ex. SINP, SIB, GBIF, etc.) et entrepôts de données (Indores, Recherche Data Gouv, Data Sud, etc.).
Exemple d'infographie pour expliquer le chemin pour partager des {méta}données de biodiversité
Présentation de Galaxy-Ecology
Galaxy-ecology est une plateforme d'analyses en ligne permettant de :
- le nettoyage des données
- la visualisation et les tendances
- la personnalisation et/ou l’utilisation de cadre analytiques robustes et reproductibles
- la production d’indicateur
Présentaiton partager les {méta}données
Standardiser par la métadonnée permet :
- la description fine, l’inférence, l’identification et l'interopérabilité des données
- s'intégrer dans l'approche la plus FAIR possible
- une reproductibilité en sciences écologiques.
L’Ecological Metadata Language - EML- est un standard pivot mondialement reconnu et qui a plus de 25 ans de retours d’expériences par les écologues / écoinformaticiens du national center for Ecological Analysis and Synthesis dans le cadre du projet DataONE
Présentation des Data papers
Un data paper est une publication scientifique qui décrit précisément un jeu de données, et informe la communauté scientifique de son existence, de ses modalités et de son potentiel de réutilisation.
=> le qui, quoi, où, quand, commet, pourquoi des données = métadonnées
- Il décrit un jeu de données via les métadonnées
- Il démontre la qualité et quantité des données, leur méthode de collecte et de traitement.
- Il montre l’originalité et la portée de ce jeu de données, ainsi que leur potentiel pour des utilisations futures (arguments décisifs pour l’acceptation de la publication).
- Il donne généralement accès au jeu de données, dans un fichier attaché ou par un lien pérenne (URL, DOI) vers l’entrepôt (data repository, ou repository of research data) où le jeu est déposé. Le jeu de données décrit dans le data paper est en effet normalement accessible gratuitement à tous pour une réutilisation pouvant être commerciale (en France, licence ouverte Etalab V2.0 compatible licence CC-BY 4.0). Toutefois, selon les possibilités offertes par les entrepôts, les données peuvent être temporairement sous embargo, ou accessibles uniquement sur demande.
Source IRD : https://data.ird.fr/datapapers/ et adaptée
Cette présentation se fait en lien avec le GBIF France et dans le cadre du projet OpenMetaPaper (soutenu par le Fond National pour la Science Ouverte) qui vise à "booster" la plublication de data papers et de décrire finement les métadonnées
Image Doranum
Ateliers / Formations
Les formats des ateliers/formations est d'environ 1/2 journée (et ajustables selon les besoins et attentes)
FAIR par le faire
Vous débutez sous Galaxy ou voulez juste voir comment cela fonctionne ? Vous trouverez des supports de formations en vous rendant sur le site du « Galaxy Training Network » dont des tutoriels introductifs à Galaxy et d’autres dédiés Galaxy-E. |
[Pour en savoir plus sur Galaxy-Ecology]
MetaShARK (pour Metadata Shiny Application for Resources and Knowledge) est un projet débuté dans le cadre du stage de M2 Bioinformatique d’Elie Arnaud, aujourd’hui ingénieur développeur et métadonnées PNDB, à la station marine de Concarneau. MetaShARK est une application R Shiny sous forme d'une interface graphique et utilisant les packages R EML et EML Assembly Line. Cette interface permet de parcourir facilement les spécifications de l’EML et de saisir des métadonnées. Cette application est accessible sur l’espace Github dédié https://github.com/earnaud/MetaShARK-v2 et utilisable sur metashark.test.pndb.fr (il faut rafraichir la page si message erreur).
Un data paper est une publication scientifique qui décrit précisément un jeu de données, et informe la communauté scientifique de son existence, de ses modalités et de son potentiel de réutilisation.
=> le qui, quoi, où, quand, commet, pourquoi des données = métadonnées
Exemple de format proposé :
- Première partie : les data papers et le projet OpenMetaPaper du PNDB
- 9h-9h45 Introduction aux data papers
- 9h45-10h15 Présentation du projet FNSO 2019 OpenMetaPaper
- Pause 10h15-10h30
- Deuxième partie : Intérêt de partager les données brutes sur entrepôt de données + métadonnées fines dans catalogue PNDB et en parallèle données au standard Darwin-Core dans GBIF. Présentation des outils permettant de générer la métadonnée détaillée en EML et de transformer les données au standard de Darwin Core :
- 10h30-11h Arpha writing tool / IPT pour GBIF
- 11h-11h30 MetaShARK pour génération de métadonnées détaillées au format EML pour PNDB
- 11h30 -12h échanges et questions
Les ateliers FAIR Implementation Profile - FIP - permettent un "diagnostic" des technologies, outils, standards, une cartographie nationale des système d'informations et entrepôts de données via l’approche FAIR (Facile à trouver, Accessible, Intéropérable, Réutiliseable) et d'accompagner et faciliter les structures à monter en compétences dans les principes FAIR
Workshop "variables essentielles de biodiversité
un workshop : From raw biodiversity data to operational indicators through Essential Biodiversity Variables (cf. lien du congrès)
-
Abstract : Because data integration with different ecological scales in biodiversity science is complex, the biodiversity community (scientists, policy makers, managers, citizen, NGOs) needs to build, a framework of harmonized and interoperable data from raw, heterogeneous and scattered datasets, in order to observe, measure and understand the spatio-temporal dynamic of biodiversity from local to global scale. One of the most relevant approaches to reach that aim is the concept of Essential Biodiversity Variables (EBV). Because we can potentially extract a lot of information from raw datasets sampled at different ecological scales, the EBV concept represent a useful leverage for identifying appropriate data to be collated as well as associated analytical workflow for processing these data. Thanks to FAIR data and source code implementation (Findable, Accessible, Interopability, Reusable), it is possible to make transparent assessment of biodiversity by generating operational indicators through the EBV framework, and help designing or improving biodiversity monitoring at various scales.
Based on the EBV, the French biodiversity data hub (“Pôle National de Données de Biodiversité” - PNDB ), is an e-infrastructure for and by researchers developing an integrated framework for 1) extracting EBV information from raw data using Ecological Metadata Language , (EML), 2) running reproducible ecological analysis through open-access workflows, and 3) producing biodiversity indicators for research, expertise and policy makers thanks to the Galaxy-Ecology collaborative platform .
In line with both the GO FAIR initiative and the GEO BON network , the PNDB is proposing a case study to focus on i) advancing conceptual developments related to EBV, such as the complementarities between EBVs and Pressure-State-Response frameworks (e.g. DPsIR) or the improvement of the research/expertise interface, ii) implementing EBVs for and with various communities (scientific research, expertise and policy makers), and iii) operationalizing EBV based on existing technologies (EML, Galaxy-Ecology). All of this will benefit various communities of biodiversity scientists.
-
Auteurs : Coline Royaux (Sorbonne Université & MNHN), Jean-Baptiste Mihoub (Sorbonne Université), Olivier Norvez (FRB & MNHN), Sandrine Pavoine (MNHN), Dominique Pelletier (Ifremer), Aurélie Delavaud (FRB) & Yvan Le Bras (MNHN)
[le workshop est disponible içi]