OpenMetaPaper


Résumé de la proposition

« La nature décline globalement à un rythme sans précédent dans l’histoire humaine – et le taux d’extinction des espèces s’accélère, provoquant dès à présent des effets graves sur les populations humaines du monde entier ». Afin de mieux protéger nos écosystèmes, nous devons mieux les connaître, et pour ce faire, faciliter l’accès et le partage des informations générées et utilisées par les chercheurs pour construire la connaissance scientifique en commençant par l’ouverture la plus généralisée possible des données. Dans les disciplines scientifiques liées à la donnée de biodiversité, la culture du partage de la donnée n’est pas aussi ancrée que dans les disciplines de la biologie moléculaire par exemple. Pour autant, l’ouverture des données n’est pas suffisante et il est primordial d’y associer des métadonnées détaillées en utilisant des standards largement utilisés à l’international. Dans ce cadre, il apparaît que le domaine de l’écologie possède un avantage face à la multiplicité des standards existants au sein des communautés liées aux technologies *omiques : l’existence d’un langage de métadonnée dédié, modulaire et exhaustif, l’EML. Le projet OpenMetaPaper propose de compléter les initiatives existantes au niveau du Pôle national de données de biodiversité, et en lien avec notamment le GBIF et le projet GO FAIR BiodiFAIRse afin de booster l’ouverture des données de recherche en écologie et d’accélérer les initiatives en cours autour de l’utilisation du standard EML et de ses liens avec les autres standards de données et métadonnées en écologie et dans les disciplines proches. Particulièrement, le projet propose de mettre l’accent sur la publication scientifique, objet de recherche principal de la valorisation des activités scientifiques, en testant un dispositif permettant de 1/ booster la production de “data paper” par la communauté en écologie et 2/ augmenter l’impact de ces articles en facilitant la publication de tel matériel dans des revues à haut facteur.


Programme de travail et tâches

Recrutement ingénieurs “gestion de données/métadonnées” et “développement logiciel scientifique” (T0)

Accompagnement des tâches de cartographie fonctionnelle des standards (T0 -> T0+24mois)

- Vers les standards du domaine tels que ISO1915 / ISO 19110, Darwin-core Archive, ...

- Élargissement vers les standards plus généraux

     - ISA https://www.isacommons.org/ permettant de faciliter des liens avec les communautés *omiques et de produire des “data packages” qui peuvent être directement soumis à des bases de données de séquences telle que ArrayExpress ou ENA. Cette tâche permettra notamment de poursuivre les liens entrepris avec les réseaux d’implémentation GO FAIR StRePo et Metabolomics

     - STAC https://stacspec.org/ permettant de faciliter les liens vers les communautés géospatiales. Pour tester une implémentation de STAC, consulter https://rocket.snapplanet.io . Cette tâche permettra notamment de poursuivre les liens entrepris avec les réseaux d’implémentation GO FAIR Gaia data

Développement de fonctionnalités de création de “data paper” sur outil open source existant MetaShARK https://github.com/earnaud/MetaShARK-v2 basé sur package R Shiny (T0 -> T0+24mois)

Intégration des cartographies fonctionnelles de standards sous forme de modules de conversion utilisables dans l’application MetaShARK

Amélioration du package R actuellement utilisé pour la fonctionnalté préliminaire de création de data paper dans MetaShARK, le package R emldown, et des packages liés EML et EML Assembly Line le cas échéant

Evolution de l’application MetaShARK à partir des améliorations apportées aux différents packages constitutifs (vidéo présentant l’état actuel des développements : https://www.youtube.com/watch?v=OVViSMzRGtw)

Animation (T0 -> T0+24mois)

Mise en place d’ateliers avec les scientifiques en mode “BYOD” (“Bring Your Own Data”) en créant le dérivé “PYOD” (“Publish Your Own Data”). Sous forme de “Collaboration Fest”, ces rendez-vous “Data Paper party”  seront réalisés avec les sous-communautés en écologie. Nous pourrons ici nous reposer sur les réseaux des quatre comités d’experts scientifiques du PNDB et leurs représentants

- Variabilité génétique des populations domestiques ou sauvages 

- Espèces, traits fonctionnels, communautés 

- Ecosystèmes et socio-écosystèmes, variables SHS 

- Données, scénarios, modélisation ; télédétection 

Généraliser l’utilisation de l’EML comme standard pivot de métadonnées en écologie pour décrire finement les données (T0+6mois -> T0+18mois)

D’après les résultats d’ateliers avec les scientifiques, identifier les avantages, inconvénients, limites de l’EML vis-à-vis des types de données, des protocoles et en lien avec d’autres standards de données (Darwin-core) ou métadonnées (ISO19115, ISO19139, O&M,…). Les résultats de ces travaux devront permettre de nourrir les échanges sur l’utilisation des standards dans, mais également en dehors, des communautés liées à la donnée de biodiversité

Utilisation et amélioration des outils PNDB (outil de saisie et publication de données/métadonnées MetaShARK, outil de catalogue de données/métadonnées basé sur Metacat)

Créer des liens fonctionnels avec des éditeurs de revues scientifiques de rang A et les développeurs de logiciels de type catalogues/entrepôts de données et/ou métadonnées utilisés dans le domaine (T0+12mois -> T0+24mois)

Revues scientifiques visées :

Logiciels de type entrepôts/catalogues de données et/ou métadonnées visés :


Financement

Ce projet est possible avec le concours financier du Fond National de la Science Ouverte (FNSO), dans le cadre de la politique générale "Science ouverte" du Ministère de l'Enseignement supérieur et de la Recherche / numéro de projet : AAPFNSO2019OpenMetaPaper-14026