Site d'information sur les

Données de la Recherche

Appel à projets 2016 : La qualité des données dans les Big Data

Publié le 04 décembre 2015 par Thérèse Hameau

Le défi Mastodons existe depuis 2012 et a progressivement constitué une communauté scientifique interdisciplinaire autour des Big Data et de la Science des Données. Deux appels à projets, en 2012 et 2013, ont soutenu 26 actions ainsi que l’émergence d’une communauté interdisciplinaire, structurée au sein d’un nouveau Groupement de recherche crée en 2015, le GDR MaDICS. Ce troisième appel à projets du défi Mastodons a pour objectif de compléter les précédents en suscitant des actions de recherche sur la qualité des données et des connaissances tant au niveau de leurs sources de production qu’au niveau de leurs processus de transformation et d’exploitation.

De nombreux domaines scientifiques (ex : le séquençage haut débit, observatoire virtuel en astronomie, simulation en physique et énergie, imagerie médicale, données environnementales biotiques comme abiotiques), économiques (ex : e-commerce, systèmes décisionnels), ou sociaux (ex : réseaux sociaux, bibliothèques numériques, patrimoines culturels) produisent et consomment des volumes de données considérables. L’ouverture des données (Open Data) et la corrélation entre sources de données (Linked Data) sont devenues des instruments de valorisation des données et posent à ce titre de nombreux problèmes d’hétérogénéité, de sémantique et de droits d’usage. Le CNRS, à travers ses unités de recherche et ses grands instruments, concentre plusieurs centaines de bases de données et de corpus d’informations dont les volumes croissent de façon exponentielle et dont la valorisation se révèle un enjeu stratégique. Cette valorisation ne peut être effective que si les données et les connaissances qui en dérivent sont caractérisées qualitativement, quoi qu’il en soit du caractère subjectif ou contextuel de la notion de qualité. Qu’elles proviennent d’observations, de calculs ou de numérisations, de simulation ou modélisation les données peuvent souffrir de multiples problèmes dus à leur hétérogénéité, leur sémantique ou leur transformation. Les erreurs ou les imperfections (biais expérimentaux) des données peuvent être d’origine technologique (survenant au niveau du capteur, de l’instrument de production, de la mémoire de stockage, du transfert sur le réseau…), d’origine humaine (générées lors des saisies, des annotations ou de l’interprétation des données…) ou, d’origine logicielle (erreurs de calcul, mauvaises transformations de formats, données tronquées, …). Les facteurs de qualité peuvent être de nature diverse : données inconnues ou incomplètes, données incohérentes, données incertaines, données obsolètes, données peu ou non crédibles, données ambiguës, types ou formats incompatibles, échelles ou unités de mesure incompatibles, conflits de nommage, conflits structurels…

Date limite : avant le le 26 janvier 2016 à minuit.

En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo. Pour plus d'informations, gérer ou modifier les paramètres, vous pouvez vous rendre sur notre page de politique de confidentialité.
OK
Modifier les paramètres