Les données prennent de plus en plus d’importance dans le monde numérique, mais elles ont toujours existé. Chaque document d’archives, même manuscrit, est un ensemble de données. Mais qu’en est-il des données qui décrivent des documents d’archives? C’est ce qu’on appelle les métadonnées : les données concernant des données. Les métadonnées ont une importance énorme, parce qu’elles deviennent la voix des données d’origine. Qui plus est, dans le monde numérique, les données les plus visibles sont généralement des métadonnées. Par exemple, quand nous observons un tableau ou une photo, l’œuvre physique correspond aux données, tandis que tous les renseignements sur l’œuvre (le titre, le genre, l’année, le nom de l’artiste, etc.) sont des métadonnées. Quand une personne veut de l’information sur une œuvre en particulier, sa description a souvent plus d’utilité que l’œuvre elle-même. Et si on essayait de se servir des métadonnées pour visualiser une collection? Qu’est-ce que cela pourrait nous apprendre sur les données d’origine? Voilà ce que j’ai cherché à comprendre. 

Dans mon cours de sciences humaines numérique à l’Université Carleton, j’ai eu pour tâche de créer un projet numérique. J’ai choisi d’incorporer les travaux réalisés à la bibliothèque et aux archives du Musée canadien de la nature. Depuis 2019, je numérise et j’importe des images des archives du Musée ayant trait à l’Arctique. J’ai donc exporté les métadonnées du logiciel de gestion des actifs numériques Portfolio afin de créer des graphes de connaissance.  

J’avais pour objectif initial d’acquérir de l’expérience dans les graphes de connaissance. Je n’en avais encore jamais utilisé, mais quand mon superviseur, Shawn Graham, m’a expliqué de quoi il s’agissait, j’ai décidé de me lancer. Cette représentation visuelle des données m’aiderait à répondre à deux questions : Qu’est-ce que j’ai numérisé? De qui vient ce que j’ai numérisé? Toutefois, comme la taille de mon ensemble de données était relativement modeste, j’ai décidé d’en ajouter d’autres. Je me suis concentré sur les trois principaux catalogueurs d’images dans Portfolio : moi-même, Christina Kum (l’actuelle gestionnaire des actifs numériques) et Susan Goods (gestionnaire des actifs numériques à la retraite).  

Pour le premier graphe, j’ai décidé d’isoler les données sur chaque espèce (représentées par leur nom commun en anglais) et de les relier selon leurs relations taxonomiques. J’ai ainsi créé une carte de toutes les espèces que nous avions tous les trois cataloguées dans Portfolio. Compte tenu du temps dont je disposais et de la quantité de données disponibles, j’ai limité mes résultats aux espèces répertoriées par les créateurs d’images (photographes) ayant téléversé au moins 10 images. Le produit final est un graphe détaillé des espèces numérisées. Le graphe adopte un code de couleurs selon le règne, sauf pour les animaux, qui se distinguent selon la classe. 

Depuis un cercle central, des ramifications de points de données multicolores représentant des groupes taxonomiques d’animaux, de végétaux et de minéraux forment un réseau.
Carte des données extraites de Portfolio représentant différents groupes taxonomiques. Image: Callum McDermott © Musée canadien de la nature

Le deuxième graphe est axé sur les catalogueurs, les personnes qui ont téléversé les données. Cette fois, Christina, Susan et moi sommes représentés comme trois nœuds principaux de couleurs différentes, rattachés aux photographes qui sont également reliés aux espèces (selon leur nom commun anglais) auxquelles leur nom est attribué. Chaque photographe devait voir son nom attribué à au moins 10 images pour figurer dans ce graphe. Ce graphe nous indique qui (de Christina, Susan ou Callum) a numérisé la production de chaque photographe et de quelles espèces chaque photographe a pris des photos. Cela nous aide à savoir qui pourrait avoir des connaissances spécialisées sur un fond ou une galerie en particulier. 

De multiples embranchements de points de données multicolores forment un réseau à partir de trois noms : Christina, Susan et Callum. Chaque nom se ramifie vers les noms de différentes espèces.
Carte des données extraites de Portfolio représentant les trois principaux intervenants qui ont versé des images dans la base de données et les types d’espèces répertoriées dans leurs images respectives. Image: Callum McDermott © Musée canadien de la nature 

Le troisième graphe est centré sur les créateurs d’images dans Portfolio. Dans ce dernier graphe, à chaque photographe correspond une couleur unique, et les embranchements représentent les espèces non étiquetées contenues dans les images qu’elle ou il a créé. Cette représentation vise à informer le musée du volume d’images versées par les membres de son effectif.

De multiples embranchements de points de données multicolores forment un réseau à partir d’un nom central.
Carte des données extraites de Portfolio représentant les différentes personnes dont les images se trouvent dans Portfolio. Image: Callum McDermott © Musée canadien de la nature

J’ai amorcé ce projet dans le but de répondre à des questions concernant la nature des images numérisées, mais en cours de route, ces trois graphes m’ont appris trois autres éléments que je n’avais pas prévus :  

Premièrement, le graphe qui porte sur le nom commun des espèces me révèle que la plupart des efforts de numérisation sont concentrés sur l’Arctique. Cela n’avait rien de bien étonnant, car j’ai été engagé dans le but précis de numériser des documents sur l’Arctique; de plus, les dangers croissants de l’évolution du climat attirent de plus en plus l’attention sur cette région depuis plusieurs années.  

Deuxièmement, les graphes nous informent de l’évolution de la collection. Ils peuvent nous aider à expliquer qui figure dans la base de données et à répondre à des questions plus fondamentales à propos de l’institution : Qui a travaillé dans quels domaines? Quelles collections sont intégrées activement à Portfolio?  

Enfin, les graphes nous donnent des réponses au sujet des créateurs. Comment priorise-t-on les images à numériser? Les images les plus importantes sont celles qui correspondent aux priorités stratégiques du Musée ou qui présentent le plus grand risque de perte d’information. Comme plusieurs membres du personnel sont en fin de carrière, nous devons nous assurer d’avoir le plus de documents et d’information émanant d’une personne avant son départ à la retraite. Identifier les lacunes de notre collection nous permet d’inciter le personnel à téléverser ses images sur une base régulière. 

Les trois graphes illustrent une des nombreuses façons d’utiliser des métadonnées pour éclairer et explorer les données d’origine elles-mêmes. Cette présentation visuelle des métadonnées nous révèle des tendances. Les métadonnées renferment de l’information essentielle : elles constituent la voix des données, qui les décrit et leur donne de l’agentivité, mais elles peuvent aussi devenir le visage des données dans une représentation visuelle qui illustre de nouvelles tendances et des liens qui demeureraient cachés dans leur format d’origine. 

Texte traduit de l’anglais.