Les petites cases

La conservation des données numériques n'est ni une révolution, ni inatteignable

Alors que je m’étonnais dans un tweet, suite à une interview d'Anne Both, qu'on puisse encore émettre des doutes sur la conservation des données numériques, Julien Benedetti a attiré mon attention sur la conférence-table ronde "Les archives : quoi de neuf" qui a eu lieu à l'Ecole des chartes le 12 décembre dernier avec trois éminents archivistes(-paléographes) : Christine Nougaret, Bruno Galland et Edouard Bouyé.

Etant donné les mots de Julien Benedetti, je me doutais bien que le sujet serait abordé sous l'angle défaitiste qui le caractérise depuis plusieurs années, mais je ne m'attendais pas à entendre deux grands professionnels des archives se sentir aussi démunis face à cette question. Lorsqu'on visionne les quelques minutes (de 34 min à 47 min environ...) consacrées à ce sujet, on s'aperçoit que les manques sont à tous les niveaux : formation, organisationnel, technique, stratégique et même économique. Je comprends alors mieux les mots d'Anne Both qui ne fait que retranscrire ce que les archivistes ont pu lui dire à ce sujet.

Quelques certitudes....

Je ne prétend pas détenir la réponse à toutes les questions, d'autant que je ne suis pas archiviste et que certains pourraient, à raison, m'opposer un procès en légitimité. Par ailleurs, je ne voudrais pas paraître "donneur de leçons", je me doute bien de l'extrême difficulté des archives départementales dont les moyens informatiques ne sont pas ceux dont nous disposons à l'Ina ou dont nous avons disposé lorsque j'ai participé à la mise au point de SPAR à la BnF. De plus, cette question du numérique n'est qu'un aspect parmi tant d'autres de leurs missions. Malgré tout, il existe trois choses dont je suis aujourd'hui certain.

La conservation des données numériques n'est pas une révolution

Dire comme le font Christine Nougaret et Bruno Galland que l'arrivée du numérique est une révolution pour le métier d'archiviste est à mon avis une erreur. Cette problématique persiste à être placée en marge du reste de l'activité quotidienne alors même que la conservation des données numériques s'appuie sur exactement les mêmes fondements du métier d'archiviste que pour les supports physiques traditionnels. S'il est vrai, comme le rappelle Bruno Galland, que l'expérience du numérique est complètement différente de celle des supports traditionnels, cela ne change en fait pas grand chose et la question du support (d'écriture et de consultation) n'est qu'un leurre (voire un prétexte...) sur lequel se focalisent à mon avis trop les archivistes.

Un marché de la conservation des données numériques sur le long terme n'existe pas et ne peut pas émerger (pour le moment ?)

Edouard Bouyé voit dans l'émergence d'un marché économique une solution pour prendre en main sérieusement cette question. Le lancement par l’Etat du programme Vitam vise, si j’ai bien compris, à mutualiser les coûts de développement et à favoriser l’émergence d’un écosystème autour d’une solution logicielle open source. Malgré cela, en l'état actuel des choses, un marché pour la conservation des données numériques sur le long terme ne peut pas exister pour au moins trois raisons :

  1. Il n'y a pas d'investissements massifs autant dans le privé que dans le public autour de cette question. Les entreprises ont besoin d'effectuer du stockage sécurisé pour, au plus, une ou deux dizaines d'années, point qu'on sait assez facilement résoudre (j'y reviendrai). Quant au long terme des archives publiques, les moyens à investir pour y parvenir sérieusement dépassent de très loin les possibilités de chaque AD.
  2. Par conséquent, la mise en place d'un système pour effectuer la conservation du numérique passe immanquablement par une mutualisation des infrastructures (permise d’ailleurs depuis peu par le SIAF) ce qui implique l'existence d'un petit nombre de systèmes et rend complexe le retour sur investissement du développement.
  3. Déployer un système qui assure le stockage, la surveillance et la consultation des données numériques ne résout pas tous les problèmes. La difficulté principale réside dans la récupération des données dans les systèmes sources et leur formatage dans des formats maîtrisables par le centre d'archives. Or, il faut effectuer un travail spécifique pour chaque solution déployée dans la collectivité. Qui dit travail spécifique, dit impossibilité de déployer une solution logicielle et donc inexistence d'un marché spécifique.

Des solutions (spécifiques) existent et fonctionnent

Les solutions pour permettre la conservation des données numériques existent et fonctionnent et je ne donnerai qu'un exemple que je connais bien (parmi d'autres) pour appuyer mon propos : SPAR (Système de préservation et d’archivage réparti) à la BnF. On fêtera en mars les 10 ans du lancement du projet d'implémentation de ce système et force est de constater qu'il fait le job sans, à ma connaissance, de changements majeurs dans son fonctionnement ou son architecture. Or, SPAR est basé sur un principe de base : la maîtrise parfaite de l'information numérique conservée. Voilà la clé : tout comme pour les supports traditionnels dont on maîtrise tous les paramètres de stockage, la conservation du document numérique passe par la maîtrise et la surveillance constantes des objets conservés. Certes, les outils ne sont pas les mêmes mais les actions le sont : tri, stockage, inventaire/description, surveillance, restauration/migration, consultation.

Tour d'horizon de la conservation des données numériques

Dans la suite de ce billet, je vous propose de revenir sur ces différents points pour essayer de montrer qu'au-delà des solutions existantes en la matière, c'est bien les compétences et savoir-faire traditionnels des archivistes qui sont en jeu (et à 8 ans d'écart, j'ai un peu l'impression de me répéter...).

Interroger les objectifs de la conservation ou la question du tri

En premier lieu se pose bien évidemment la question du tri. Au regard de la production sans cesse grandissante de données au format numérique, il est évident qu'il n'est pas possible de tout conserver. Comme le rappelle bien Anne Both dans l'entretien cité ci-dessus, le tri est déjà nécessaire pour les archives "traditionnelles" et les archivistes maîtrisent parfaitement cette problématique (contrairement à ce que certains historiens ont l'air de penser...). Je me garderai donc bien de m'immiscer dans ce débat de même que dans la question du records management, d'autant que cette problématique n'en est pas vraiment une pour les institutions pour lesquelles j'ai travaillé ou je travaille actuellement.

En revanche, comme tout support, le numérique présente des particularités qui induisent des questionnements sur ce qui est conservé. Or, les réponses à apporter dépendent de ce qu'on cherche justement à pérenniser. En effet, là où les supports traditionnels embarquent à la fois le support d'écriture et de lecture et l'information elle-même, ce n'est pas le cas dans le numérique et on peut conserver de manière indépendante chacune des couches :

  • le support de stockage lui-même ;
  • l'appareil nécessaire à la lecture du support ;
  • les logiciels capables de décrypter les informations stockées ;
  • les données elles-mêmes.

A chacun de ces niveaux est associé un objectif de conservation différent :

  • la mémoire des systèmes techniques ;
  • la mémoire de l'expérience utilisateur ;
  • la mémoire des informations elles-mêmes.

Pour illustrer mon propos, je vous propose tout d'abord de revenir sur l'exemple cité par Anne Both dans l'entretien cité ci-dessus : les textes des revues mises en ligne sur CAIRN. Celui-ci est particulièrement intéressant car, contrairement à ce qu'affirme Anne Both, ces données sont déjà pérennisées à au moins un titre : le dépôt légal du Web, mission que se partagent l'Ina et la BnF. Le site CAIRN (dont la BnF est aussi actionnaire) a été intégralement crawlé par la BnF. Les données ainsi collectées sont ensuite stockées dans SPAR dans un format maîtrisé, le WARC, surveillées par les experts de préservation et mises à disposition via les interfaces dédiées du dépôt légal du Web à la BnF. Dans ce cas, l'objectif est de conserver les données et l'expérience de navigation dans le site (ce qui n'est pas sans poser des questions sur la consultation sur le long terme mais j'y reviendrai plus loin). Mais, pour Cairn, on pourrait aussi se "contenter" de conserver les données : il suffirait alors d'extraire les textes des bases de données du site Web et de les encoder dans un format maîtrisable comme le XML. C'est assez simple à faire et la conservation de ce type de données ne pose pas de problème particulier. Le CINES assure déjà ce service pour HAL ou Persée.

Il existe des cas plus complexes comme le jeu vidéo ou l'art numérique pour lesquels l'adhérence entre le support de stockage et l'appareil pour le lire sont très importantes et l'expérience utilisateur essentielle à l'appréhension de l'objet archivé. Mais comme le montrent deux événements récents organisés par la BnF (Conservation du patrimoine vidéoludique. Quels enjeux ? Quels acteurs ? et Art numérique et postérité), les solutions émergent et font la preuve de leur efficacité. Ainsi, pour le jeu vidéo, la BnF conserve d'une part les appareils et cartouches et travaille d'autre part à l'émulation de ces différents jeux sur nos ordinateurs actuels pour en faciliter la consultation et l'étude. Le choix est, dans ce cas, de conserver les différents niveaux.

Pour les archives numériques des administrations, il me semble que ce sont bien souvent les données elles-mêmes qui sont intéressantes à conserver en priorité. Il ne s'agit pas de nier l'intérêt de pérenniser les applications de l'administration (leur histoire et surtout ce qu'elles renvoient  de la vision de l'administration sur ses propres missions pourraient être intéressantes). Mais les coûts et la complexité seraient exponentiels et on peut plutôt dresser un registre des applications existantes avec quelques copies d'écran permettant de donner une idée de leur fonctionnement.

Conserver le train de bits ou le stockage sécurisé

En premier lieu, il est nécessaire d'assurer la conservation du train de bits, c'est-à-dire de garantir l'intégrité de la donnée numérique dans le temps. Or, on le sait maintenant, il n'existe pas de support de stockage pérenne. Certains présentent plus d'assurance que d'autres comme c'est le cas des bandes magnétiques LTO, mais sans garantie absolue.

Deux actions sont à mettre en place pour assurer le stockage sécurisé :

  • effectuer différentes copies de la donnée si possible sur des supports (LTO ou disque dans un serveur) situés dans des espaces géographiques différents ;
  • surveiller régulièrement que ces différentes copies sont toujours intègres et en cas de problème effectuer une migration de support, c'est-à-dire changer le support endommagé et copier une des copies intègres sur un nouveau support.

Pour vérifier l'intégrité des données, il suffit de calculer régulièrement une empreinte de chaque fichier stocké (le MD5 par exemple est un système d'empreinte simple, efficace en la matière et implémenté sur tous les OS) et de comparer les empreintes.

Ce niveau de conservation ne demande pas des investissements faramineux et permet déjà de résoudre bien des problèmes. Il existe des solutions clé en main qui assure parfaitement ce service et si j'étais un service d'archive, je m'orienterai vers les solutions dans le cloud pour cela (ce qui semble permis par cette note d’information du SIAF même si cela est restreint au territoire français d’après ce billet). Et peut-être vais-je faire hurler certains d'entre vous, mais je pense que la solution glacier backup d'Amazon pourrait représenter un des espaces de stockage de secours, en plus d'une solution de stockage plus "locale" à base de serveurs de stockage. Mais, pour cela, peut-être faudra-t-il accepter que la mondialisation des échanges passe aussi par les archives ?

Garantir l’exploitabilité sur le long terme ou la maîtrise de la collection de données numériques

Si le stockage sécurisé permet d’assurer l’intégrité des données conservées, il ne garantit pas la capacité à les exploiter. Pour ce faire, il existe deux méthodes :

  • l’émulation, sur laquelle nous reviendrons plus en détail dans la prochaine partie, qui vise à reproduire le comportement d’une application et/ou d’une machine sur une autre machine le plus souvent grâce à un logiciel spécialisé appelé émulateur ;
  • la migration de format qui consiste à transformer la donnée numérique du format dans lequel elle est conservée vers un nouveau format dont l’exploitation est toujours assurée.

Dans un cas comme dans l’autre, il s’agit de procédures bien plus complexes que la conservation du train de bits. En effet, dans le cas de cette dernière, au delà des métadonnées descriptives nécessaires pour connaître le contenu des données conservées et les retrouver, le système se “contente” d’enregistrer l’empreinte des données et de les comparer. Pour assurer une migration de format (et c’est aussi vrai dans une moindre mesure pour l’émulation), il faut connaître précisément les caractéristiques de chaque fichier et ce que cela implique. Dans le cas où vous disposez d’une collection homogène avec peu de formats à maîtriser et une collection de fichiers restreinte, cela peut rester assez simple à gérer, mais quand vous disposez de données aux formats très hétérogènes (ou des variantes d’utilisation du format, par exemple pour XML, il faudra aussi prendre en compte le schéma XML d’encodage…), il est absolument nécessaire de maîtriser parfaitement votre collection.

Vous allez me rétorquer qu’il suffit d’enregistrer les données dans un format pérenne et le tour est joué…. Certes, sauf qu’en fait, comme pour les supports de stockage, il n’existe pas de format pérenne. Comme je l’ai déjà expliqué sur ce blog (bon, d’accord, c’était il y a longtemps, alors je vais le répéter :), un format n’est pérenne que si l’organisation qui conserve est capable d’en maîtriser aussi l’exploitation sur le long terme. Bien évidemment, s’il s’agit de données textuelles issues d’une base de données, l’utilisation du CSV ou mieux du XML permet de simplifier cette maîtrise dans le temps. Pour autant, si vous n’avez pas conservé aussi la documentation de la structure du CSV, de la structure du fichier XML ou, mieux, le schéma XML lui-même, le travail de rétro-ingénierie sera plus important voire pourrait s’avérer impossible.

Outre le stockage sécurisé, maîtriser ses données numériques pour en garantir l’exploitabilité sur le long terme signifie :

  • s’assurer à l’entrée dans l’archive des caractéristiques techniques des données numériques et de leur conformité avec les attendus (c’est-à-dire ne jamais faire confiance à l’organisation qui vous verse les données) ;
  • Rendre les données conservées indépendantes de l’application dont elles sont issues mais aussi du système d’archivage lui-même : si votre système d’archivage plante, vous devez pouvoir récupérer et exploiter les données directement depuis les supports de stockage ;
  • documenter précisément les données conservées : leur contenu, leurs caractéristiques techniques et juridiques, leur structure, leur historique de traitement avant et après leur arrivée dans l’archive, en particulier les étapes de vérification de conformité des données à leur entrée dans l’archive et de migration ;
  • conserver les métadonnées et la documentation (répertoire de formats et des applications et environnements) au même titre que les données et les rendre interrogeables de manière la plus exhaustive possible (sinon ça ne sert à rien de produire des métadonnées…) ;
  • mettre au point des tableaux de bord pour disposer d’une vue aussi complète que possible du contenu de l’archive et pour suivre les indicateurs de l’activité et d’évolution de l’archive (pour anticiper d'éventuelles difficultés de maintien en condition opérationnelle, par exemple) ;
  • effectuer une veille régulière sur les différents formats utilisés par l’archive pour planifier de manière préventive une éventuelle migration ;
  • auditer régulièrement les données numériques par échantillon pour contrôler la validité des métadonnées et effectuer des contrôles de conformité en plus des audits de l’intégrité du train de bits pour assurer le stockage sécurisé

Si vous cochez toutes ces cases, vous devriez sans problème mener des opérations de migration de format et, au passage, la suppression de données numériques pour des raisons légales ou opérationnelles pourra se faire sans difficulté et en toute sécurité.

Exploiter les données ou la problématique de la consultation

Enfin, vient tout l’intérêt de la conservation de données numériques : en assurer l’exploitation et la consultation dans le temps. Trois cas de figure (au moins) dans la manière d’exploiter ou de donner à voir ces données peuvent être identifiés.

Exploitation des données par un système de valorisation

Les données numériques conservées peuvent alimenter un système tiers qui offre des interfaces de recherche, de navigation et de consultation, comme c’est le cas, par exemple, de Gallica à la BnF ou d’Ina.fr à l’Ina. La conservation des données numériques vise alors à assurer le stockage sécurisé de ces données issues de chantiers de numérisation (souvent coûteux et complexes à reproduire à cette échelle) et l’exploitabilité dans le temps.

Même si les entrepôts numériques dédiés à la conservation sont les sources des systèmes cibles, les données y sont recopiées de manière aysnchrone. En effet, les systèmes de stockage sécurisés utilisés (bibliothèque de bandes LTO), les différences de caractéristiques entre les formats des fichiers de conservation et les formats d’exploitation, les éventuelles vérifications liées aux problématiques de droits d’auteur et les besoins de haute disponibilité pour une consultation sur le Web empêchent de brancher directement les systèmes. Bref, pour le dire autrement, le temps et les caractéristiques de la valorisation ne sont pas ceux de la conservation et il est préférable de disposer de deux systèmes pour l’un et l’autre des usages, même si le système de valorisation est alimenté par le système d’archivage ou de conservation (ce fut une des grandes leçons apprises sur le projet SPAR…).

Emulation des logiciels et virtualisation des environnements

Dans le cas où vous conservez l’application elle-même, l’objectif est d’en permettre l’expérience par les utilisateurs. C’est essentiel pour les jeux vidéos, l’art numérique ou même le Web pour lesquels l’interaction avec l’utilisateur fait partie intrinsèque de l'appréhension de ces médias. Or, il arrive un moment où l’application en question ne peut plus être exploitée par les environnements matériels et logiciels standards, il existe alors deux solutions :

  • l’émulation qui consiste à reproduire le comportement de l’application sur un environnement matériel contemporain via un logiciel dédié appelé émulateur ;
  • la virtualisation qui consiste à exploiter un environnement logiciel complet (système d’exploitation et logiciels) sur une machine hôte.

Ces deux méthodes n’ont pas été mises au point spécifiquement pour la conservation des données numériques. L’émulation est apparue dans le milieu du piratage des jeux vidéos pour permettre l’exploitation d’un jeu sur une plateforme pour laquelle il n’était pas prévu à l’origine. A l’origine, la virtualisation est apparue pour exploiter au mieux les capacités des serveurs en y faisant tourner plusieurs “machines” virtuelles. Elle est aujourd’hui très massivement utilisée par les services informatiques et les systèmes de cloud.

Si l’émulation est presque exclusivement réservée aux jeux vidéos, la virtualisation constitue une solution très prometteuse pour la conservation des données numériques. En effet, elle permet d’assurer l’exploitation sur le long terme de données et/ou d’applications pour lesquelles la migration de format était difficilement envisageable. Dans ce cas, on se “contente” de stocker de manière sécurisée le fichier de virtualisation et de s’assurer qu’il existe encore des logiciels pour l’exploiter.

Cette méthode est d’ores et déjà utilisée pour assurer, par exemple, la consultation des premiers cédéroms d’art numérique à la BnF et pourrait être envisagée pour continuer à assurer la consultation des archives du Web les plus anciennes lorsque nos navigateurs ne le permettront plus.

Mise à disposition en téléchargement des fichiers

Le dernier cas de figure me semble le plus complexe : comment assurer la mise à disposition de données hétérogènes comme peuvent l’être celles issues des administrations ? Fichiers bureautiques ou fichiers issues de bases de données diverses, ils présentent des formats et des structures hétérogènes. Il me semble que, dans ce cas, on peut s’inspirer des portails de données ouvertes, c’est-à-dire proposer un catalogue organisé des jeux de données existants et en permettre le téléchargement pour une consultation et une exploitation locales. J’imagine que cela pourrait poser des problèmes juridiques, mais cela me semblerait à la fois le plus simple et le plus efficace pour accéder à toutes ces données hétérogènes.

Problème et perspectives

Au-delà de l'importance d'intégrer la question de l'archivage des données numériques au sein même des processus habituels du centre d'archives, force est de reconnaître que les circuits de versement posent des difficultés particulières.

La difficulté de la récupération et du formatage des données

Du strict point de vue technique, le problème principal de la conservation des données numériques est la récupération des données en question et leur formatage dans des formats maîtrisables par le centre d'archives. Il n'existe pas à proprement parler de verrous technologiques, les solutions existent en la matière : les logiciels du type ETL utilisés à l'origine pour alimenter les solutions d'informatique décisionnelle constituent des réponses adaptées. Mais, pour chaque système, avant même le développement, il est nécessaire de déterminer :

  • les données à récupérer ;
  • le format de récupération (CSV, XML, Json par exemple) et la structure des données­ ;
  • la fréquence et les modalités de récupération ;
  • les métadonnées associées pour assurer la documentation du contexte de production et des données elles-mêmes ;
  • les mécanismes de vérification de l'intégrité et de conformité des versements dans l'archive ;
  • la politique de conservation conformément aux cadres légaux et aux principes établis par le centre d'archives en accord avec le producteur.

Cette difficulté est renforcée par différentes problématiques :

  • l'absence de plateforme pour échanger, entre les centres d'archives, des connecteurs prêts à l'emploi pour les applications qui existeraient dans différentes collectivités (un espace github pour les archives sur le modèle de ce qui existe pour les générateurs Seda : ici,  ou encore ici) ;
  • la spécificité de la très grande majorité des applications et donc la complexité pour un éditeur logiciel d'industrialiser des solutions en la matière ;
  • le manque de compétences pour spécifier ces développements informatiques : la plupart des sociétés de service en informatique sont incapables d'effectuer ce genre de tâches, car les informaticiens n'ont pas été formés pour ;
  • le désintérêt total des services informatiques des collectivités qui ont (disent-ils...) des dossiers bien plus urgents à traiter et qui, de toute façon, n'y comprennent rien...

Bien évidemment, la première réponse à ces différentes problématiques est de disposer en interne de personnes capables justement de discuter avec les informaticiens, de spécifier, de suivre et de tester les développements voire d'implémenter des solutions ou au minimum d'expérimenter certaines choses. Les diplômés du master Technologies numériques appliquées à l'histoire de l'Ecole nationale des chartes, par exemple, disposent justement de cette double compétence et sont tout à fait capables d'accompagner n'importe quel centre d'archives pour effectuer ce travail. Mais, cela ne suffira peut-être pas à persuader un service informatique d'investir dans l'extraction des données des applications en vue de leur conservation sur le long terme.

Big data et open data à la rescousse

Il y a dix ans, je pensais que la question de la conservation des données numériques serait un moyen pour les organisations de s'intéresser sérieusement à la maîtrise de leur patrimoine informationnel et de changer le paradigme pour passer de systèmes d'information orientés "Processus" à des systèmes d'information orientés "Données". Mais promettre la souplesse dans le SI et laisser entrevoir de nouveaux usages possibles ne suffisaient pas : il fallait en faire la démonstration concrète et la question de la conservation n'était pas en soi un argument suffisant pour faire basculer les organisations.

L'évolution est en fait arrivée de deux autres initiatives : le Big data et l'Open Data. L'une comme l'autre ont eu pour effet d'obliger les organisations à s'intéresser aux données qu'elles possèdent et à les libérer de leurs silos d'origine au moins en interne pour les faire circuler au sein de l'organisation (Big Data) voire à l'extérieur (Open Data).

Au delà de leurs enjeux inhérents, le Big Data et l'Open Data sont une formidable opportunité pour les archives des collectivités d'engager une politique de conservation des données numériques.

La perspective de "l'Open Data par défaut" imposé par la loi pour une République numérique va obliger les collectivités à s'organiser pour mettre à disposition selon les principes réglementaires les données publiques et au minimum à maintenir à jour leur répertoire d'informations publiques. Au-delà de ces aspects réglementaires, dans le contexte actuel (demande de transparence et buzz autour de la donnée), il est aujourd’hui plus facile de faire adhérer un décideur à une démarche de libération des données qu’à un projet de conservation des données numériques sur le long terme. Or, les deux démarches se rejoignent : donner accès aux citoyens aux données produites par l’administration dans le premier cas à des fins de transparence et de réutilisation, dans le second à des fins de preuve et de mémoire.

On résout ainsi la principale difficulté dont il était question précédemment : la récupération et le formatage des données. Ainsi, pour mener à bien des projets de statistiques avancées, de mise en relation de données ou d'apprentissage automatique (Big Data) ou de mise à disposition de jeux de données sur des portails institutionnels (Open Data), il est absolument nécessaire d'extraire les données depuis leurs applications d'origine et de les formater dans des formats susceptibles d'en conserver la structure et faciles à manipuler (CSV, XML, Json...). Les archives pourraient tout à fait s'insérer dans ces processus et récupérer les jeux de données établis pour ces usages. Bien sûr, ils ne sont pas exhaustifs et il faudrait faire un travail pour ajouter quelques métadonnées, mais c'est toujours mieux que rien : ça permet d'enclencher le travail et d'insérer les archivistes dans ces processus dont ils sont, me semble-t-il, pour le moment complètement absents.

Je suis absolument certain que la société OpenDataSoft, dont le logiciel est utilisé par un très grand nombre de portails Open Data, pourrait développer un service supplémentaire capable de verser les données exposées à travers son application dans un SAE suivant le protocole SEDA. Et dans le même ordre d'idée, on peut imaginer des ponts entre Vitam et data.gouv.fr, mais peut-être est-ce déjà à l'ordre du jour : après tout les deux projets sont développés au sein de la DINSIC...

Cette idée n'est pas très originale : les Français ont comme d'habitude ajouté une nouvelle couche administrative, Etalab, pour s'occuper de cette nouvelle mission, mais nos voisins suisses l'ont confié aux archives fédérales ce qui, entre nous, paraît totalement logique. En effet, l'Open data n'est finalement  qu'une extension de la fonction des archives au vu de leur définition. Et, même si je n'ai pas trouvé de trace de la question de la conservation des données numériques dans la stratégie en matière de libre accès aux données publiques en Suisse pour les années 2014 à 2018, gageons que cette synergie entre Open Data et conservation sur le long terme des données numériques est au cœur de la réflexion des archives fédérales.

Si certaines collectivités ont déjà expérimenté ou sont sur le point d'expérimenter cette stratégie, n'hésitez pas à me le signaler par mail ou twitter ; je me ferai un plaisir de mettre à jour ce billet.

Quelques points pour finir


Ce n'est pas le système qui préserve !!

On ne le dira jamais assez : ce n'est pas le système qui préserve. La conservation est la conséquence d'une bonne gestion et maîtrise des données numériques sur le long terme : des données stockées de manière sécurisée, documentées, surveillées, le cas échéant, migrées et mises à disposition du public sous des formes exploitables. Un système d'archivage électronique seul n'est pas suffisant, quelles qu'en soient les fonctionnalités. Certes, il aidera à effectuer une partie du travail mais il ne remplacera jamais les compétences mises en œuvre par les archivistes disposant d'une expertise dans les données numériques (au même titre que d'autres en possèdent pour les chartes médiévales ou les archives notariales).

Ceux-ci pourront spécifier les versements, effectuer la veille nécessaire au suivi des différents formats des fichiers, décider de la migration des fichiers, auditer les données conservées, surveiller les indicateurs de l’archive et accompagner les utilisateurs dans leur utilisation des archives numériques. Bref, faire le travail que n'importe quel archiviste effectue. Stocker des archives traditionnelles dans un entrepôt n'a jamais suffi à assurer leur conservation, il en va de même avec le numérique.

Accordez-vous le droit d’expérimenter sans pression

Au vu de l'ensemble des éléments à prendre en compte au moment de se lancer dans la conservation du document numérique, cela pourrait s'avérer intimidant voire paralysant. Plus d'une fois dans les étapes de déploiement et même en phase de production, vous ressentirez un sentiment de vertige face à l'immensité de la tâche.

Ne vous mettez pas la pression : oui, vous allez faire des erreurs, oui, vous allez faire, défaire et refaire certains choix techniques, oui, vous allez perdre des données numériques en chemin... Et alors ? C'est inhérent à l'apparition d'un nouveau support : si on conservait tous les incunables, les enregistrements sonores ou les films, ça se saurait, pourquoi n'en serait-il pas de même pour les données numériques ?

Les normes et les standards sont là pour vous apporter un cadre de réflexion et vous aider, n'en faites pas des carcans qui vous empêchent d'avancer. Il sera toujours temps de rendre parfaitement conforme votre système à la norme ISO bidule et AFNOR NF machin chose. Je comprends tout à fait que ce soit absolument nécessaire pour des raisons légales et juridiques, mais si vous en faites un préalable, cela risque bien souvent d'être contre-productif. Les ignorer totalement, pour des raisons dogmatiques, par exemple, aurait d'ailleurs le même effet.

Ainsi, les spécialistes du domaine pourraient s'étonner du fait que je n'ai pas cité une seule fois l'OAIS (Open Archival Information System), norme référence en la matière. Loin de moi l'idée de la rejeter comme semblent le faire certains, il faut simplement prendre l'OAIS pour ce qu'il est : un vade-mecum pour bien gérer l'information (numérique) d'une organisation et en aucun cas un mode d'emploi qu'il faudrait suivre aveuglément comme une notice de montage d'un meuble de chez Ikéa...

Bref, expérimentez, expérimentez encore et expérimentez toujours...

Connaître les composants des systèmes d'information

Comme tous les corps de métier, les informaticiens ne laissent pas facilement une personne extérieure entrer dans les arcanes de leur système. Or, dans le cas de la conservation des données numériques, cela est absolument nécessaire pour évaluer les données, l'intérêt à les conserver et pour spécifier leur récupération.

Même si vous n'avez pas encore déployé de système pour récupérer et conserver les données numériques, vous pouvez d'ores et déjà vous familiariser avec les différentes applications qui composent le système d'information. N'hésitez pas à vous faire présenter le système d'information, à récupérer les schémas d'architecture (ils existent forcément), à poser des questions et à recommencer.

A partir de ces différentes informations, je vous invite à dresser un répertoire ou un registre des applications existantes avec les informations qui vous intéressent (objectifs fonctionnels, services concernés, intérêt pour la conservation, bases de données utilisées et/ou format des fichiers, perspectives d'évolution…) et quelques copies d’écran. Lorsqu'il sera constitué, retournez voir les informaticiens pour valider et compléter avec eux ce recensement. Normalement, vous devriez gagner en crédibilité et donc en visibilité au sein du service informatique. Peut-être même qu'au déploiement de la prochaine application, ils vous enverront les différents éléments voire ils vous inviteront dès l'origine du projet ?


Système d'information Causeries Conservation