L’archivage et le Cloud : bonne ou mauvaise idée ?

Ce n’est pas tous les jours qu’un informaticien se préoccupe d’archivage, aussi ses interrogations méritent d’être prises au sérieux. Les questions sont posées par Frédéric Brégier ici. Comme lui, je ne vais pas traiter la question dans son entier (rendez-vous au forum des archivistes à Angers (http://forum2013.archivistes.org/ ) ou nous tenterons de traiter la question plus à fond) mais reprendre certains points qui font problème à mes yeux, en suivant le canevas qu’il propose. (voir également le commentaire sur Archives Online )

 « Cela (le cloud) permet …une réduction des coûts. »
Bien évidemment la concentration des ressources, qu’elles soient mutualisées à l’interne, ou sous-traitée d’une manière ou d’une autre (les DSI n’ont pas attendu le cloud pour out-sourcer certaines prestation dans des pays « bon marché »). Dans le domaine la question clé est : quel est cœur du métier. En général, les fonctions « transversales » sont considérées comme « exportables ». En ce qui concerne les archives, ce n’est certes pas le cœur de métier des organisations (archivage intermédiaire) mais c’est bien celui des archivistes (archivage définitif). Il convient de bien distinguer ces deux « moments » des archives lorsque l’on envisage une solution dans les nuages.

« …les infrastructures … sont louées à un tiers »
C’est un des principaux avantage avancé pour passer au cloud. Eviter des investissements coûteux et sous-employés pour ne payer juste ce que l’on consomme est de la bonne économie en première approche, surtout pour de petites structures dont l’informatique n’est pas forcément bien maîtrisée. Mais la location de services (quels qu’ils soient) nécessite un degré de confiance et de professionnalisme de la part des prestataires qui n’est pas toujours au rendez-vous. Je m’explique : la plupart des prestataires de cloud ne sont entré sur ce marché pour amortir leurs propres fermes de serveurs. Celles-ci sont techniquement au point en termes de continuité de service car ils en ont besoins pour leurs propres affaires. Par contre, le service à des tiers n’est pas initialement leur cœur de métier et tous les services associés n’ont pas été conçus pour des utilisateurs à hautes exigences. Ce qui nous mène au point suivant.

« Lisez votre contrat et mettez-y des clauses de localisation si nécessaire ! »
Sur le papier, tout le monde recommande ce type de comportement. La CNIL (Recommandations pour les entreprises qui envisagent de souscrire à des services de Cloud computing ), les associations professionnelles, etc. Sauf que vous contractez avec des mastodontes pour lesquels ce n’est pas l’habitude de négocier des clauses particulières (sauf à des prix exorbitant). Et à moins de faire établir des contrats-cadre au niveau politique (cela se dessine au niveau européen mais qu’en sera-t-il au niveau américain ?) même une grosse entreprise ne peut entrer en négociation. Quand bien même un prestataire vous garantirait une localisation géographiquement circonscrite, qui a les moyens de vérifier si la prestation est effectivement effectuée selon le contrat ?

Tant que des prestataires européens d’envergure ne seront pas sur le marché et si vous avez des données personnelles à gérer, renoncez au cloud !!!

Archivage, cloud et open data

Ces trois concepts recouvrent chacun des acceptions multiples qui, si on ne les précise pas, mènent à la confusion et à de mauvaises décisions.

L’archivage recouvre l’archivage courant et l’archivage définitif qui n’ont pas les mêmes exigences en termes d’accès et de pérennité. Le cloud pourrait convenir pour les archives courantes en termes d’accessibilité mais certainement pas en termes de pérennité et de coûts à long terme.

L’avantage de la mutualisation des infrastructures est indépendante du fait qu’un cloud soit privé ou public, l’important est d’avoir une masse critique suffisante pour bénéficier des économies d’échelle (elles sont quantitatives mais également qualitatives au niveau des coûts de développement de logiciels par exemple).

En ce qui concerne l’open data c’est l’accessibilité qui prime alors que l’archivage s’occupe de pérennité. Heureusement, alors que ces deux exigences sont contradictoires dans le monde analogique, elles sont surmontables dans le monde numérique pour autant que l’on respecte les normes (OAIS) en vigueur.

Métadonnées et Big Data

Là aussi les deux concepts ne sont pas interchangeables alors que la tendance est de les confondre. Les métadonnées pour être utiles ont la nécessité d’être fiables ce qui les rend coûteuses en terme d’acquisition ou de capture. Raison pour laquelle elles ne peuvent être trop nombreuses car elles ne seront alors pas documentées. A contrario les Big Data (telles qu’on nous les vend) sont la collecte automatique de traces, dont la fiabilité est tout sauf avérée (comme une adresse IP) et dont on suppose qu’un traitement algorithmique (certain disent magique) permettent de générer de l’information nouvelle. Cela représente une antinomie des archives qui cherchent à refléter au plus près l’activité du producteur.

Dans le même ordre d’idée les données ouvertes, sans les métadonnées (fiables) correspondantes ne sont qu’une boîte de Pandore susceptible de toutes les manipulations (illustrée par l’affirmation attribuée à Winston Churchill : « je ne crois que les statistiques que j’ai manipulées moi-même »).

« On pourrait même pousser plus loin en démultipliant les possibilité de classement des données numériques par les utilisateurs eux-mêmes. »
Je vois ici aussi une confusion. Le classement est de la même nature que les métadonnées, des informations fiables et validées dans un cadre conceptuel ordonné (même s’il est réducteur et donc par conséquent difficilement utilisable pour le lecteur néophyte). Le classement par l’utilisateur est de l’ordre du tagging, une étiquette que j’appose pour un besoin de « mise en lien » transitoire qui peut changer demain. C’est tant mieux parce qu’évolutif, mais cela n’a pas de prétention à la pérennité (je peux changer de point de vue avec le temps). Même les instruments de recherches sur des séries documentaires similaires ont évolués dans le temps car les conceptions des archivistes (et des sociétés qui les ont (dé)formés) ont changés.

Ressources de calcul

Un des arguments du cloud est effectivement la disponibilité des ressources à la demande. Cela est certainement vrai pour les utilisateurs moyens. Cependant, quand il s’agit de traiter de très grandes quantité de données de manière fiable le transit par le réseau devient un facteur de risque important (voir l’étude du JISC à propos du cloud et des données scientifiques, Digital Curation and the Cloud : http://www.jisc.ac.uk/media/7/C/1/%7B7C1A1FD7-44B4-4951-85A8-FC2C4CEB1564%7DCuration-in-the-Cloud_master_final.pdf .

Quant à la sémantisation des métadonnées, l’avancement dans la maîtrise des données liées est certainement encourageante mais nous n’en sommes encore qu’aux balbutiements. Pour se convaincre de la difficulté d’obtenir des données (et métadonnées) de qualité je ne peux que renvoyer à la lecture de la thèse d’Isabelle Boydens (Informatique, normes et temps. Bruxelles : Éditions E. Bruylant, 1999).

Enfin je partage entièrement la conclusion « L’archiviste doit donner une autre perspective à ses compétences, au service de ses clients, et peut-être même arrêter de parler d’archives mais plutôt de données, mieux d’information,… », qui a été largement au cœur du récent colloque sur les archives électroniques (http://www.archivesnationales.culture.gouv.fr/chan/chan/journees-colloque-archivage-electronique-2013.html ).

Et un grand sourire à propos de l’arch(at)ive de Schrödinger… tant qu’on ouvrira pas la boîte d’archives…

A propos regarddejanus

Archiviste, Record-manager et enseignant
Cet article, publié dans archivage numérique, Big Data, Données liées (linked data), Informatique en nuage - cloud computing, métadonnées, est tagué . Ajoutez ce permalien à vos favoris.

5 commentaires pour L’archivage et le Cloud : bonne ou mauvaise idée ?

  1. Ping : L’archivage et le Cloud : bonne ou mauvaise idée ? | D&IM (Document & Information Manager) | Scoop.it

  2. Ping : L’archivage et le Cloud : bonne ou mauvaise idée ? | archivEngines | Scoop.it

  3. Brégier Frédéric dit :

    Votre billet était très intéressant, même si je ne partage pas toute votre analyse. J’ai tenté de poursuivre en essayant de vous répondre le plus précisemment possible avec un nouveau billet :
    http://archiverleternite.blogspot.fr/2013/02/archivage-et-cloud-lorsque-lanalyse.html
    Bien à vous

  4. Ping : Archivage et cloud, suite … | Le regard de Janus

  5. Ping : L'archivage et le Cloud : bonne ou mauvaise idée ? | Le regard de ... | Cloud computing : intérêts et limites | Scoop.it

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s