Documents et données… et web

Documents et données… et web

Cela fait longtemps que je souhaite creuser la question de la différence entre les documents et les données dans le cadre de la conservation numérique à long terme. Un récent billet de John Wilbanks dans son blog Common Knowledge (original ici, traduction ) me donne l’occasion de commencer cette exploration, que je compléterai avec d’autres billets. John Wilbanks participe au projet Sciences Commons.

Wilbanks reprend dans son billet un de ses leitmotiv, à savoir que le Web est un web de documents et pas un web de données, ce qui n’est pas nouveau puisque Tim Berners Lee lui-même en appelle à la création d’un web des données (explication ici, approfondissement ). Ce qui est plus intéressant, c’est son argumentaire. Il débute par la question qui a initié son billet où un correspondant expose le fait que différencier les documents des données est difficile car « les documents contiennent des données et d’autre part les données forment des documents ».

Wilbanks répond en disant que cela est partiellement vrai (on peut penser aux documents créés à la volée sur le net à partir d’un requête générée par une interrogation sur le réseau, mais aussi à une facture générée à partir d’un numéro de client, d’une liste de clients, d’un numéro d’article et d’un catalogue) mais il explique qu’il est impossible de faire rentrer dans un document les très grandes masses de données de système complexe. Continuant l’analyse il en trouve les raisons techniques dans le fait que les documents accessible sur le web bénéficient d’une « forme » ou d’un « modèle » relativement standardisé soit un langage de balisage (HTML) et un protocole de communication (HTP). Ceci n’est pas le cas des bases de données actuellement, même si RDF représente une piste de recherche (défendue notamment par les tenants du web de données).

Il identifie un autre obstacle qui est l’usage des liens. L’analyse des liens par les moteurs de recherche laisse à penser que ceux-ci sont « intelligents ». Wilbanks remet les pendules à l’heure en rappelant que si les moteurs de recherche sont efficaces c’est parce que c’est des humains qui établissent ces liens et que le moteur lui-même n’a aucune idée de la signification des pages proposées. Or pour traiter des données, il est indispensable de savoir ce qu’elles signifient et cette métadonnée n’est actuellement pas disponible. Il explique qu’il n’existe pas de liens établis entre elles (à part le lien du triplet basique des bases de données : {entité, valeur, attribut}, ou le triplet RDF : {sujet, prédicat, objet}) contrairement aux pages web qui en sont truffées. On ne peut par conséquent pas « googler » une base de données pour en extraire des données pertinentes en réponse à une question (son correspondant cite la tentative recherche de données sur le web de Wolfram Alpha (explication ici, site ), mais Wilbanks ne voit là que des balbutiements).

La réflexion de Wilbanks s’arrête sur ce qui est disponible sur le web et la problématique de l’accès, voyons maintenant si nous pouvons généraliser cette réflexion. Dans les systèmes documentaires institutionnels, indépendamment du web, il existe également des documents et des données sous forme numériques.

On peut retenir des réflexions de Wilbanks que les documents, en tant qu’objet clos, sont susceptibles d’être indexés et recherchés, quasiment sans limites techniques. Alors que l’on peut chercher des données dans une base de données mais dans une seule. Interroger plusieurs bases de données ne peut être possible que si la définition des types de données (au niveau du sens) est similaire dans les bases interrogées, ce qui est loin d’être le cas. Le préalable est l’existence d’ontologies largement reconnue et normalisées, ce qui est un travail de titan (il n’empêche que localement des travaux de ce genre existent, on peut signaler par exemple la récente loi sur l’harmonisation des registres adoptée en Suisse, qui vise à utiliser des définitions de données unifiées pour l’échange entre la Confédération et les cantons, voir http://www.admin.ch/ch/f/rs/4/431.02.fr.pdf et http://www.admin.ch/ch/f/rs/4/431.021.fr.pdf).

Les partisans du web de données présentent RDF et sa souplesse comme une solution à cette impossibilité ontologique. En effet RDF permet d’établir des liaisons logiques qui n’ont par forcément besoin d’être validées de manière stricte. Mais cette souplesse qui est acceptable au niveau des documents qui affichent des métadonnées et en permet la sélection par pertinence lors de l’affichage des résultats, est rédhibitoire pour les bases de données. Car ces métadonnées contextuelles n’existent pas dans la plupart des bases de données exploitées actuellement ; ou si par extraordinaire elles existent, elles ne sont pas gérées pour être accessibles lors de la consultation des données, que cela soit par un humain ou par un robot. Il est donc par conséquent impossible de vérifier la validité de l’association de certaines données entre elles, ce qui est bien évidement un facteur de risque inacceptable. Ce problème a été conceptuellement identifié il y a longtemps et illustré par l’expression populaire « on n’additionne pas des pommes avec des poires », mais nous n’en avons pas tiré toutes les conséquences dans le monde numérique.

La question cruciale, auquel Wilbanks ne répond pas tout à fait est de savoir ou s’arrêtent les données et où commencent les documents. On peut en fixer la limite quasi philosophique dans le fait que les (bases de) données sont potentiellement illimitées alors que les documents sont un ensemble « fixé » de données, dans l’espace et dans le temps (je faits ici abstraction de la notion de version). On trouvera un développement de cette discussion dans « Document : forme, signe et relation, les re-formulations du numérique ».

Pourquoi et comment avons-nous besoins de figer des données dans des documents, cela fera l’objet d’un prochain billet.

A propos regarddejanus

Archiviste, Record-manager et enseignant
Cet article, publié dans archivage numérique, format de donnée, type de formats, est tagué , , , . Ajoutez ce permalien à vos favoris.

4 commentaires pour Documents et données… et web

  1. Got dit :

    Merci pour la citation d’un de mes billets. J’ai moi aussi exploré les rapports entre documents et données structurées dans trois billets : http://www.lespetitescases.net/carcans-de-la-pensee-hierarchique-et-documentaire-1 http://www.lespetitescases.net/carcans-de-la-pensee-hierarchique-et-documentaire-2 et http://www.lespetitescases.net/antilope-sur-le-Web-est-elle-un-document .

    Je ne suis pas sûr de comprendre les limites que vous voyez à RDF par rapport aux bases de données relationnelles (si vous en voyez, d’ailleurs ?). Les technologies du Web sémantique (en particulier RDF) répondent particulièrement bien à la problématique de « consultation des données » et RDF permet justement d’exprimer la structure de la donnée dans la donnée elle-même grâce au principe du triplet ce qui rend bien plus robuste ce modèle dans une perspective de conservation des données numériques sur le long terme par rapport aux bases de données relationnelles et même à XML. Avec un collègue, nous avions justement montré en quoi RDF permettait de dépasser les limites du relationnel : http://www.lespetitescases.net/limites-du-modele-relationnel-web-semantique

    D’ailleurs, de ce fait, RDF est un très bon candidat pour exprimer les métadonnées nécessaires pour assurer la pérennisation de l’information numérique sur le long terme et a été implémenté avec succès dans le système de la BnF, SPAR : http://data.semanticweb.org/conference/iswc/2008/paper/poster_demo/14/html

  2. Ping : Tweets that mention Documents et données… et web | Le regard de Janus -- Topsy.com

  3. regarddejanus dit :

    Bonjour Got,
    J’avais effectivement lu vos billets et j’ai des commentaires en attente que mon emploi du temps m’a empêché de finaliser à ce jour.
    Il n’y a effectivement pas de différence entre une BD relationnelle et les données exprimées en RDF, qui sont est en somme la réduction de la BD en faits élémentaires. Ceci place évidemment RDF comme la « machine à lien » qui permet potentiellement la webisation des données, tel que le demande Wilbanks. Mais je vous renvoie à un autre de vos billet sur la contextualisation des triplets (http://www.lespetitescases.net/quel-evenement-ou-comment-contextualiser-le-triplet) qui met en évidence les limites de RDF. Celle-ci ne tiens pas à la technologie RDF mais à la difficulté qu’ont les données de rendre compte de la réalité. Dans votre billet vous mettez en évidence la difficulté de maîtrise de l’espace et du temps et ces difficultés sont décuplées quand les notions décrites dans les bases de données ne sont pas délimitables de manière précise.
    Dans mon entreprise (un hôpital) par exemple, les données liées au sexe des patients ont initialement été décrite (en 1978) comme étant masculin et féminin sans changement possible. Les changement de sexe, et le fait qu’il n’est parfois pas possible de connaître le sexe dans certain cas limite, nous a obligé à introduire un sexe indéterminé pour permettre l’enregistrement des autres données liées au patient. Si nous devions relier ces données en linked data à quel sexe le rattacherions-nous ? Il y a des centaines de décalage de cet ordre qui ne sont pas solubles par un algorithme.
    A ce problème s’ajoute la question du multilinguisme (spécialement dans le web). Par exemple, la communautés archivistique francophone se penche régulièrement sur l’équivalence du terme « records management » en français. Indépendamment de la problématique de la traduction, les pratiques sous-jacentes en rapport rendent quasi impossible le parallélisme des ontologies professionnelles qui pourraient résoudre ces ambiguïtés (comme le cite Wilbanks avec les applications « simplistes » pour iPhone).
    Identifier ces difficultés est néanmoins un pas vers des solutions futures, mais qui devront êtres résolues au niveau ontologique plutôt qu’au niveau technologique.

  4. Ping : Données – Transactions – Documents, Première esquisse | Le regard de Janus

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s