Des données et des liens : le début de quelque chose de grand

Les Données Liées (Linked Data) sont un projet officiel du W3C (l’organisme qui définit les standards du web). Le projet peut se définir comme l’utilisation du web pour relier des données en rapport les unes avec les autres qui n’auraient pas été liées auparavant, ou encore d’utiliser le web pour abaisser les barrières à l’entrée (les coûts, le temps) de la création de liens (par rapport à d’autres méthodes).

Tim Berner Lee décrit les données liées comme un mouvement venant de la base (la communauté) plutôt que quelque chose de décidé et d’appliqué en haut lieu. L’image ci dessus montre le nombre de groupes de données (data sets) qui participent au mouvement (et encore, cette représentation date de mars dernier). Les Données Liées augmentent à une vitesse impressionnante : pour vous donner une idée de la progression, le schéma ci dessous montre les groupes de données (data sets) qui étaient disponibles en mai 2007, soit 10 mois auparavant, vous noterez avec fierté la présente du Français Jamendo parmi les pionniers.

Les Données Liées en quelques mots

Dans un mémo du W3C publié par Tim Berners-Lee en juillet 2007, celui qui est l’inventeur du World Wide Web énonce quatre principes de base concernant les Données Liées, que Wikipedia paraphrase de la façon suivante :

  • Utilisez des URIs (identifiant unique de donnée – granulaire -, par opposition à une URL qui concerne une page – non granulaire) pour identifier les choses que vous voulez rendre disponible sur le web comme ressources de données.
  • Utilisez des adresses HTTP pour permettre de les localiser de d’accéder à leurs contenus.
  • Fournir des informations utiles sur la ressource (URI) quand on la consulte (‘dereference’ en anglais).
  • Y inclure des liens vers d’autres URIs en rapport avec la ressource consultée de façon à améliorer la découverte d’informations utiles.

C’est encore un peu technique, mais on peut le voir comme cela : les Données Liées vous permettent de découvrir, de vous connecter à, d’obtenir la description, et de réutiliser toute sortes de données. C’est aux données ce que le World Wide Web est aux documents des années 90.

linkeddata2

Nous avons évoqué le sujet des Données Liées à maintes reprises sur ReadWriteWeb, notamment en soulignant le fait que les Données Liées construisent et interconnectent des ontologies existantes.

Une ontologie, c’est, pour paraphraser Wikipédia, l’ensemble structuré des termes et des concepts représentant le sens d’un corpus d’informations, que ce soit par les métadonnées (…), ou les éléments d’un domaine de connaissances. L’ontologie constitue un modèle de données, représentatif d’un ensemble de concepts dans un domaine, mais également les relations entre ces concepts. Elle est employée pour raisonner à propos des objets du domaine concerné. Les ontologies représentent les connaissances sous forme d’assertion (sujet, prédicat, objet) qui décrivent la relation d’un objet à un autre : Les hommes sont mortels. Platon est un homme. Platon est mortel.

Reprenons : les Données Liées interconnectent donc de nombreuses ontologies. Les groupes de données (data sets) permettent ainsi d’y accéder et de rebondir sur d’autres groupes de données en passant par une (ou plusieurs) ontologie(s).

Alexander Korth qui écrit dans nos colonnes présentait récemment le potentiel que cela ouvrait (accrochez vos ceintures) :

“Le projet (Données Liées) est conçut sur les mêmes principes simples que le World Wide Web : simplicité, tolérance, conception modulaire et décentralisation. Le projet LOD (Linking Open Data), contient à ce jour plus de deux milliards de ‘RDF Triples’ (sujet, prédicat, objets), ce qui est une somme de connaissances considérable. Le nombre de groupes de données (data sets) participant au projet grandi à une vitesse considérable, et l’on peut accéder à ces groupes de données de diverses façon : avec un navigateur sémantique ou avec un moteur de recherche sémantique, par exemple.”

Un terreau fertile pour l’innovation

S’il ne fallait retenir qu’une seule chose de ce petit exercice de vulgarisation, et quitter cette page avec une idée sur les Données Liées, c’est que les données sont là pour être utilisées. Les Données Liées permettent aux données de s’ouvrir et de se relier, et permettent de construire des choses nouvelles par dessus. Lors de son intervention à TED, Tim Bernes-Lee décrivait les Données Liées comme des cartons pleins de données qui, une fois connectés à l’aide de standards ouverts, permettaient à l’innovation de fleurir.

(slide issue de la conférence TED de Tim Berner-Lee de février dernier)

Les Données Liées sont l’une des tendances les plus importantes du web d’aujourd’hui, même si elle ne se traduisent pas encore en services très visibles pour l’utilisateur de base, c’est l’un des terreau les plus fertiles du web, aussi riche en potentielles innovations que l’a été en son temps le World Wide Web qui proposait de relier les documents.

Pour terminer, je vous recommande de regarder cette conférence donnée par Tim Berner Lee, cela ne vous prendra qu’un petit quart d’heure, et les sous titres en Français sont disponibles. Vous n’avez aucune excuse. Demain, je continuerais en vous montrant comment les données liées sont au coeur de la stratégie des plus grands acteurs de l’industrie des contenus.


Recommandez cet article à vos amis

et rejoignez nous sur Facebook et Twitter...



28 commentaires pour cet article

  1. Fabrice Epelboin

    Petite note pour les spécialistes (qui aurons bien sûr remarqué que tout ceci est un exercice de vulgarisation) : je ne suis as du tout convaincu pas ma francisation de Linked Data (Données Liées) et de Data set (groupe de données)… Y a-t-il d’autres traductions ? Ne ferait-on pas mieux de garder la terminologie anglo saxonne ?

  2. exodus

    De toute façon, j ai rien compris.

  3. Francis

    @exodus

    Tu t’es perdu ? La plupart des articles sur ce blog sont de ce niveau ;-)

    @fabrice

    Ce serait bien d’avoir une idée de la façon dont on peut tirer profit de tout cela : quels modèles économiques ? mais aussi quels usages concrets ?

  4. vertaxy

    Je viens de découvrir ce blog d’excellente facture, mais je suis peiné par le nombre (trop élevé) de fautes d’orthographe. N’y aurait-il pas moyen de faire relire les billets par un correcteur ?

  5. Ufano

    Petit détail, jamendo n’est pas français, mais luxembourgeois.

  6. Fabrice Epelboin

    @vertaxy : Un correcteur ? Si bien sur, il vous suffit de nous trouver un modèle économique. Sérieusement, l’argent que peut rapporter des ocntenus ne permet plus ce genre de choses, à moins de se faire subventionner par l’état…

    @ufano : mouis… enfin, ceux qui y bossent sont français ;-) C’est la boite qui est Luxembourgeoise, les fondateurs sont Français, non ?

  7. Trichard JF

    Je travaille actuellement sur un projet novateur sur le sujet.
    J’aime assez le terme « Lien hypertexte enrichi » pour le « Linked Data »

  8. Fabrice Epelboin

    @JF Pas sûr que cela ne prête pas à confusion avec l’enrichissement que l’on peut avoir via des techno comme open calais, ce qui est encore autre chose…

    Chaque fois que je traduis ces termes, je fini par revenir à la VO tôt ou tard… Je crois que dans le doute je vais systématiser le fait de mettre entre parenthèse la VO, histoire qu’on soit tous d’accord sur ce dont on parle ;-)

  9. y!onel

    Passé un temps j’ai pas mal utilisé musicbrainz et geonames pour leur API très bien faites et l’accès à des masses de données structurées gratuites qui valent de l’or.
    @exodus: Je ne maitrise pas à fond les concepts décrits ici (et tout ce qui se rattache au web sémantiqe car c’est de ça dont il s’agit ici non ?) mais il faut en tout cas retenir à mon sens qu’on peut ici accéder à des masses de données structurées pour pas cher.
    Ex : je veux savoir quelle ville correspond cette latitude longitude , j’utilise geonames :
    http://ws.geonames.org/cities?north=44.1&south=-9.9&east=-22.4&west=55.2&lang=de&style=full

    Je veux en savoir plus sur tori amos (de façon structurée) j’utilise music brainz :
    http://musicbrainz.org/ws/1/artist/c0b2500e-0cef-4130-869d-732b23ed9df5?type=xml&inc=url-rels+artist-rels

    @fabrice: je crois que l’idée d’un data.gov à la française t’est cher, c’est clair que si on avait la même facilité pour questioner les infos nationales (statistiques etc…) , cela ouvrirait la voie à des initiatives incroyables….

    Je me vois deja faire :
    http://donneesgov.fr/ws/manadats?elu=estrosi pour avoir tous les mandats en cours sur un élu par ex…. ;)
    ou
    http://donneesgov.fr/ws/presenceassemblee?elu= etc etc
    :p

  10. Fabrice Epelboin

    Geonames est plutôt de l’ordre de l’enrichissement sémantique, et plus exactement un (super) service en ligne, mais pas (encore) un groupe de données liées. MuzicBrainz, par contre, c’est complètement ça, c’est même l’un des pionniers. J’ai du mal à comprendre pourquoi des boites comme Deezer ou Jiwa ne foncent pas là dedans tant il y a une multitude d’innovation potentielles pour pas cher…

    Sinon, on n’est pas pret d’avoir un data.gov sérieux en France (même la version US est une blague). Les politiques n’en veulent pas à l’instant où ils réalisent le basculement de pouvoir que cela engendrerai. C’est la fin de la politique à la papa, et tous nos politiques sont sur ce modèle.

    L’engouement de NKM pour Data.gov est a mon sens lié au fait qu’elle sent plus ou moins instinctivement qu’elle a tout ce qu’il faut pour être la première d’une nouvelle espèce de politique, et qu’elle a tout a gagner à ce basculement.

  11. Alfred frItla

    Compris que dalle…

  12. Fabrice Epelboin

    Pas évident, je sais, et encore, cet article c’est de la grosse vulgarisation à la truelle, si tu lisais Cynober, tu aurait des boutons et de l’urticaire ;-)

    En gros (très très gros), les données liés, c’est comme le WWW, sauf qu’on lie entre elles des données et pas des pages. On peut ainsi à partir de données non liés les lier automatiquement. Ensuite, on peut lier tout ca à des ensemble de règles logique (le chien est un mammifère, les mammifère ne pondent pas d’oeuf, le chien ne pond pas d’oeuf), et ca permet d’ « automatiser » des formes assez évoluées de raisonnement.

    Il y a le même décalage et potentiel d’innovation entre l’époque avant le web, où les documents existaient mais n’étaient pas liés les uns aux autres via le web, et le monde digital que nous connaissons aujourd’hui. Pour caricaturer, c’est le web de demain.

    Maintenant, c’est clair que quand on expliquait le potentiel du web en 95, peut de gens y comprenaient quoi que ce soit. Aujourd’hui, tout le monde ou presque comprend instinctivement que des documents liés les uns aux autres dans un seul espace unifié (le web), ca a un potentiel incroyable.

    Là, c’est la même histoire qui recommence, avec les données (un niveau plus granulaire que la page web), les liens (automatisés), et la logique (elle aussi automatisé).

    (note pour les pro : je sais, c’est vraiment à la truelle, si vous avez une image plus parlante, je suis preneur).

  13. Fabrice Epelboin

    Sinon : petite métaphore (ceux qui me connaissent savent à quel point j’en abuse).

    Les données étaient autrefois enfermées, comme des fleurs dans des serres.

    Ce que l’on propose ici, c’est de les faire pousser en plein air, de façon à ce qu’une multitude d’abeilles non seulement se chargent de la polénisation pour le compte des fleuristes, mais qu’on puisse créer du miel et la profession d’apiculteur.

    Les abeilles sont prête, il suffit d’ouvrir les serres.

    C’est-y pas poétique comme parallèle ?

  14. y!onel

    API-culteur tu veux dire ? (je sais pas si c’était voulu dans ta métaphore ou pas, mais c’est parfaitement adapté ! :p)

  15. Fred Cavazza

    @ vertaxy > Serait-ce trop te demander de faire l’effort de passer outre les fautes d’orthographe ? Sinon tu peux toujours lie le Journal du Net où il n’y a pas de fautes.

    @ Fabrice > Est-il réellement utile de traduire Linked Data et Data Set ? Après tout nous n’avons jamais réussi à traduire Mashup, plugin…

    @ Fabrice > Si je comprend bien ta métaphore, les abeilles sont les URI, c’est ça ?

    /Fred

  16. ufano

    Je veux pas faire chiant, mais vous parlez de la boîte non? Et il s’agit bien d’une société luxembourgeoise, pas française.
    Ce n’est pas la nationalité des fondateurs qui définit la nationalité de la société que je sache… je sais je suis chiant…

  17. o-l-i-v

    J’aime beaucoup l’abord de ce sujet sous la perspective du lien. Au risque d’être un peu caricatural, on peut finalement résumer ainsi : le web 1 c’est du lien (hypertexte) entre documents, le web 2 du lien (social) entre individus et le web 3 du lien (sémantique ?) entre des données.

    « Data Set » est parfois traduit par « Jeu de données ». J’emploie cette traduction personnellement.

    o-l-i-v

  18. Fabrice Epelboin

    @o-l-i-v Jeu de données, c’est bien, oui. Vendu.

    @ufano Ca se discute. Pour une boite dans le secteur musique, le Luxembourg est une évidence. Autant une boite comme Vanksen est vraiment Luxembourgeoise, même s’il y a pas mal de Français, elle est clairement implantée sur place avec pas mal de clientèle locale, autant Jamendo, c’est juste un aspect juridique et fiscal, c’est pas plus Luxembourgeois que iTunes.

  19. ufano

    Je trouve que la comparaison avec Itunes n’est pas valable Itunes n’ayant pas été crée au Luxembourg mais s’y est installé par après-coup. Jamendo y a bien été crée.
    De plus je ne pense pas que rentre en compte la question si les clients sont locales ou pas. Mais là où la société s’est établie, et puis c’est tout.
    Je trouve votre point point de vue toutefois intéressant, reste à savoir pourquoi Sylvain Zimmer est finaliste (pour sa deuxième participation) pour le prix du Creative Young Entrepreneur Luxembourg 2009 (dont la cérémonie se déroule ce soir) Je lui poserai la question d’ailleurs si j’ai l’occasion si ils sentent plus une boite française ou pas.

  20. Mpok

    C’est le titre et le premier paragraphe qui sont incompréhensible. Le reste, quand on prend le temps de le lire est très clair.
    Comme le signale y!onel (comment #10), c’est de web sémantique dont il est question (peu importe les termes).

    C’est globalement une bonne chose d’aller dans ce sens, mais l’écueil numéro 1 (qui reste à résoudre) est la LANGUE.
    De nombreux algorithmes existent déjà (soit publiés, soit à l’état de recherche) pour traiter les pages Web SEMANTIQUEMENT (et donc réaliser les liens dont parle l’article). Mais TOUS butent sur la barrière de la langue (et ce qui en découle : expressions, mais aussi culture, habitudes, etc..).

    Un web sémantique EN ANGLAIS est réalisable dès aujourd’hui. Est-on en mesure de l’adopter en France ?
    C’est la première question à se poser…

  21. Fabrice Epelboin

    Non, non, données liés et sémantique, ce n’est pas la même chose… Là on parle de données liées et de bases ouvertes, PAS de sémantique (bon, d’accord, les ontologies, on les retrouve partout). C’est deux technos (ou plutôt un ensemble de standards et de normes d’un coté et des technos hardcores de l’autre) qui vont dans le même sens, qui peuvent/doivent s’utiliser conjointement, mais ce n’est pas la même chose…

    Allez faire un tour chez Nicolas Cynober, il a beaucoup écrit sur le sujet aussi http://nicolas.cynober.fr/blog/240,linkeddata-un-ecosysteme-pour-le-web-semantique.html

    http://nicolas.cynober.fr/blog/177,le-web-semantique-arrive-enfin.html

  22. Ufano

    Zimmer vient de gagner le prix de young entrepreneur of luxembourg 2009, precisant au passage, lors de son discours qu’une entreprise comme ca n’aurait pas pu se faire en France. Bon allez, je vous ai assez enquiquiner comme ça.

  23. narvic

    @ Fabrice

    Si je peux me permettre une suggestion, pour rendre la vulgarisation plus efficace : essaye de donner un exemple détaillé. ;-)

    Des documents reliés par des liens hypertextes, on voit tous aujourd’hui à quoi ça ressemble. Mais des données reliées entre elles, indépendamment des documents qui les contiennent, c’est plus difficile à concevoir (pour le moment), pour la plupart des gens.

    C’est peut-être plus facile en partant de données simples, comme « la température en ce moment à Paris » ou « un animal à longue oreilles qu’on appelle un lapin en français et a rabbit en anglais », pour montrer ensuite que chaque document peut être décomposé en un ensemble de données de ce genre. Il s’agit plus de relier entre elles les pages qui contiennent ces données, mais de relier les données elles-mêmes, dans toutes les pages où chacune d’entre elle est contenue.

    En partant d’un exemple de ce type, peux-tu essayer de nous raconter à quoi ressemblent des données liées et un jeu de données ? ;-)

  24. Fabrice Epelboin

    @Mpok

    Le problème de la langue est critique, que ce soit dans le web des liens (Linked Data) où la plupart des bases et dataset sont anglais, et qui n’offrent au mieux que des passerelles linguistiques (cf CommonTag) ou dans le web sémantique où à l’heure actuelle, seul OpenCalais propose une solution, et encore, bien moins efficace que sur l’anglais.

    En gros, c’est une boite Américaine qui va faire le web Francophone de demain… Là encore, le retard de la France va se payer cash, c’est aussi dramatique pour la langue Française que le jour où elle a perdu son statut de langue internationale au profit de l’anglais (qu’on peut faire remonter arbitrairement à la signature de l’armistice en 1918 ou le traité fut le premier texte de ce type rédigé en Français et en Anglais… le début de la fin…

    @narvic

    Un dataset c’est comme un ontologie, il n’y a pas d’exemple palpable pour les utilisateurs finaux. En faisant un gros raccourcis, un truc comme imdb.com est un peu comme un dataset, on y trouve tout ce qui concerne le cinéma avec des liens entre des éléments granulaires qui sont en général des nom (acteurs, réalisateur, films, etc, et l’on peut parcourir cet ensemble de données à travers des liens). C’est un gros raccourci, la réalité technologique, surtout en ce qui concerne les passerelles avec les ontologies servant d’intermédiaires entre différents datasets, est tout de même beaucoup plus complexe que cela.

    En gros, tout cela est le pendant technologique du journalisme de lien qui nous est cher, et l’un et l’autre ne peuvent s’aborder séparément (c’est pour cela que le projet Publish2 m’a toujours semblé aborder le problème par le petit bout de la lorgnette, même s’il reste intéressant, il fait l’impasse sur la dimension technologique alors que celle-ci est en plein boom).

  25. Emmanuel Vivier (Vanksen | BuzzParadise)

    Juste une petite info… CEO de Vanksen & BuzzParadise, et aussi basé au Grand Duché (avec 65 salariés sur place), je connais l’équipe de Jamendo depuis plus de 10 ans … à Luxembourg… Ils ont commencé d’ailleurs grâce à la pépinière de startup de la second ville du pays (Le Technoport d’Esch/leur Alzette) et leur 1er gros succès avant Jamendo a été http://www.lesfrontaliers.lu le site leader d’info et de la communauté des frontaliers (qui représentent 20% de la population en plus ou en moins du pays chaque jour!). Ce site est considéré comme une des plus grandes références en matière de web dans le pays…

  26. Fabrice Epelboin

    Mea culpa alors :(

    Purée, moi qui croyait avoir trouvé une boite faites par des français que allait à fond dans le sens de l’avenir…

  27. Fabrice Epelboin

    @emmanuel

    Vérification faite, quasiment tous les employés de Jamendo sont originaires de Metz (Français, donc) et à 4 exceptions près, ils habitent encore tous en France et font l’aller-retour sur le Luxembourg quotidiennement ;-)

  28. seb seb

    Pour « data set », en informatique on le traduit par/et on utilise « jeu de données ».
    Pour « linked data », je verrais bien « données connectées ».

9 Trackbacks For This Post

  1. Données et métadonnées : transfert de valeur au coeur de la stratégie des média | ReadWriteWeb France :

    [...] a été saluée par tous. Le Times publiera sous peu son corpus sous forme de ‘Linked Data’ (données liées), une méthode qui consiste à permettre aux données en rapport les unes avec les autres de se [...]

  2. Note de service :

    [...] version (code name: redbull). Les publications reprendront très prochainement, SemTech2009, différences entre LinkedData et Ontologies et avenir de la presse sont au programme [...]

  3. Du web 2.0 au web 3.0 en passant par les médias sociaux et l’intagable Web Squared : :: Nues Blog par Nicolas Voisin :: :

    [...] web “de demain”, web social, web des données, web du lien, (des données et des liens) web temps-réel, web sémantique (on en discutais ici à propos de ReutersCalais) se cherche un [...]

  4. émergenceweb : blogue » Web 3.0. O’Reilly réplique avec le Web Squared… :

    [...] ses possibilités a excité les neurones de plusieurs et valu un super billet de vulgarisation dans ReadWriteWeb, édition française. Mais aussi une réplique de Tim O’Reilly et John Batelle, quelques mois [...]

  5. Web Squared, transition vers le web 3.0 ou nouveau paradigme ? | MKT planet - News Web Marketing - Nouvelles Technologies :

    [...] et multiplie ainsi la valeur du tout. Fabrice Epelboin donne une très belle métaphore dans son article : « Les données étaient autrefois enfermées, comme des fleurs dans des serres. Ce que [...]

  6. Tim Berners-lee : la prochaine révolution du web sera sémantique | Performance Agile, le blog :

    [...] Readwriteweb, [...]

  7. Blog “Industries de la Créativité & Innovation” » Blog Archive » “ah, vous êtes déjà là?” ou du Web2 au Web puissance 2 :

    [...] et multiplie ainsi la valeur du tout. Fabrice Epelboin donne une très belle métaphore dans son article : « Les données étaient autrefois enfermées, comme des fleurs dans des serres. Ce que l’on [...]

  8. Twine, une rentrée difficile | ReadWriteWeb France :

    [...] la com­mu­nauté du web séman­tique a déta­ché ses yeux du hype pour s’intéresser au LinkedData et à l’ouverture des don­nées [...]

  9. émergenceweb : blogue » Le Web 2.0, so¨passé¨ ? :

    [...] ses possibilités a excité les neurones de plusieurs et valu un super billet de vulgarisation dans ReadWriteWeb, édition française. Mais aussi une réplique de Tim O’Reilly et John Batelle, quelques mois [...]

Réagissez !

Politique de modération des commentaires

  • A propos
  • Best of
  • Buzzing
  • Tags

ReadWriteWeb est un blog dédié aux technologies internet qui en couvre l’actualité et se distingue par ses notes d’analyse et de prospective ainsi que par l’accent mis sur les usages et leurs impacts sur les média, la communication et la société. Il est classé parmi les blogs les plus influents de la planète par Technorati et Wikio. Publié en cinq langues, il s'appuie sur un réseau de correspondants locaux en Nouvelle-Zélande, aux Etats-Unis, en France, en Espagne, au Brésil, en Chine ainsi qu'en Afrique francophone. Ses articles sont publiés dans la rubrique technologie du New York Times.


Partenaires

hébergement infogérance Bearstech
af83





Appli iPhone


 

Recommandés



Activité sur le site