La fabrique Eysséric produit des berlingots dans le\r Vaucluse.\r
\r ```\r \r l'ordinateur, lui, comprend :\r \r ```html\r?? ???????? ???????? ??????? ??? ?????????? ???? ??\r ????????.\r
\r ```\r \r Nous aimerions qu'il puisse comprendre:\r \r Nom Produit Localisation\r ------------------- ------------ --------------\r Fabrique Eysséric berlingots Vaucluse\r \r Nous souhaiterions que l'ordinateur comprenne les relations entre les\r éléments et la nature de ces éléments, comme nous en somme.\r \r Pour cela, les données transmises doivent être structurées et\r identifiées (nous l'avons vu plus haut, grâce aux URI).\r \r ## Données structurées\r \r ![](https://www.logilab.fr/file/4715989/raw/upload_e057d3ddc4d7fac78cd34173241f3da5.png)\r Le W3C (*World Wide Web Consortium*) définit des standards pour le Web\r (encore un morceau de votre barre de navigation décrypté !).\r \r Pour représenter les données dans le Web sémantique, on utilise ces\r standards et le *Resource Description Format* (RDF). Ce dernier consiste\r à représenter les données sous forme de **triplets** utilisant des URI,\r comme des phrases très simples : sujet - prédicat (verbe) - objet.\r \r Les données structurées de notre exemple deviennent alors :\r \r https://monUrl.fr/FabriqueEysseric https://monUrl.fr/produit https://monUrl.fr/Berlingot.\r \r https://monUrl.fr/FabriqueEysseric https://monUrl.fr/localisation https://monUrl.fr/Vaucluse.\r \r Et parce qu'on sait bien qu'un joli dessin vaut mille mots, on peut\r aussi représenter les triplets bout à bout sous forme de graphe.\r \r ![](https://www.logilab.fr/file/4715997/raw/upload_3aac8487ce9785f6cad07e90e4ef31ed.png)\r \r En récupérant les données relatives aux autres ressources du Web, on\r peut étendre le graphe de données, tant qu'il y a des données.\\\r À l'instar du Web de documents où les documents sont interconnectés\r grâce aux liens hypertexte, les ressources sont reliées les unes aux\r autres dans le Web de données.\r \r ![](https://www.logilab.fr/file/4716006/raw/upload_ac80845ddc388889531ac6fb78c92a30.png)\r \r # Pourquoi utiliser le Web sémantique dans FranceArchives ?\r \r Besoin FranceArchives Réponse Web sémantique\r ------------------------------------------------------ ---------------------------------------\r Désambiguïser les autorités Utilisations d'URI comme identifiants\r Données accessibles Protocole HTTP\r Référencement par moteurs généralistes Contribution au google graph\r Alignements référentiels nationaux Ontologies, alignements\r Enrichissement des données propres à FA Geonames, data.bnf, wikidata\r Limiter la responsabilité de maintenance des données Décentralisation\r \r Parmi les besoins de FranceArchives, nous avons déjà vu que\r l'utilisation d'URL comme identifiants (ce qui en fait des URI) répond\r au problème de désambiguïsation des autorités.\r \r De même, le protocole HTTP, base du Web, permet de rendre les données\r disponibles sur le Web sans application tierce.\r \r Maintenant que nous avons tous ces éléments, il ne reste plus qu'à\r chercher !\r \r ## Référencement par les moteurs de recherche généralistes\r \r Certains moteurs de recherche (dont le plus connu de tous) se mettent au\r RDF !\r \r Ils utilisent des données en RDF insérées dans le code d'une page Web\r pour mieux comprendre de quel sujet elle traite.\r \r Grâce à cette compréhension, ils peuvent afficher certains résultats\r sous des formes personnalisées... Exemple !\r \r Le moteur de recherche utilise les triplets RDF pour afficher les\r recettes de pâte à crêpes sous forme de petites cartes :\\\r ![](https://www.logilab.fr/file/4716017/raw/upload_4aa3b1170d2bd679a327c2917cc71698.png)\r \r Ainsi, vous n'avez même pas besoin de chercher LA meilleure recette de\r pâte à crêpes, votre ami le moteur de recherche l'a fait pour vous. Et\r comme il sait que vous n'aimez pas perdre votre temps et que vous aimez\r quand même bien quand il y a de jolies images qui vous mettent l'eau à\r la bouche, il vous propose de ne pas utiliser la molette de votre souris\r et de cliquer directement sur la carte que vous préférez.\r \r ## Alignement vers des référentiels\r \r Il y a plusieurs avantages à lier les données que nous publions sur le\r Web de données à des référentiels nationaux (ou internationaux).\r \r ### Ontologie de référence\r \r Une ontologie (ou un vocabulaire) est un ensemble d'URI que l'on va\r utiliser pour représenter les prédicats (ou flèches en version graphe)\r du RDF. L'ontologie définit les types de ressources présentes dans les\r données et les relations qui peuvent exister entre elles.\r \r C'est un peu le schéma d'une base de données relationnelle ou la liste\r des noms de colonnes d'un tableur.\r \r Si on compare les données au langage, l'ontologie serait la grammaire\r ainsi qu'une partie du vocabulaire.\r \r Le fait d'utiliser des ontologies standards dans ces données RDF permet\r de se "brancher" plus facilement avec d'autres graphes de données.\r \r ### Sources de données de référence\r \r En liant ses données à d'autres bases de données sur le Web,\r FranceArchives y trouve plusieurs avantages.\r \r Tout d'abord, cela lui permet d'**enrichir ses propres données**.\\\r En effet, un document d'archives implique toujours des lieux et/ou des\r personnes. On tente de normaliser les pratiques de nommage de ces\r entités (dans quel sens on met quelle information) afin d'aider\r davantage au liage des données : **Charles, de Gaulle (1890-1970)** ou\r **de Gaulle, Charles** ou **Général de Gaulle (Charles, 1890-1970)**. De\r même pour les noms de lieux : **Sumène**, **Sumène (Gard - 30)**,\r **Sumène (Gard)**, etc.\r \r Dans les notices, seuls figurent généralement le nom du lieu (avec son\r département) et le nom de la personne. En liant les données de\r FranceArchives à d'autres bases, on peut ainsi étendre le graphe de\r données et enrichir les informations que nous avions au départ. Comme\r nous l'avons vu, plus il y a de mentions permettant de désambiguiser un\r terme (à placer au Scrabble), meilleure sera la qualité de la donnée et\r donc plus performant sera le schéma RDF et au final les résultats de\r recherche.\r \r Ce schéma montre l'exemple de la notice [Sur la plage de\r Saint-Vincent-sur-Jard...](https://francearchives.fr/fr/facomponent/e6c3ff90ff8dc0578c3fed6909b5e9968965913b)\r dont la [description\r RDF](https://francearchives.fr/fr/facomponent/e6c3ff90ff8dc0578c3fed6909b5e9968965913b/rdf.xml)\r peut être obtenue en ajoutant à l'url le suffixe `/rdf.xml` ou\r `/rdf.ttl`.\r \r Cette notice parle notamment de Georges Clemenceau et de la commune de\r Saint-Vincent-Sur-Jard. Initialement, il y avait peu d'informations sur\r ces deux ressources. En liant Saint-Vincent-sur-Jard à [son pendant dans\r Geonames](https://www.geonames.org/2976583/saint-vincent-sur-jard.html),\r une base de données regroupant des lieux, nous avons pu enrichir les\r données en récupérant notamment le code postal et la population. De la\r même manière, en liant Georges Clemenceau à [son pendant dans\r DataBnF](https://data.bnf.fr/fr/11897013/georges_clemenceau/), nous\r avons pu enrichir les données en récupérant notamment sa date de\r naissance et quelques éléments biographiques notables.\r \r ![](https://www.logilab.fr/file/4716024/raw/upload_d7d425e7f28ac146418e70bc47761bbc.png)\r \r Le second avantage qu'apporte l'alignement (c'est-à-dire le fait de lier\r sa base avec une autre) est de **limiter la maintenance des données** :\r moins on les manipule, mieux elles se portent.\r \r FranceArchives peut profiter d'informations libres et ouvertes sur les\r personnes, les thèmes, les lieux pour valoriser ses données tout en se\r concentrant sur la publication et la maintenance des données d'archives\r uniquement.\r \r ## data.bnf\r \r Le projet [data.bnf](https://data.bnf.fr/fr/about) a pour but de rendre\r les données de la BnF **utiles et exploitables sur le web**. Elles\r permettent notamment de rassembler des informations sur les ressources\r conservées au sein de la BnF : **documents, ouvrages, auteurs, thèmes,\r etc.** Les pages sont indexées par les moteurs de recherche : les\r **données disponibles et requêtables sont souvent invisibles lors d'une\r recherche classique** car [enfouies dans les données et\r métadonnées]{.underline} des ressources BnF.\r \r Sur FranceArchives, ces liens permettent d'ajouter des informations sur\r un sujet donné.\r \r ## Wikidata\r \r [Wikidata]() est une base **open source**, **gratuite**,\r **collaborative** et qui, de la même manière que DataBnF, met à\r disposition des [données compréhensibles aussi bien par les **humains\r que par les machines**]{.underline}. Cette base de données aide\r Wikipédia en facilitant la maintenance des fameuses boites\r d'informations que nous consultons tous dès que nous cherchons des\r informations sur la célébre encyclopédie.\r \r De la même manière que la précédente, les renvois vers Wikidata ajoutent\r une plus-value aux données consultables sur FranceArchives.\r \r ![](https://www.logilab.fr/file/4716039/raw/upload_6dc801b8f4e41c72276459a416931f1f.png)\r height="350"}\r \r ## Geonames\r \r [Geonames](https://www.geonames.org/about.html) est une base de données\r libres et ouvertes sur les données géographiques.\r \r ## DataCulture\r \r [DataCulture](http://data.culture.fr/thesaurus/) : le Ministère de la\r Culture publie un référentiels de sujets classés hiérarchiquement (en\r thésaurus). Les thèmes de FranceArchives sont alignés sur les ressources\r de DataCulture.\r \r # Axes futurs d'amélioration \r \r FranceArchives utilise déjà des technologies du Web sémantique. Pour\r aller plus loin, les chantiers suivants sont envisagés.\r \r **Interrogation en SPARQL** : SPARQL (oui il faut le lire comme un mot\r prononcé *SparKeul* et ne pas le jouer au scrabble celui-là sauf si on\r joue en anglais, car ça fait un jeu de mot pétillant avec *to sparkle*)\r est le langage d'interrogation du RDF. Rendre possible l'interrogation\r des données produites dans ce langage permet aux utilisateurs et\r utilisatrices de rechercher très précisément les informations voulues.\r \r **Utilisation de l'ontologie\r [RiC-O](https://www.ica.org/standards/RiC/ontology.html)** : cette\r ontologie (Records in Contexts - Ontology) est développée et maintenue\r par le Conseil International des Archives. Elle est en passe de devenir\r un standard pour le monde archivistique. L'utiliser pour décrire les\r données de FranceArchives permettra de se brancher plus facilement aux\r données d'autres services d'archives qui en font aussi usage.\r \r # *I have a dream...*\r \r ... *that one day* tout le monde pourra rechercher simplement et\r trouvera du premier coup toutes les informations désirées !\r \r Dans le monde numérique, ce qui est bien c'est qu'on peut rêver, et\r rêver grand ! Alors que diriez-vous de pouvoir faire une requête telle\r que : *Je cherche les archives concernant le village de naissance du\r général de Gaulle et la période 1945-1962* et que le moteur de recherche\r vous remonte directement les documents qui traitent exactement de ce\r dont vous, humain, vous parlez ? Imaginez un monde où l'on pourrait\r interroger les bases de données en langage naturel.\r \r Nous pouvons conclure cet article rédigé à l'occasion des Journées du\r Logiciel Libre 2021, sur le thème des *Utopies concrètes et accessibles*\r par cette proposition d'amélioration : un accès unique à toutes les\r données du web, requêtables en langage naturel et sans bruit\r documentaire... Un *International Knowledge Portal* !""" ; cw:content_format "text/markdown" ; cw:creation_date "2021-04-01T07:27:03.867866+00:00"^^xsd:dateTime ; cw:cw_sourceLa fabrique Eysséric produit des berlingots dans le\r Vaucluse.\r
\r ```\r \r l'ordinateur, lui, comprend :\r \r ```html\r?? ???????? ???????? ??????? ??? ?????????? ???? ??\r ????????.\r
\r ```\r \r Nous aimerions qu'il puisse comprendre:\r \r Nom Produit Localisation\r ------------------- ------------ --------------\r Fabrique Eysséric berlingots Vaucluse\r \r Nous souhaiterions que l'ordinateur comprenne les relations entre les\r éléments et la nature de ces éléments, comme nous en somme.\r \r Pour cela, les données transmises doivent être structurées et\r identifiées (nous l'avons vu plus haut, grâce aux URI).\r \r ## Données structurées\r \r ![](https://www.logilab.fr/file/4715989/raw/upload_e057d3ddc4d7fac78cd34173241f3da5.png)\r Le W3C (*World Wide Web Consortium*) définit des standards pour le Web\r (encore un morceau de votre barre de navigation décrypté !).\r \r Pour représenter les données dans le Web sémantique, on utilise ces\r standards et le *Resource Description Format* (RDF). Ce dernier consiste\r à représenter les données sous forme de **triplets** utilisant des URI,\r comme des phrases très simples : sujet - prédicat (verbe) - objet.\r \r Les données structurées de notre exemple deviennent alors :\r \r https://monUrl.fr/FabriqueEysseric https://monUrl.fr/produit https://monUrl.fr/Berlingot.\r \r https://monUrl.fr/FabriqueEysseric https://monUrl.fr/localisation https://monUrl.fr/Vaucluse.\r \r Et parce qu'on sait bien qu'un joli dessin vaut mille mots, on peut\r aussi représenter les triplets bout à bout sous forme de graphe.\r \r ![](https://www.logilab.fr/file/4715997/raw/upload_3aac8487ce9785f6cad07e90e4ef31ed.png)\r \r En récupérant les données relatives aux autres ressources du Web, on\r peut étendre le graphe de données, tant qu'il y a des données.\\\r À l'instar du Web de documents où les documents sont interconnectés\r grâce aux liens hypertexte, les ressources sont reliées les unes aux\r autres dans le Web de données.\r \r ![](https://www.logilab.fr/file/4716006/raw/upload_ac80845ddc388889531ac6fb78c92a30.png)\r \r # Pourquoi utiliser le Web sémantique dans FranceArchives ?\r \r Besoin FranceArchives Réponse Web sémantique\r ------------------------------------------------------ ---------------------------------------\r Désambiguïser les autorités Utilisations d'URI comme identifiants\r Données accessibles Protocole HTTP\r Référencement par moteurs généralistes Contribution au google graph\r Alignements référentiels nationaux Ontologies, alignements\r Enrichissement des données propres à FA Geonames, data.bnf, wikidata\r Limiter la responsabilité de maintenance des données Décentralisation\r \r Parmi les besoins de FranceArchives, nous avons déjà vu que\r l'utilisation d'URL comme identifiants (ce qui en fait des URI) répond\r au problème de désambiguïsation des autorités.\r \r De même, le protocole HTTP, base du Web, permet de rendre les données\r disponibles sur le Web sans application tierce.\r \r Maintenant que nous avons tous ces éléments, il ne reste plus qu'à\r chercher !\r \r ## Référencement par les moteurs de recherche généralistes\r \r Certains moteurs de recherche (dont le plus connu de tous) se mettent au\r RDF !\r \r Ils utilisent des données en RDF insérées dans le code d'une page Web\r pour mieux comprendre de quel sujet elle traite.\r \r Grâce à cette compréhension, ils peuvent afficher certains résultats\r sous des formes personnalisées... Exemple !\r \r Le moteur de recherche utilise les triplets RDF pour afficher les\r recettes de pâte à crêpes sous forme de petites cartes :\\\r ![](https://www.logilab.fr/file/4716017/raw/upload_4aa3b1170d2bd679a327c2917cc71698.png)\r \r Ainsi, vous n'avez même pas besoin de chercher LA meilleure recette de\r pâte à crêpes, votre ami le moteur de recherche l'a fait pour vous. Et\r comme il sait que vous n'aimez pas perdre votre temps et que vous aimez\r quand même bien quand il y a de jolies images qui vous mettent l'eau à\r la bouche, il vous propose de ne pas utiliser la molette de votre souris\r et de cliquer directement sur la carte que vous préférez.\r \r ## Alignement vers des référentiels\r \r Il y a plusieurs avantages à lier les données que nous publions sur le\r Web de données à des référentiels nationaux (ou internationaux).\r \r ### Ontologie de référence\r \r Une ontologie (ou un vocabulaire) est un ensemble d'URI que l'on va\r utiliser pour représenter les prédicats (ou flèches en version graphe)\r du RDF. L'ontologie définit les types de ressources présentes dans les\r données et les relations qui peuvent exister entre elles.\r \r C'est un peu le schéma d'une base de données relationnelle ou la liste\r des noms de colonnes d'un tableur.\r \r Si on compare les données au langage, l'ontologie serait la grammaire\r ainsi qu'une partie du vocabulaire.\r \r Le fait d'utiliser des ontologies standards dans ces données RDF permet\r de se "brancher" plus facilement avec d'autres graphes de données.\r \r ### Sources de données de référence\r \r En liant ses données à d'autres bases de données sur le Web,\r FranceArchives y trouve plusieurs avantages.\r \r Tout d'abord, cela lui permet d'**enrichir ses propres données**.\\\r En effet, un document d'archives implique toujours des lieux et/ou des\r personnes. On tente de normaliser les pratiques de nommage de ces\r entités (dans quel sens on met quelle information) afin d'aider\r davantage au liage des données : **Charles, de Gaulle (1890-1970)** ou\r **de Gaulle, Charles** ou **Général de Gaulle (Charles, 1890-1970)**. De\r même pour les noms de lieux : **Sumène**, **Sumène (Gard - 30)**,\r **Sumène (Gard)**, etc.\r \r Dans les notices, seuls figurent généralement le nom du lieu (avec son\r département) et le nom de la personne. En liant les données de\r FranceArchives à d'autres bases, on peut ainsi étendre le graphe de\r données et enrichir les informations que nous avions au départ. Comme\r nous l'avons vu, plus il y a de mentions permettant de désambiguiser un\r terme (à placer au Scrabble), meilleure sera la qualité de la donnée et\r donc plus performant sera le schéma RDF et au final les résultats de\r recherche.\r \r Ce schéma montre l'exemple de la notice [Sur la plage de\r Saint-Vincent-sur-Jard...](https://francearchives.fr/fr/facomponent/e6c3ff90ff8dc0578c3fed6909b5e9968965913b)\r dont la [description\r RDF](https://francearchives.fr/fr/facomponent/e6c3ff90ff8dc0578c3fed6909b5e9968965913b/rdf.xml)\r peut être obtenue en ajoutant à l'url le suffixe `/rdf.xml` ou\r `/rdf.ttl`.\r \r Cette notice parle notamment de Georges Clemenceau et de la commune de\r Saint-Vincent-Sur-Jard. Initialement, il y avait peu d'informations sur\r ces deux ressources. En liant Saint-Vincent-sur-Jard à [son pendant dans\r Geonames](https://www.geonames.org/2976583/saint-vincent-sur-jard.html),\r une base de données regroupant des lieux, nous avons pu enrichir les\r données en récupérant notamment le code postal et la population. De la\r même manière, en liant Georges Clemenceau à [son pendant dans\r DataBnF](https://data.bnf.fr/fr/11897013/georges_clemenceau/), nous\r avons pu enrichir les données en récupérant notamment sa date de\r naissance et quelques éléments biographiques notables.\r \r ![](https://www.logilab.fr/file/4716024/raw/upload_d7d425e7f28ac146418e70bc47761bbc.png)\r \r Le second avantage qu'apporte l'alignement (c'est-à-dire le fait de lier\r sa base avec une autre) est de **limiter la maintenance des données** :\r moins on les manipule, mieux elles se portent.\r \r FranceArchives peut profiter d'informations libres et ouvertes sur les\r personnes, les thèmes, les lieux pour valoriser ses données tout en se\r concentrant sur la publication et la maintenance des données d'archives\r uniquement.\r \r ## data.bnf\r \r Le projet [data.bnf](https://data.bnf.fr/fr/about) a pour but de rendre\r les données de la BnF **utiles et exploitables sur le web**. Elles\r permettent notamment de rassembler des informations sur les ressources\r conservées au sein de la BnF : **documents, ouvrages, auteurs, thèmes,\r etc.** Les pages sont indexées par les moteurs de recherche : les\r **données disponibles et requêtables sont souvent invisibles lors d'une\r recherche classique** car [enfouies dans les données et\r métadonnées]{.underline} des ressources BnF.\r \r Sur FranceArchives, ces liens permettent d'ajouter des informations sur\r un sujet donné.\r \r ## Wikidata\r \r [Wikidata]() est une base **open source**, **gratuite**,\r **collaborative** et qui, de la même manière que DataBnF, met à\r disposition des [données compréhensibles aussi bien par les **humains\r que par les machines**]{.underline}. Cette base de données aide\r Wikipédia en facilitant la maintenance des fameuses boites\r d'informations que nous consultons tous dès que nous cherchons des\r informations sur la célébre encyclopédie.\r \r De la même manière que la précédente, les renvois vers Wikidata ajoutent\r une plus-value aux données consultables sur FranceArchives.\r \r ![](https://www.logilab.fr/file/4716039/raw/upload_6dc801b8f4e41c72276459a416931f1f.png)\r height="350"}\r \r ## Geonames\r \r [Geonames](https://www.geonames.org/about.html) est une base de données\r libres et ouvertes sur les données géographiques.\r \r ## DataCulture\r \r [DataCulture](http://data.culture.fr/thesaurus/) : le Ministère de la\r Culture publie un référentiels de sujets classés hiérarchiquement (en\r thésaurus). Les thèmes de FranceArchives sont alignés sur les ressources\r de DataCulture.\r \r # Axes futurs d'amélioration \r \r FranceArchives utilise déjà des technologies du Web sémantique. Pour\r aller plus loin, les chantiers suivants sont envisagés.\r \r **Interrogation en SPARQL** : SPARQL (oui il faut le lire comme un mot\r prononcé *SparKeul* et ne pas le jouer au scrabble celui-là sauf si on\r joue en anglais, car ça fait un jeu de mot pétillant avec *to sparkle*)\r est le langage d'interrogation du RDF. Rendre possible l'interrogation\r des données produites dans ce langage permet aux utilisateurs et\r utilisatrices de rechercher très précisément les informations voulues.\r \r **Utilisation de l'ontologie\r [RiC-O](https://www.ica.org/standards/RiC/ontology.html)** : cette\r ontologie (Records in Contexts - Ontology) est développée et maintenue\r par le Conseil International des Archives. Elle est en passe de devenir\r un standard pour le monde archivistique. L'utiliser pour décrire les\r données de FranceArchives permettra de se brancher plus facilement aux\r données d'autres services d'archives qui en font aussi usage.\r \r # *I have a dream...*\r \r ... *that one day* tout le monde pourra rechercher simplement et\r trouvera du premier coup toutes les informations désirées !\r \r Dans le monde numérique, ce qui est bien c'est qu'on peut rêver, et\r rêver grand ! Alors que diriez-vous de pouvoir faire une requête telle\r que : *Je cherche les archives concernant le village de naissance du\r général de Gaulle et la période 1945-1962* et que le moteur de recherche\r vous remonte directement les documents qui traitent exactement de ce\r dont vous, humain, vous parlez ? Imaginez un monde où l'on pourrait\r interroger les bases de données en langage naturel.\r \r Nous pouvons conclure cet article rédigé à l'occasion des Journées du\r Logiciel Libre 2021, sur le thème des *Utopies concrètes et accessibles*\r par cette proposition d'amélioration : un accès unique à toutes les\r données du web, requêtables en langage naturel et sans bruit\r documentaire... Un *International Knowledge Portal* !""" .