Billets

Logilab était au Capitole du libre 2023

21/03/2024

Nous avons eu le plaisir les 18 et 19 novembre 2023 de participer au Capitole du Libre, que ce soit en tant qu'orateur que visiteur.

Le Capitole du Libre regroupe chaque année sur le campus de l'ENSEEIHT de Toulouse de nombreux passionnés et entreprises autour de conférences sur les logiciels libres et leur impact sur la société. En tant que développeur et utilisateur de logiciels libres depuis plus de vingt ans, Logilab participe régulièrement à cet événement Toulousain.

Cette année Élodie a réalisé une présentation pour vulgariser le Web de données, l'histoire de ses standards ainsi que son utilité pour l'interopérabilité des données et la décentralisation. La conférence a été filmée et la vidéo est disponible sur la chaîne Youtube de l'événement.

Nous avons aussi assisté à de nombreuses autres conférences tout le weekend ce qui nous a permis de découvrir de nouvelles technologies ou solutions libres.

Nous participerons, bien entendu, à la prochaine session du Capitole du libre. Nous avons déjà hâte de vous y rencontrer !


Retour sur SemWeb.Pro 2023

11/12/2023

Cette année encore, Logilab a eu le plaisir de vous convier à la conférence SemWeb.pro 2023.

Nous remercions chaleureusement tous les participants et participantes, ainsi que les présentateurs et présentatrices et les membres du comité de programme de cette édition 2023.

Cette édition était riche de 13 présentations aussi intéressantes et animées les unes que les autres. Certains ont pris le risque de la démo et s'en sont sortis avec succès !

Les sujets abordés permettent de se rendre compte de l'air du temps concernant l'utilisation des technologies du Web Sémantique dans un cadre professionnel. Les travaux présentés concernaient le milieu de l'agriculture, des statistiques, de l'édition d'ouvrages scolaires ou encore des archives.

Tous ces exemples permettent de se rendre compte de l'impact de ces technologies dans de nombreux domaines. Cette année, une place de choix a été accordée à l'utilisation des grands modèles de langues, qui apportent déjà un vent de nouveauté dans les techniques de traitement des données.

Toutes les vidéos des présentations sont accessibles sur https://peertube.semweb.pro/w/p/af3G6oBrS74CyPb6WDwq4U/ si vous souhaitez voir ou revoir certaines explications et démonstrations.

Nous invitons toutes les personnes présentes à répondre au questionnaire qu'elles ont reçu dans notre dernière lettre d'information.

Vu les riches échanges qui ont eu lieu durant cette édition, nous sommes convaincus que cette journée a son utilité et nous allons lancer l'organisation de la session 2024.

En vous abonnant à notre lettre d'information ou en suivant notre compte https://mastodon.logilab.fr/@semwebpro , vous vous tiendrez au courant du prochain appel à communication et des dates clés de l'événement.

En espérant vous croiser à la prochaine édition fin 2024.


Hackathon "Des archives aux données" 2023

26/06/2023 by Fabien Amarger

1500 mots: ~7min

Du 1er au 3 juin 2023 a eu lieu le colloque "Des archives aux données" au cours duquel deux jours de hackathon ont permis de s'interroger sur l'interopérabilité des données entre différentes institutions culturelles.

Les données présentées concernaient les représentations théâtrales de la Comédie Française (Base RCF), de la Comédie Italienne, du théâtre d'Amsterdam (Base On Stage) et du théâtre français des XVIIe et XVIIIe siècles (Base CESAR).

Ce fut l'occasion d'éprouver dans un contexte concret les avantages des technologies du Web Sémantique. Les requêtes fédérées ont en effet permis d'assembler et de manipuler des données publiées sans concertation préalable par les différents participants.

Tempête de cerveaux sur les besoins en interopérabilité

Lors de la première journée nous avons commencé par faire émerger des idées de traitements qui nécessitent une interopérabilité des données. Cette session a été très riche et il nous a fallu quelques efforts pour résumér les diverses idées et choisir vers quoi nous diriger.

Nos sources de données divergent principalement sur le périmètre étudié: les registres de la Comédie Française concernent une unique troupe, la base "ON_Stage" se focalise sur le théâtre d'Amsterdam et la base CESAR se limite à une période de temps.

La date des représentation théâtrales a été clairement identifiée comme centrale puisqu'elle permet de les aligner de manière non ambigüe. Chaque source de données décrit différemment les représentations, mais toutes ont renseigné la date.

Les lieux des représentations constituent un autre point de contact, pour autant que les périodes temporelles soient les mêmes.

Partant de ces deux constats, nous nous sommes demandé s'il serait possible d'afficher un graphique qui rendrait compte de l'évolution géographique d'une pièce dans une période de temps donnée.

Maquette d'une potentielle application

Dans la maquette ci-dessous, nous pouvons observer l'évolution dans le temps d'une pièce donnée. Au centre on voit l'enchaînement des villes où la pièce a été jouée. Une ville peut apparaître plusieurs fois si la pièce y a été rejouée après avoir tourné ailleurs. En bas figure la ligne de temps, qui est sous-divisée par année. A droite, on trouve un cadre avec des boutons qui permettent de choisir le mode de représentation.

Dans la première figure, la taille des cercles qui représentent les villes est liée au nombre de représentations.

Dans la deuxième figure, la taille des cercles qui représentent les villes est liée au revenu généré.

Dans la troisième figure, les données sont affichées sur une carte plutôt qu'avec un graphe.

Analyse des sources de données

Nous avons choisi de nous focaliser sur les sources déjà publiées dans des entrepôts SPARQL pour deux raisons. D'une part le hackathon était court, donc il fallait éviter de onsacrer du temps à des questions de lecture de formats de fichiers qui ne produiraient aucun résultat visible. D'autre part les gens autour de la table connaissaient déjà bien ces jeux de données.

Nous avons donc privilégié l'utilisation de ces trois sources de données: * Les registres de la Comédie Française / accès sparql * La base CESAR / accès sparql * La base ON-STAGE / accès sparql

Nous avons tout d'abord écrit des requêtes SPARQL fédérées afin de pouvoir joindre avec une seule requête des données de plusieurs bases.

Ce faisant, nous avons rencontré un premier problème technique, à savoir que l'entrepôt qui héberge les données de la Comédie Française n'était pas configuré pour accepter les requêtes fédérées. Nous avons donc essayé l'inverse, à savoir interroger l'entrepôt de la base CESAR, mais ce dernier repose sur Ontop, qui ne permet pas non plus les requêtes fédérées. Nous avons finalement utilisé l'entrepôt de la base ONSTAGE, déployé avec TriplyDB, pour exécuter une requête fédérée assemblant des données de RCF et CESAR... mais aucune de ONSTAGE. Ceci nous a rappelé que la fédération de requêtes, séduisante sur le papier, est parfois plus compliquée qu'il n'y paraît.

Alignement des modèles

Nous avons ensuite cherché quel modèle utiliser pour assembler les données obtenues avec ces requêtes.

La base CESAR décrit des "Séances", qui peuvent être définies comme des ensembles de représentations contigües. Cette notion peut être rapprochée de celle de "Journée" dans le modèle RCF, mais cet alignement n'est pas tout à fait exact puisqu'il est possible qu'il y ait plusieurs "Séances" à la même date, donc plusieurs "Séances" dans une "Journée". Les registres de la Comédie Française ne détiennent pas cette information de "Séance" spécifique et se contentent de considérer uniquement la "Journée".

Ces différences de modélisation sont monnaie courante et nous avons dû, sans surprise, définir un modèle intermédiaire adapté à notre objectif et des opérations de transformation des données pour les convertir de leur modèle d'origine vers ce modèle afin de les fusionner.

Nous avons retenu les notions de Pièce, de Représentation, de Séance et de Lieu.

Alignement des données

L'objectif de notre maquette étant de rendre visible les évolutions des pièces qui apparaissent quand on fusionne les données complémentaires issues des différentes sources, nous avons ensuite aligné les pièces.

Pour cela, nous avons utilisé la date de représentation pour restreindre les candidats à l'alignement, puis le nom de la pièce. Par exemple, nous savons que le 30 septembre 1681 on a joué d'après la base CESAR une pièce 123303 intitulée "Phèdre et Hippolyte" et une pièce 23287 intitulée "Les Fragments de Molière". A la même date, d'après la base RCF, on a joué une pièce 5772 intitulée "Phèdre et Hippolyte ou Phèdre" et une pièce 5396 intitulée "Fragments de Molière (Les)". Avec une simple distance de Levenshtein entre chaînes de caractères, nous pouvons aligner les pièces et affimer que 123303 chez CESAR correspond à 5396 chez RCF.

En appliquant ce traitement sur l'ensemble des dates, nous avons obtenu un alignement entre les 49 pièces de CESAR et RCF.

Vu le temps imparti, nous nous sommes limité aux pièces, mais on pourrait pousser plus loin et par exemple inclure dans le modèle les personnes, puis les aligner en utilisant des critères appropriés.

Exploitation des données

Une fois les données importées depuis les différentes sources, converties dans le même modèle et alignées automatiquement entre CESAR et RCR ou une par une pour quelques pièces de ONSTAGE, il devient possible de les exploiter.

Les bases RCF et ONSTAGE ne contenant pas de lieux, nous avons supposé que toutes les représentations RCF étaient à Paris et toutes celles d'ONSTAGE à Amsterdam. C'est probablement faux, donc pour améliorer la qualité du résultat il faudrait trouver des sources complémentaires à partir desquelles importer les lieux exacts des représentations.

Dans le calepin Jupyter qui nous a servi pour consigner nos expérimentations de manière reproductible, nous avons finalement produit le graphique ci-dessous:

Le menu déroulant en haut à gauche permet de choisir une pièce.

Nous voyons au centre un nuage de points, avec l'année en abscisse et la ville en ordonnée. La couleur des points reflète la source de données et leur taille dépend du nombre de représentations.

L'histogramme au-dessus du graphique est l'aggrégation des données par an pour toutes les villes. L'histogramme de droite est l'agrégation par ville pour toutes les années.

Ce graphique démontre que nous avons produit les données souhaitées, mais il aurait fallu plus de temps pour les représenter comme imaginé en début de hackathon lorsque nous avons dessiné les maquettes graphiques.

Conditions de l'interopérabilité et gouvernance

Ce hackathon a mis en lumière pour tous les participants des questions bien connues de ceux qui ont l'habitude de ce genre d'exercice:

  1. un modèle commun est nécessaire pour communiquer entre les bases et celles et ceux qui administrent ces bases
  2. la qualité des données d'entrée détermine l'efficacité du traitement, c'est à dire le rapport entre la qualité du résultat et l'effort nécessaire pour le produire
  3. l'alignement est une étape cruciale de la fusion des données issues de plusieurs sources
  4. les standards du Web Sémantique, et particulièrement le RDF et le SPARQL sont des atouts indéniables pour faire interopérer plusieurs sources de données

Ces constats ont fait émerger, au sein de la communauté présente à ce colloque, la question du partage des bonnes pratiques de publication de données. Effectivement, maintenir un modèle commun d'échange, rédiger une guide de bonnes pratiques pour la publication, accompagner les institutions dans leur parcours d'apprentissage, tout cela est un travail long, mais primordial pour supprimer les obstacles à l'interopérabilité.

Il a été discuté de créer un consortium Huma-Num consacré à la gestion des données du spectacle vivant et à l'expression de ces bonnes pratiques, pour orienter la suite des travaux vers des solutions communes et faciliter les interactions entre les données de différentes institutions.

A Logilab, nous apprécions le travail que nous réalisons depuis plusieurs années pour le projet des Registres de la Comédie François et nous avons été honorés d'être invités à ce colloque. Ce hackathon nous a permis de relier les données de RCF, que nous connaissons bien, à d'autres jeux de données, que nous avons découverts, mais aussi de prendre part aux débats sur leur gouvernance future. Nous espérons pouvoir continuer à apporter nos compétences techniques à ces projets, pour faciliter le travail de recherche sur le théâtre et son histoire.


Une journée SemWeb.pro à Toulouse !

11/05/2023

Un nouvel événement dédié au Web Semantique dans la ville rose s'organise !

Nous avons le plaisir de vous annoncer le programme de la journée d'atelier SemWeb.Pro que nous organisons le 13 Juin prochain à Toulouse.

Cette journée aura lieu le 13 Juin à Toulouse, dans l'espace de coworking et de réunion O'Local, dans une belle bâtisse typiquement toulousaine, avec comme objectif de favoriser au maximum les interactions.

Pensez à vous inscrire !

Le programme de cette journée s'articule en deux temps, le matin une session de présentations et l'après-midi dédié aux échanges autour des thématiques et des questions ayant animé le débat le matin même. Une restitution rapide des ateliers clôturera la journée.

Au programme :
Créneau Titre de la présentation Intervenant
10h00-10h30 Création automatique d'ontologies à partir de documents techniques M. Lalanne (Airbus)
10h30-11h00 Intérêt des Systèmes d'Informations pilotés par des ontologies. Illustration avec OpenSilex P. Neuveu (INRAE - MISTEA)
11h30-12h00 Génération d'un contexte JSON-LD à partir d'un méta-modèle : exemple avec Asset Administration Shell É. Thiéblin (Logilab)
11h30-12h00 En cours de définition ...

Tous les détails relatifs à l'inscription sont sur le site SemWeb.pro Attention, le nombre de places est limité.

Nous espérons que cet événement tiendra ses promesses en rassemblant et vous permettra d'entretenir votre réseau tout en découvrant un large spectre des possibilités du web sémantique.


Salt au Elsass JUG le 29 juillet 2015

27/07/2015

Arthur Lutz fera une présentation de son utilisation combinée de Salt, Mercurial, Docker et Python pour gérer des infrastructures de systèmes informatiques à l'occasion de la prochaine réunion du Elsass JUG qui aura lieu mercredi 29 juillet 2015 à Strasbourg.


Table ronde Salt - Ansible - Chef - Puppet

24/07/2015

Logilab a organisé une table ronde pour comparer les outils libres de gestion d'infrastructure et de gestion de configuration système : Salt, Ansible, Chef et Puppet.

Elle a eu lieu le 18 juin 2015 à l'Ecole42 à Paris.


Sprint Salt le 4 mars 2015 à Logilab

24/02/2015

En marge de la conférence SaltStack, nous vous invitons à un sprint SaltStack mercredi 4 mars 2015 de 9h à 18h dans nos locaux à Paris. Voir aussi l'annonce sur le blog de la communauté française.

L'idée est de finir la journée avec des contributions à salt (documentation, code, tests, etc) et de profiter des pauses pour discuter technique et échanger sur nos pratiques.

La participation est gratuite, il suffit de s'inscrire ici.


Logilab au Capitole du Libre les 14/15/16 novembre 2014 à Toulouse

17/10/2014

Logilab participera à la journée pro appartenant à la série Rencontre régionale du logiciel libre du CNLL, animera un stand pendant le week-end, une conférence sur Saltstack le samedi et deux ateliers le dimanche (improvisation d'application sur la base de données ouverte avec CubicWeb et mise en place pratique de Saltstack).

Plus d'information sur le site du Capitol du Libre.

image


Logilab présente Saltstack le 3 novembre à la cantine Toulouse

17/10/2014

Logilab vous invite le lundi 3 novembre à une présentation de Saltstack à la cantine de Toulouse. Cela se passera de 18 à 20h, avec une présentation suivie d'un moment convivial autour d'un apéritif afin de continuer la discussion.

Plus d'information et inscription sur le site de la cantine.

image


Logilab à l'OpenWorldForum 2013

25/09/2013

Rendez-nous visite sur notre stand lors de l'OpenWorldForum à Paris (Montrouge) le 3 et 4 octobre 2013. Nous pourrons parler de vos projets ou de nos dernières réalisations. Nous organisons un meetup SaltStack et aborderons plus généralement l'application du TDD (Test-driven development) appliqué à l'administration système.

image

align
center


Présentation conjointe Logilab / SNCF au séminaire NAFEMS

26/11/2012

Logilab et la SNCF effectueront ensemble une présentation intitulée "Développement d’une démarche Simulation Data Management (SDM) dédiée à l’infrastructure ferroviaire" lors du séminaire NAFEMS du 6 décembre 2012. Cette présentation sera l'occasion d'exposer la démarche de capitalisation mise en place par la SNCF, et l'outil de SDM développé par Logilab sur la base de CubicWeb.


Logilab participe à Agile Tour Nantes

26/11/2012

À l'Agile Tour Nantes nous avons présenté "Outils agiles : revue de code & publication continue", expliquant l'utilisation de la plate-forme logiciel libre CubicWeb pour la revue de code collaborative et la publication automatisée de paquets installables. Les transparents sont disponibles en PDF (et en miroir sur slideshare). Merci à Agile Nantes pour l'organisation de cette étape du Tour.


Logilab participe à la semaine de l'OpenData à Nantes

21/05/2012

Logilab fera une présentation du Web Sémantique lors la Semaine Open Data à Nantes. Cette présentation aura lieu lors des atelier participatifs, et l'inscription s’effectue sur eventbrite.


SemWeb.Pro 2012

02/04/2012

Les deuxièmes journées professionnelles du Web Sémantique auront lieu les 2 et 3 mai 2012 à Paris. Une journée de conférence et une journée de tutoriels pour faire se rencontrer les professionnels du Web Sémantique, à savoir les membres de la communauté scientifique et les industriels désireux de mettre en oeuvre ces nouvelles techniques. Inscription sur SemWeb.Pro.


SemWeb.Pro 2011

16/01/2011
Les premières journées professionnelles du Web Sémantique auront lieu les 17 et 18 janvier 2011 à Paris. Une journée de conférence et une journée de tutoriels pour faire se rencontrer les professionnels du Web Sémantique, à savoir les membres de la communauté scientifique et les industriels désireux de mettre en oeuvre ces nouvelles techniques. Inscription sur SemWeb.Pro.

EuroPython 2009

30/06/2009
Chaque début d'été voit revenir la conférence internationale EuroPython, acceuillie cette année par Birmingham. Logilab sponsorise l'événement, comme à son habitude et présentera cette année la plate-forme CubicWeb conçue pour développer les applications du web sémantique.

EuroPython 2006

02/07/2006
Chaque début d'été voit revenir la conférence internationale EuroPython, acceuillie cette année par le CERN, à Genève. Logilab y animera les sessions "Python in Science and industry" : modélisation de systèmes complexes (thermo, dynamique des fluides, mécanique, aéronautique, biologie, chimie), traitement de volumes massifs de données et calculs intensifs. Les orateurs y presenteront des boîtes à outils, des infrastructures de calcul et des réussites alliant Python et les autres outils habituels du domaine du calcul scientifique.

Réunion annuelle CUPS

16/05/2006
La Réunion CUPS, Club des Utilisateurs de Python Scientifique, 3ème édition, s'est tenue dans les locaux d'EDF R&D. À l'ordre du jour : Python et Code_Aster (EDF R&D), Couplage de codes (Onera), Avancement PyPy (Logilab), Outils pour la modélisation du climat (CEA IPSL).

XP Day France 2006

22/03/2006
Logilab sponsorise XPDay France 2006 les 23 et 24 mars 2006 à l'Espace Hamelin à Paris XVI. Les dirigeants de Logilab seront présents lors des conférences pour partager leurs expériences et échanger sur le thème des méthodes agiles, qui sont utilisées pour les projets internes, pour les projets clients et dans les développements au niveau européen (cf. PyPy). Ils présenteront lors de la conférence S28, vendredi 24 à 10h, comment Logilab a été entièrement organisée selon les principes agiles, tant au niveau des développements logiciels que de la gestion d'entreprise.

Salon Solutions Linux 2006

30/01/2006
Logilab exposera au salon Solutions Linux 2006 du 31 janvier au 2 février, au CNIT à Paris La Défense. Retrouvez-nous sur le stand C15 et venez assister à la conférence dédiée aux modèles économiques propres au logiciel libre. Nous vous présenterons l'avancement du projet européen PyPy ainsi que notre nouveau logiciel Erudi et nos dernières réalisations fondées sur Zope.