La technologie RSS

Lors de mon premier stage en entreprise, je me rappelle d’un mot de ma tutrice qui m’avait fait part de l’importance de faire une veille hebdomadaire pour se tenir informé du monde en constante évolution dans lequel nous vivons.

Peu de temps après je découvrais par curiosité un service de Google qui était d’une puissance sans égale j’ai nommé Google Reader fermée en 2013 capable d’indexer tout le contenu d’un site web simplement en entrant l’URL du site d’information en question. Ce service était basé sur la fameuse technologie Really Simple Syndication ou RSS.

La technologie RSS est elle même basée sur le langage XML qui sont tous les deux issues du W3C l’association créée par Tim Berners Lee, l’inventeur du protocole Hypertexte et du Web dont j’ai déjà parlé dans cet article.

Pour plus d’informations sur le schéma du RSS :

https://www.rssboard.org/

Le langage XML pour Extensible Markup Language est un langage à balise tout comme le HTML sauf qu’elle est sous forme de nœuds c’est à dire des balises imbriquées les unes dans les autres et que le nom de chaque balise peut-être personnalisé à sa guise pour structurer les données.

Il existe plusieurs versions de la technologie RSS : Le RSS 1, le RSS 2 (le plus utilisé aujourd’hui) et une technologie plus récente standardisé par l’IETF (encore eux) ATOM 1.

Dans RSS des balises XML ont été définies.

La différence entre RSS 2 et ATOM est négligeable, les balises qui structurent la page XML sont très similaires.

@Wikipedia

Comment cela marche RSS ? Pour faire simple, un flux RSS est une page de contenu structurée via le langage XML véhiculée par le protocole HTTP dont on a déjà parlé.

Ce contenu est très facilement indexé par un agrégateur de news dont le code permet : récupération , mise en forme et organisation de tous les flux de vos sites préférés pour faire une veille rapide et efficace. Nous reviendrons aux différents agrégateurs à la fin de l’article.

Sachez qu’il existe un autre langage que XML développé il y a peu basé sur la technologie serveur Javascript Object Notation j’ai nommé JSON (Ryan Dahl) baptisée JSON Feed.

Quels sont les agrégateurs de sites  ? Je n’en citerai que deux :

Le meilleur pour une technologie propriétaire et fermée qui compte le plus d’utilisateurs est baptisé Feedly. Il est utilisé par plus de 18 millions de personnes.

Il est très efficace, ergonomique, simple d’utilisation, complet et puissant. Je l’utilise sur mon mobile et il vous suffit d’une adresse de courrier électronique pour pouvoir l’utiliser gratuitement même si l’ajout récent de nouvelles fonctionnalités liées à l’IA (Ex : Construction de flux à partir d’un lien) nécessite la version pro ou business qui sont payantes.

Si vous êtes sur Linux, le meilleur est certainement RSS Guard.

Il y’a de cela une bonne dizaine d’années j’avais pu ajouter les thèses pluridisciplinaires ouvertes de l’INRIA : l’institut national de recherche en informatique et en automatisation qui est un corps d’état public de recherche.

Les sites wordpress génèrent tous un flux RSS dont le XML se trouve juste derrière la racine du site en rajoutant /feed/

Ex : https://sciencetic.fr/feed/

C’est informatif si vous souhaitez juste consulter le code XML mais des agrégateurs comme Feedly le savent et vous pouvez directement entrer l’adresse du site dans l’agrégateur ou même chercher des flux référencés par domaine via des hashtags #

Pour détecter ou sont loggés les flux RSS d’un autre site d’information culturelles ou scientifiques par exemple celui du point, voici un petit tutoriel :

1 / Rendez-vous sur lepoint.fr qui est la page de base en somme la page des actualités :

2/ Ouvrez la console développeur de votre navigateur favori avec F12,

3/ Sélectionnez « Mise en Page » et faites une recherche avec « Ctrl + F » : tapez rss

4/ Après href pour hypertext référence vous trouverez l’URL à rajouter derrière lepoint.fr/ pour accéder au code XML du flux RSS : Dans l’exemple https://lepoint.fr/rss.xml

Site du Point

Ajoutez cette URL https://lepoint.fr/rss.xml à votre agrégateur et le tour est joué vous avez désormais accès à un flux qui récapitule toutes les dernières informations des actualités du site du Point :

Version vidéo du tutoriel :

Si ce n’est pas clair voici une version vidéo du tutoriel notamment pour les derniers dépôts des archives ouvertes pluridisciplinaires de l’INRIA :

Institut National de Recherche en Informatique et Automatisation

Voilà je ne veux pas faire trop long et j’espère que cela va vous permettre de découvrir l’univers des agrégateurs de news que ce soit sur mobile ou sur ordinateur et la puissance de cette technologie d’information surtout sur un téléphone portable !

Pour finir, j’insisterai sur un dernier point : lorsque vous faites votre veille qu’elle soit informative ou scientifique, n’oubliez pas de toujours faire appel à votre analyse critique. Prendre du recul surtout à l’époque de la guerre d’information, des complotistes, des articles écrits par des algorithmes et des fake news.

Ainsi, lorsque quelque chose vous paraît incongru, cherchez l’auteur, et croisez les sources !

HTTP, HTML et la Démocratisation du Savoir

Est-ce que Tim Berners-Lee avait conscience lorsqu’il inventa le web en 1989 de la portée de son invention dans la démocratisation du savoir ? Je veux parler bien sûr du protocole de transfert hyper texte et de son langage référent le Hyper texte Markup Language.

Si il avait pour but de révolutionner le cheminement de l’information lors de son passage au Centre Européen de recherche nucléaire il y’a un élément fondamentale qu’il n’avait peut-être pas prévu, ou du moins dont il a sûrement sous-estimé la portée : cliquer sur un lien ou un mot pour en connaître le sens…

Je veux parler de la fameuse balise « Anchor » ou ancre du langage HTML qui permet de transformer un bloc, une image ou un mot en un « hyperlien » pour faire référence à une autre page ou à une page de définition. Sur ce modèle a été bâti le succès de Wikipedia et toutes les encyclopédies en ligne ou autres dictionnaires numériques qui sont des véritables accélérateurs de mémorisation.

Il a rendu accessible ce qui était réservé à une élite lors de processus de discussions ou deux interlocuteurs rebondissent sur un mot ou une idée pour se l’approprier ou la définir.

Il n’est pas étonnant que le vieux monde ou les régimes totalitaires aient été réfractaire à l’avènement du web et des technologies de l’information quand chaque étudiant ou autodidacte avait accès à des trésors de connaissances.

Si on en a la volonté tout est à notre portée pour pouvoir apprendre et s’exercer : en quelques clics, prises de notes, sites spécialisés pour peu que l’on connaisse les bases du domaine que l’on souhaite approfondir : mathématiques, biologie moléculaire.

Certes, cela ne remplacera jamais les livres et leurs approche pédagogique mais avouez que nos bons vieux Larousse ont pris un vrai coup de vieux lorsque nous devons passer d’une page à l’autre rangées par ordre alphabétique pour approfondir un ensemble de définition…

Une initiative intéressante dont je souhaitais parler ici est celle du CNRS avec son trésor de la langue française qui a été mis en ligne vers 2008 que j’ai découvert pendant mes études accessibles sur cnrtl.fr et dont chaque mot contrairement à wikipedia est un hyperlien.

Sur un simple clic gauche un menu s’ouvre et vous avez accès à la lexicographie, la morphologie ou l’étymologie complète du mot comme le montre cette image de la définition du terme « primitive »

Exemple du mot « primitif » sur le centre de ressources textuelles et lexicales

Comme dans un dictionnaire vous disposez de toutes les acceptions du mot en question par discipline le tout surligné peut-être pour stimuler votre mémoire visuelle.

Le pouvoir de la connaissance est entre nos mains…