home

Consulting et architecture interactive

Analyses

Schémas de classification : thésaurus, taxonomie, ontologie…

Au cœur de l’architecture de l’information et du Knowledge Management, les techniques de classification sont particulièrement d’actualité alors que les volumes d’information en ligne augmentent et que ce que nous cherchons est de plus en plus noyé parmi ce que nous ne cherchons pas. La plupart de ces techniques nous viennent de l’ingénierie documentaire. Avec le Web sémantique, l’ingénierie informatique nous apporte d’autres approches telles que les ontologies et les topic maps, souvent associées à des formalismes et outils définis.

Tour d’horizon des schémas de classification… (non exhaustif)

La méta-donnée, brique de base de la classification

Les méta-données sont des données décrivant les données elles-mêmes (informations, documents, images…). Elles servent donc à décrire et expliquer l’information, mais également à la trouver, l’utiliser et la gérer. La façon d’organiser les méta-données est en particulier spécifiée par le Dublin Core, qui définit 15 types de propriétés à utiliser pour décrire des ressources informationnelles (par exemple, “titre”, “créateur”…). Le Dublin Core a été ratifié notamment par la norme ISO 15836.

Les éléments du Dublin Core
Titre Le nom donné à la ressource
Créateur L’entité principalement responsable de la création du contenu de la ressource
Sujet Le sujet du contenu de la ressource (l’utilisation de vocabulaires contrôlés et de schémas formels de classification est encouragée)
Description Une description du contenu de la ressource (ex. résumé, table des matières, texte libre…)
Éditeur L’entité responsable de la diffusion de la ressource, dans sa forme actuelle, tels un département universitaire, une entreprise
Contributeur Une entité qui a contribué à la création du contenu de la ressource
Date Une date associée avec un événement dans le cycle de vie de la ressource (format : voir ISO 8601)
Type La nature ou le genre du contenu de la ressource (ex. catégories, fonctions ou genre généraux… il est recommandé d’utiliser un vocabulaire contrôlé, voir la liste de Types du Dublin Core)
Format La matérialisation physique ou digitale de la ressource (il est recommandé de choisir la valeur du format dans une liste de vocabulaire contrôlé – voir par exemple la liste MIME)
Identifiant Une référence non ambiguë à la ressource dans un contexte donné (exemples : URI, URL, DOI, ISBN)
Source Une référence à une ressource à partir de laquelle la ressource actuelle a été dérivée
Langue La langue du contenu intellectuel de la ressource
Relation Une référence à une autre ressource qui a un rapport avec cette ressource
Couverture La portée ou la couverture spatio-temporelle de la ressource (inclut typiquement une position géographique, ou une période de temps, ou une juridiction)
Droits Information sur les droits sur et au sujet de la ressource (droits de propriété intellectuelle – IPR, Copyright, divers droits de propriété…)

D’après la traduction de Anne-Marie Vercoustre, INRIA, disponible à partir de ce lien.

Méta-données “administratives” vs “substantielles”

Largement répandu, le Dublin Core est précis pour la description des méta-données “administratives” (ou bibliographiques), par exemple le titre, l’auteur, l’éditeur…. Il est cependant très limité lorsqu’il s’agit de décrire de façon cohérente et exploitable le contenu-même du document, autrement dit sa “substance” (de quoi le document parle-t-il ?) qui correspond essentiellement à l’élément “Sujet” du DC.

Sa limite principale est le fait que les auteurs de l’indexation ont la possibilité de définir leurs propres mots-clé, ce qui conduit le plus souvent à une indexation incohérente en fonction de la subjectivité des auteurs. En “bout de chaine”, l’utilisateur risque ainsi de ne pas trouver tous les documents pertinents à partir d’un mot-clé défini, simplement parce que tous les auteurs n’auront pas rentré ce mot-là précisément.

La description de cette “substance” est donc la partie délicate du travail d’indexation, à laquelle peuvent contribuer les différents types de “schémas de classification”. Tous ces schémas permettent de définir des méta-données sur les sujets des ressources.

 

Vue d’ensemble des schémas de classification

Pour les lecteurs les plus pressés, nous présentons ici les principaux schémas de classification. Pour les plus patients, nous vous invitons à lire le détail de chaque système dans la suite de l’article !

 
Système de classification Définition Particularité
Vocabulaire contrôlé Liste définie de termes Permet de contrôler les termes associés aux sujets
Taxonomie Liste de termes contrôlés organisés de façon hiérarchique Facilite la recherche de termes à partir de relations hiérarchiques
Thésaurus Réseau de termes contrôlés, enrichi par des relations associatives pré-définies Facilite la recherche de termes en fonction de différents types de relations (pas seulement hiérarchiques)
Classification à facettes Système reposant sur un vocabulaire contrôlé, permettant de décrire une ressource selon plusieurs angles (facettes) Permet la recherche selon des angles différents (facettes)
Ontologie Modèle de description des connaissances basé sur des concepts avec types, propriétés et relations Représentation des connaissances : permet d’identifier les relations sémantiques entre concepts et la nature de ces relations
Topic Map Modèle de description de concepts – “topics” reliés par des associations libres Permet d’associer plusieurs termes à un concept (synonymie) et plusieurs concepts à un terme (homonymie) et de définir un contexte d’application pour chaque “topic”
Folksonomie Ensemble de tags (mots-clé) librement attribués par des utilisateurs dans le contexte d’un “réseau social” Permet à chaque “lecteur” de “tagger” les contenus et de partager ses tags, sans contrainte de vocabulaire

Vocabulaires contrôlés

Les vocabulaires contrôlés sont de simples listes définies de termes (ou mots-clé) qui décrivent des sujets. La notion de terme est différente de celle de concept : un terme est une représentation de concept (sous forme de mot ou groupes de mots), un concept pouvant être représenté par plusieurs termes (c’est le cas des synonymes). En contrôlant un vocabulaire, on limite la disparité d’indexation entre différents auteurs / éditeurs de ressources, les orthographes multiples ou erronées, ainsi que les problèmes de synonymie.

Taxonomies (ou taxinomies)

Une taxonomie (ou taxinomie) est une sorte de vocabulaire contrôlé, introduisant une notion de hiérarchie, ce qui permet d’élargir ou de resserrer une recherche à partir d’un terme. Les taxonomies s’attachent essentiellement à organiser les méta-données portant sur les concepts. Elles permettent de faciliter la recherche d’un terme en fonction de ses relations hiérarchiques avec d’autres termes.

L’origine des taxonomies remonte au XVIIème siècle, avec Carl von Linné qui a développé un système de classification hiérarchique pour décrire les organismes vivants. Voir l’article de Wikipedia.

“Anciens” et “Modernes” : 2 exemples de taxonomies
la classification naturelle d'Antoine-Laurent de Jussieu Exemple taxonomie du site Dia-Logos
La classification naturelle d’Antoine-Laurent de Jussieu La taxonomie du site Dia-Logos

Les thésaurus (thesauri)

Contrairement aux taxonomies, les thésaurus (ou thesauri) ne sont pas (seulement) hiérarchiques, mais constituent cependant un élargissement des taxonomies en intégrant, au-delà des relations hiérarchiques, d’autres propriétés pour décrire les sujets (illutrées ici par l’exemple “soprano“)

BT – “Broader Term” : terme plus large – réfère à un terme se situant à un niveau supérieur de la hiérarchie, qui a une signification plus large. A l’opposé, il existe la relation “NT” – narrower term, qui désigne un terme plus spécifique (donc inférieur dans la hiérarchie) – exemple : chanteur

SN – “Scope Note” : texte de description du terme – exemple : soprano collorature

USE : définit un terme à utiliser de préférence à ce terme (dans le cas de synonymes)

TT – “Top Term” : identifie le terme “ancêtre” le plus haut dans la hiérarchie (soit le plus haut en utilisant la relation “BT”)

RT – “Related Term” : réfère à un terme relié par une autre relation que “BT/NT” ou synonyme (USE). – exemple : mezzo-soprano

La classification à facettes

La classification à facettes définit une façon de décrire une ressource selon plusieurs axes (les facettes), chaque facette contenant des termes qui peuvent être décrits dans un thésaurus, un terme appartenant à une seule facette.

Cette multi-classification est utilisée dans la “recherche à facettes” ou “navigation par facettes”. Par exemple, une navigation par facettes pour les informations d’un département Marketing peut se traduire par la possibilité de consulter les documents selon les marchés, selon les produits, selon les spécialités, etc.

L’origine de la classification à facettes remonte aux années 1930s, avec les travaux du bibliothécaire S.R. Ranganathan qui a défini un ensemble de 5 facettes – “Colon classification” –  pour décrire les documents : la personnalité, la matière, l’énergie, l’espace, le temps (voir l’article de Mike Steckel sur le site de Boxes and Arrows.

Les ontologies

Le terme “ontologie” nous vient de la philosophie : l’ontologie (du grec ontos – participe passé du verbe être) est l’étude de l’être en tant qu’être, c’est-à-dire l’étude des propriétés générales de ce qui existe. Voir l’article de Wikipedia.

Dans le contexte plus récent de l’intelligence artificielle, une ontologie peut être définie comme un modèle de description du monde qui se compose de types, propriétés, et relations, dans l’optique de représenter le monde réel du domaine auquel s’applique l’ontologie.

Les ontologies représentent un degré de sophistication supérieur aux techniques précédemment présentées, dans la mesure où contrairement aux taxonomies et thésaurus qui offrent un nombre limité de relations. En effet, dans une ontologie, l’auteur peut définir des relations, autrement dit il peut intervenir sur la syntaxe du langage d’indexation. Une ontologie correspond à un langage formel c’est-à-dire une grammaire qui définit la façon dont les termes peuvent être utilisés entre eux.

Ainsi, dans l’exemple ci-dessous, l’auteur a décrit des relations telles que “employé par”, “nomme”, “situé à…”, etc. qui permettront lors de la recherche d’identifier la nature précise du lien entre les concepts.

exemple d'ontologieD’après le site “Ontologies and Knowledge Base

Les Topic Maps

Les topic maps sont des ensembles de “topics” ou concepts qui sont reliés par des associations. Un Topic est constitué d’un sujet, de ses noms, de ses rôles dans les associations et de ses ressources (les occurrences). Une des forces de cette approche est le fait que plusieurs topics peuvent avoir le même nom (homonymes), ce qui n’est pas possible avec les thésaurus et les taxonomies. Ainsi, le nom “Paris” peut être utilisé à la fois pour désigner la ville et le héros de la mythologie grecque. Ce sont les types, occurrences et associations qui vont permettre de les distinguer. De plus, un nom peut correspondre à une étendue (‘scope’) qui définit le contexte dans lequel ce nom est approprié. Une application particulièrement de ce principe est le multi-linguisme. Par exemple, le nom “topic map” a pour scope “anglais” alors que le nom “carte topique” a pour scope “français”.

Voir l’article très complet à ce sujet “TAO of Topic Maps“.

Les folksonomies

Contrairement aux ontologies qui permettent de faciliter le partage et la manipulation de connaissances, les folksonomies proviennent directement du partage d’information. Schématiquement, les folksonomies sont des agglomérats de tags (mots-clé) librement attribués à tout objet ou information d’une page web par un plus ou moins grand nombre d’utilisateurs  au sein d’une communauté (“social tagging”). Parmi les exemples les plus connus de folksonomies, on peut citer le site de partage de signets Del.icio.us et le site de partage de photos Flickr, “tagués” par des millions d’utilisateurs à travers le monde.

Le terme de folksonomies a été créé par Thomas Vander Wal.

Voir l’article de Emmanuele Quintarelli : Folksonomies: power to the people.

Toutes ces approches montrent le foisonnement des efforts de formalisation dans l’univers du Web sémantique. Il n’est cependant pas toujours facile de s’y retrouver dans les différents schémas de classification, qui présentent différents avantages et inconvénients et parfois se superposent. Quoi qu’il en soit, un sujet à suivre de près, et que nous continuons à enrichir au fil du temps sur ce site…

Haut de page