Le protocole OAI-PMH : éléments de compréhension

Introduction

L’OAI-PMH signifie « Open Archive Initiative-Protocol for Metadata Harvesting ». Il s’agit d’un protocole international pour le moissonnage des métadonnées des archives ouvertes. Il permet de créer, d’alimenter et de tenir à jour des réservoirs d’enregistrements qui signalent, décrivent et rendent accessibles des documents sans les dupliquer ni modifier leur localisation d’origine. Il permet en outre de rapprocher et de faire communiquer entre elles des bases de données hétérogènes, c’est-à-dire qu’il s’agit avant tout d’un langage commun entre des machines. De ce fait, le protocole OAI-PMH est un enjeu essentiel sur les questions d’interopérabilité et de diffusion. Mais il n’implique pas nécessairement l’Open Access, l’accès libre et gratuit aux résultats de la recherche, bien qu’initialement il ait été conçu dans ce but.

Bref historique

l’OAI-PMH a été élaboré par l’Open Archive Initiative à l’issue de la Convention de Santa-Fé en 1999. Depuis juin 2002, ce protocole est passé en version 2 qui est considérée comme définitive. En raison de sa souplesse, son champ d’utilisation s’étend maintenant bien au-delà des seuls contenus scientifiques.

Les qualités de l’OAI-PMH

Ce protocole s’appuie sur des standards existants : HTTP, XML, Dublin Core. Il est simple à mettre en oeuvre : la condition a minima pour la création d’un entrepôt OAI-PMH est l’utilisation du Dublin Core simple qui utilise 15 éléments en tout et pour tout, caractérisés par 10 propriétés. Tous les éléments sont en outre facultatifs et répétables. Exemple de balises formées sur ces 15 éléments :

<DC:TITLE> titre donné à la ressource décrite </DC:TITLE>
<DC:CREATOR> responsable de la création du contenu de la ressource </DC:CREATOR>
<DC:SUBJECT> thèmes de la ressource, tels que mots-clés </DC:SUBJECT>
<DC:DESCRIPTION> description du contenu de la ressource </DC:DESCRIPTION>
<DC:PUBLISHER> responsable de la mise à disposition de la ressource </DC:PUBLISHER>
<DC:CONTRIBUTOR> entité qui a contribué à la création du contenu </DC:CONTRIBUTOR>
<DC:DATE> date d'un événement dans le cycle de vie de la ressource </DC:DATE>
<DC:TYPE> nature ou genre du contenu de la ressource </DC:TYPE>
<DC:COVERAGE> portée ou couverture spatio-temporelle </DC:COVERAGE>
<DC:FORMAT> type MIME ou format physique de la ressource </DC:FORMAT>
<DC:IDENTIFIER> identifiant unique, non ambigu, tel que URI, DOI, ISSN </DC:IDENTIFIER>
<DC:LANGUAGE> langue du contenu de la ressource </DC:LANGUAGE>
<DC:RELATION> liens avec d'autres ressources sous forme d'URL ou DOI </DC:RELATION>
<DC:RIGHTS> copyright, droits de propriété intellectuelle associés à la ressource </DC:RIGHTS>
<DC:SOURCE> autre ressource dont dérive la ressource décrite </DC:SOURCE>

Ce schéma de 15 éléments constitue la terminologie minimum servant à désigner les objets. Cette désignation sert à l’exposition et à l’agrégation du contenu de bases différentes.

Le Dublin Core peut prendre plusieurs degrés de complexité supplémentaires sous la forme du Dublin Core qualifié qui ajoute des qualificatifs ou DCterms (on parle de raffinements) qui précisent les éléments initiaux. Par exemple, l’élément DESCRIPTION peut être affiné par ABSTRACT :

<DC:DESCRIPTION.ABSTRACT> résumé </DC:DESCRIPTION.ABSTRACT>

Enfin, le Dublin Core étendu offre des compléments issus d’autres standards tels que LOM, des Encoding schemes ou schémas d’encodage des valeurs qui permettent d’homogénéiser les valeurs des éléments (thésaurus, codes ISO pour les langues, etc.) par des recommandations.

Pour définir des correspondances entre une base de données et les objets du langage du Dublin Core utilisé il faut faire du mapping, c’est-à-dire établir un tableau de conversion par type de document (monographie, document sonore, image...) en fonction des pratiques en usage dans les communautés concernées. Ce travail de mapping est absolument essentiel et peut représenter plus de 50 % du temps nécessaire à la mise en ligne de corpus documentaires.

Critique du Dublin Core

En tant que schéma de métadonnées, le Dublin Core est destiné à des ressources peu complexes et ne répond pas aux besoins de tous les métiers. Pour cette raison on considère généralement qu’il appauvrit les données. Cependant, une ressource peut être décrite en utilisant les propriétés du Dublin Core associé à d’autres propriétés venant d’autres vocabulaires ou ontologies (voir le billet :http://figoblog.org/2009/09/26/1971/ ). De ce fait, le Dublin Core reste bien un atout essentiel de l’intéropérabilité et pas seulement dans le cadre de l’OAI-PMH.

Par ailleurs, les initiateurs de l’OAI-PMH , proposent aujourd’hui une évolution du protocole qui tente d’en dépasser les limitations, tout en se rapprochant du Web sémantique : l’OAI-ORE (Open Archives Initiative Object Reuse and Exchange).

Références

La TGIR HUMA-NUM a mis en ligne un guide des bonnes pratiques pour la construction d’un entrepôt OAI-PMH, plus généralement sur le protocole OAI-PMH et l’utilisation du Dublin Core.

Ce guide peut être téléchargé au format PDF à l’adresse suivante : http://www.huma-num.fr/sites/default/files/guide_des_bonnes_pratiques.pdf