Fiche technique : surbalisage

Le surbalisage correspond à une structuration du texte qui n’est pas utile pour l’usage que l’on souhaite en faire, soit que l’information pertinente soit implicitement déjà présente par héritage au niveau concerné (risque de redondance de l’information), soit que cette information ne soit pas à indexer ou à isoler (risque de recherche moins pertinente : bruit).

Redondance de l'information

Lorsque l’on rédige une description en EAD, on crée une arborescence avec des niveaux de composants <c> qui s’emboitent les uns dans les autres. Suivant le principe de la norme ISAD (G), les informations descriptives doivent être données au niveau pertinent, c'est-à-dire au plus haut niveau possible de la hiérarchie, de telle sorte que 1) elles concernent ledit composant et tous les niveaux qui en dépendent et 2) elles ne soient pas répétées aux niveaux inférieurs : les niveaux inférieurs héritent alors des informations des niveaux supérieurs.

Dans l'exemple qui suit, le terme "Inde" a été indexé en tant que nom géographique au niveau de la description du dossier. Chacun des sous-composants hérite de cette information : il n'y a donc pas lieu d'indexer "Inde" au niveau de la description des pièces.

<c id="c20212" level="file">
     <did>
         <unittitle>Documents relatifs à l'<geogname role="sujet" normal="Inde" source="BnF_catalogue_général" authfilenumber="http://catalogue.bnf.fr/ark:/12148/cb15323040r/ ">Inde</geogname></unittitle>
         ...
     </did>
     ...
     <c id="c20213" level="item">
        <did>
           <unittitle>Mémoire sur l'Inde présenté au roi Louis XV</unittitle>
           ...
        </did>
        ...
     </c>
     <c id="20214" level="item">
        <did>
           <unittitle>Relation d'un voyage en Inde en 1772</unittitle>
           ...
        </did>
        ...
    </c>
</c>

 

Ce principe d’héritage fonctionne pour une information qui se répète intégralement et à l'identique. En revanche, si l'on rencontre, au sein d'un sous-composant, une information partiellement différente de celle qui a été donnée à un niveau supérieur, il faut la baliser. Dans ce cas, il ne s'agit pas de surbalisage car l'information encodée vient utilement compléter l'instrument de recherche.

Exemple :
<c id="c44564" level="file">
   <did>
      <unittitle>Ensemble de lettres</unittitle>
      <unitdate normal="1789-07" era="ce" calendar="gregorian">Juillet 1789</unitdate>
      ...
   </did>
   ...
   <c id="c156789-1" level="item">
      <did>
         <unitititle>Lettre à Lafayette</unittitle>
         <unitdate normal="1789-07-14" era="ce" calendar="gregorian">14 juillet 1789</unitdate>
         ...
      </did>
     </c>
   <c id="c156789-2" level="item">
      <did>
         <unitititle>Lettres à Mirabeau</unittitle>
         ...
      </did>
     </c>
</c>

Dans l'exemple ci-dessous, Victor Hugo est indexé en tant que sujet au niveau supérieur. Les niveaux inférieurs héritant automatiquement de cette information, il n'y a donc pas lieu d'indexer Victor Hugo dans le premier sous-composant. En revanche, celui-ci apparaît en tant qu'auteur d'une lettre dans le second sous-composant : il faut ici procéder à une nouvelle indexation pour préciser le rôle différent que tient Victor Hugo par rapport au document décrit.

<c id="c40005" level="file">
   <did>
      <unittitle>Notes sur la vie et l'oeuvre de <persname role="sujet" normal="Hugo, Victor (1802-1885)" source="BnF_catalogue_général" authfilenumber="http://catalogue.bnf.fr/ark:/12148/cb11907966z/ ">Victor Hugo</persname></unittitle>
      ...
   </did>
   ...
   <c id="c40005-1" level="recordgrp">
      <did>
         <unitititle>Notes sur l'enfance de Victor Hugo</unittitle>
         ...
      </did>
      ...
   </c>
   <c id="c40005-2" level="recordgrp">
      <did>
         <unittitle>Notes sur <emph render="italic"><title normal="Les misérables" source="BnF_catalogue_général" authfilenumber="http://catalogue.bnf.fr/ark:/12148/cb13516296h ">Les Misérables</title></emph> accompagnées d'un fragment de lettre de <persname role="070" normal="Hugo, Victor (1802-1885)" source="BnF_catalogue_général" authfilenumber="http://catalogue.bnf.fr/ark:/12148/cb11907966z/ ">Victor Hugo</persname></unittitle>
         ...
      </did>
      ...
   </c>
   ...
</c>

 

Pertinence de la recherche

La structuration de l’inventaire permet aux moteurs de recherche de proposer un meilleur accès aux informations qu’il contient. Ainsi, l’inventaire peut faire l'objet de traitements sémantiques pour alimenter un certain nombre d’index qui facilitent la recherche. Dans cette perspective, l’usage abusif de certains élements risque d’entraîner une altération de l’indexation, et donc une recherche de moins bonne qualité. La mention du nom des auteurs de références bibliographiques dans une balise <persame role="070">, pour n’être pas fausse, peut ainsi entraîner, dans l’index "auteurs" de l’outil de recherche, une assimilation entre les auteurs des documents (ce qui est essentiel) et les auteurs des articles cités en bibliographie (ce qui n’est pas forcément souhaitable).

Cette notion de pertinence dépend néanmoins de l’usage qui est fait de l’inventaire. Elle doit être examinée au regard des buts que se propose l'inventaire et des outils de recherches qui ont à l'exploiter. Ainsi, un usage développé des éléments liés aux techniques d’illustration, inutile dans certains contextes (ne donnant pas lieu à une exploitation par l’outil de recherche), peut dans d’autres contextes se révéler très profitable.

L'utilisation d'un balisage tel que :

<physfacet type="technique"><genreform type="technique" normal="Dessin">Dessin à la plume et à l'aquarelle, avec des rehauts de blanc</genreform></physfacet>

n'a de sens que si l'outil d'exploitation crée un index à partir de la valeur de l'attribut normal des balises <genreform>.

 

Balisage lié aux besoins d'affichage. 

Voir aussi la Fiche trechnique Publication et affichage.

Il est rare que l'on utilise des éléments EAD uniquement pour des raisons d'affichage. Si l'on emploie tel ou tel élément, c'est qu'il semble également utile pour structurer l'information. Ainsi lorsque l'on choisit d'employer l'élément <physfacet type="sceau">, c'est tout autant pour caractériser cette information au sein de la description que pour la faire apparaître sous un intitulé propre ou une mise en forme particulière.

Exemple :

<physdesc>
   <physfacet type="support">Parchemin</physfacet>
   <dimensions>225 x 220 mm</dimensions>
   <physfacet type="sceau">Fragment du grand sceau pendant ovale de cire brune de l'évêque</physfacet>
</physdesc>

Donne l'affichage suivant dans le CCFr :

Support : Parchemin
Dimensions : 225 x 220 mm
Sceau : Fragment du grand sceau pendant ovale de cire brune de l'évêque

Donne l'affichage suivant dans BnF Archives et Manuscrits (et donnerait dans Calames) :

Description physique : Parchemin. 225 x 220 mm. Fragment du grand sceau pendant ovale de cire brune de l'évêque

 

Il découle de ce qui vient d'être dit plus haut qu'une information qui n'est utile ni pour la recherche ni pour l'affichage ne doit pas donner lieu à un balisage spécifique et ce malgré la richesse des possibilités qu'offre la DTD EAD.