L'accès à l'information présente dans les documents disponibles sous forme numérisée n'est pas automatique pour la machine. En effet, un certain nombre d'informations sont computationellement opaques, c'est à dire qu'elles ne sont pas directement accessibles pour la machine même si elles sont évidentes pour les humains. Par exemple, un humain est capable de dater un document même si l'information n'est pas explicitement mentionnée.

Les documents électroniques visent à standardiser, à normaliser la manière dont on encode les documents de manière à faciliter l'accès à l'information. C'est par exemple le cas des flux RSS au format XML où les informations telles que la date ou l'auteur vont être explicitement encodée dans le document de manière à faciliter le traitement automatique ultérieur.

Dans ce cours seront présentés différents formats de structuration des données dont notamment XML et JSON ainsi que des modalités pratiques de modélisation et d'utilisation exploitant ces formats. Plus précisément, les séances sont organisées comme suit.

Les premières séances se focalisent sur les concepts informatiques des technologies XML :

• Modéliser et structurer les données avec le langage XML

• Définir la structure et le type de contenu d’un document XML avec DTD et Schéma XML

• Interroger un document XML avec le langage de requête XPath

• Analyser un document XML avec des interfaces de programmation (ex. ElementTree en Python)

Durant les séances suivantes, JSON, un autre langage comparable à XML et utilisé pour la structuration des données, est abordé. Afin de compléter les connaissances sur le sujet des documents électroniques, les dernières séances sont consacrées à LaTex, un langage utilisé, entre autres, pour la structuration des textes pour une meilleure lecture par les humains, contrairement à XML et JSON qui sont plutôt destinés à faciliter des traitements par les machines.


Bibliographie

- Harold, E. R., Means, W. S. « XML in a Nutshell (XML en concentré) », 3rd Edition. O'reilly, 2009

SALVADOR X.L. « XML pour les linguistes », 2016

XML Tutorial. <https://www.w3schools.com/xml/>

Basset, L. « Introduction to JavaScript Object Notation », O'reilly, 2015

Griffiths, D. F., Higham, D. J. « Learning LaTex », 2nd Edition, SIAM, 2016