Gallica ou le trésor des mots

33 jours en Italie - Extrait Gallica

Moult richesses restent discrètes et sous-exploitées. Gallica en fait partie. Il s'agit de la bibliothèque numérique de la BNF. Gallica continue son travail de numérisation et annonce que désormais les archives de la presse française seront aussi concernées.

Gallica contient à ce jour plus de 70 000 ouvrages et 80 000 images, accessibles gratuitement sur internet.

Ci-contre un extrait de 33 jours en Italie publié en 1899 par Raoul de Lagenardière, trouvé aux détours de liens suggérés par Voyages en Italie, le thème du moment.

On peut consulter page par page, généralement au format PDF ou télécharger l'intégralité des ouvrages. Un script génère alors l'intégralité du fichier PDF et propose le téléchargement par ftp (sur ftp.bnf.fr). Une ouverture qui mérite d'être signalée :

Le document que vous avez demandé est prêt.
Il est structuré au format PDF.
Il contient 262 pages.
Sa taille est de 11508866 octets.

Techniquement il serait intéressant de savoir quels sont les formats exploités pour numériser les documents et si ceux-ci seront viables à long terme. Une raison de plus d'adopter les formats ouverts. Passer d'un archivage papier au numérique permet non seulement de proposer la consultation en ligne au plus grand nombre mais aussi d'assurer une certaine pérénnité des ouvrages. Or, on sait que l'archivage numérique n'est pas la solution ultime. Les formats changent, il faut souvent transférer les documents vers un nouveau média si la lecture est encore possible et qu'il ne faut pas développer d'application spécifique, les anciennes n'existant plus ou ne pouvant plus tourner sur les architectures du moment. La NASA en a déjà fait les frais avec la perte de nombreuses archives de ses missions martiennes dans les années 1970, et apparemment le transfert d'archives vers de nouveaux supports prendrait énormément de temps, bien plus qu'il n'en faudrait pour que le flux tendu soit garanti et l'intégralité des données conservées à long terme par roulements successifs.

Pour en savoir plus, les Archives de France publient le bulletin sur l'archivage à long terme des documents électroniques dont certains numéros semblent s'intéresser de près au XML, ce qui est une bonne initiative.

Un commentaire pour “Gallica ou le trésor des mots”

  1. wuastc dit :

    merci c’est tout simplement un vrai trésor :)
    un p’tit parse en php et on embarque tout ça dans son lecteur mp3 préféré :D

Laisser un commentaire


Warning: Undefined variable $user_ID in /home/clients/40e149befb0318e27381f29df8fe4ffe/sites/www.blup.fr/wp-content/themes/blup/comments.php on line 65