Connectez-vous avec nous

Internet

Création d'une archive numérique pour la décomposition des documents papier

La conversion de documents papier vieillissants en archives numériques peut être un effort laborieux. Crédit: Archives numériques des sociétés esclaves, CC BY-ND

Les documents papier sont toujours des archives inestimables du passé, même dans un monde numérique. Les sources primaires stockées dans les archives locales à travers l'Amérique latine, par exemple, décrivent une société multiethnique vieille de plusieurs siècles aux prises avec des questions de race, de classe et de religion.

Cependant, les archives papier sont vulnérables aux inondations, à l'humidité, aux insectes et aux rongeurs, entre autres menaces. L'instabilité politique peut couper l'argent utilisé pour maintenir les archives et la négligence institutionnelle peut transformer de précieux documents en ordures moisies.

Travaillant en étroite collaboration avec des collègues du monde entier, je crée des archives numériques et des outils spécialisés qui nous aident à tirer des enseignements de ces enregistrements, qui retracent la vie de personnes d'ascendance africaine libres et réduites en esclavage dans les Amériques du XVIIe au XIXe siècle. Notre effort, les archives numériques des sociétés esclaves, est l'un des nombreux projets en sciences humaines qui ont accumulé d'importantes collections d'images numériques de documents papier.

L'objectif est de garantir que ces informations, y compris certaines provenant de documents qui n'existent plus physiquement, soient accessibles aux générations futures.

Mais préserver l'histoire en prenant des photographies haute résolution de documents vieux de plusieurs siècles n'est qu'un début. Les progrès technologiques aident les universitaires et les archivistes comme moi à mieux conserver ces documents et à en tirer des enseignements, mais ne facilitent pas toujours les choses.

Création d'une archive numérique pour la décomposition des documents papier

Une archive à Cuba contient des trésors en papier difficiles à utiliser et à étudier – même en personne. Crédit: Archives numériques des sociétés esclaves, CC BY-ND

Collecte de documents

Depuis 2003, les archives numériques des sociétés esclaves ont collecté plus de 700 000 images numérisées de documents historiques documentant la vie de millions d'Africains et de personnes d'ascendance africaine en Amérique du Nord et du Sud.

Des membres de l'équipe centrale, provenant d'universités des États-Unis, du Canada et du Brésil, se rendent sur les sites de projets à travers l'Amérique latine, où ils forment des étudiants et des archivistes locaux pour numériser les documents ecclésiastiques et gouvernementaux de leurs communautés. Nous donnons à ces communautés les caméras, les ordinateurs et autres matériels dont ils ont besoin pour conserver numériquement les documents entassés dans les coins des sous-sols des églises du XVIIIe siècle, ou sur le point d'être jetés par les archives municipales de l'espace.

Nous leur enseignons également une compétence cruciale pour l'archivage et la récupération: comment créer des métadonnées, les informations descriptives pour aider les gens à trouver ce qui les intéresse, comme si un document est un certificat de mariage ou un acte de baptême, et de quelle année et de quelle ville il provient. De bonnes métadonnées permettent aux visiteurs du site Web du projet, par exemple, de rechercher tous les actes de baptême de la Colombie du XVIIe siècle.

De la numérisation à la conservation

Au fil du temps, nous nous sommes beaucoup améliorés dans la numérisation des documents. Dans les images plus anciennes, il n'est pas rare de voir le doigt du photographe s'égarer du côté du cadre. Certaines de ces images plus anciennes sont stockées sous forme de fichiers JPEG à résolution relativement faible, un format qui comprime la taille du fichier image en supprimant certaines données lors de leur enregistrement. La plupart de ces fichiers sont encore parfaitement lisibles même lorsqu'un internaute effectue un zoom avant, mais certains ne le sont pas et devront être à nouveau numérisés à l'avenir.

Création d'une archive numérique pour la décomposition des documents papier

Beaucoup de gens s'impliquent, enseignant et apprenant à photographier correctement les documents. Crédit: Archives numériques des sociétés esclaves, CC BY-ND

Notre préservation plus récente adhère aux normes rigoureuses de la British Library, qui finance une grande partie de notre travail. Ces images sont prises dans des résolutions très élevées et stockées dans plusieurs formats de fichiers, y compris TIFF, qui reste la norme d'archivage.

Transformer une collection d'images numérisées en véritables archives numériques est un effort long et axé sur les détails. Au début de ce processus, nous avons rencontré un curieux problème concernant les photographies prises lors de nos premiers efforts de numérisation. Les logiciels modernes ont souvent mal interprété l'orientation de ces images, nous donnant des pages pivotées de 90 degrés vers la droite ou la gauche ou même complètement à l'envers. Dans les cas où un volume entier était tourné de la même manière incorrecte, il pouvait être corrigé automatiquement, mais d'autres avec une gamme d'erreurs devaient être corrigés à la main pour permettre aux chercheurs de travailler plus facilement avec le matériau.

Nous avons également constaté que les noms de fichiers de données peuvent provoquer des problèmes. De nombreux appareils photo attribuent des noms par défaut aux images, comme DSCN9126.jpg, qui ne sont pas utiles pour déterminer ce que sont les images. Nous devons renommer chaque image d'une manière standard qui indique comment elle s'intègre dans notre collection.

Pour le moment, nous avons simplement choisi de numéroter les images séquentiellement dans chaque volume; une autre option raisonnable serait de préfixer chacun de ces numéros avec un identifiant faisant référence au volume d'où provient l'image.

Ce ne sont pas des obstacles majeurs, mais eux et d'autres dans le même sens prennent un certain temps à comprendre et à résoudre correctement. Mais cet effort est payant lorsque les personnes qui souhaitent explorer la collection ont plus de facilité à trouver et à utiliser nos images.

Création d'une archive numérique pour la décomposition des documents papier

Avec soin, la conservation numérique peut redonner vie à des documents en ruine. Crédit: Archives numériques des sociétés esclaves, CC BY-ND

Où les stocker?

Une fois que nous avons capturé les images, nous devons les enregistrer quelque part.

À l'heure actuelle, la collection d'archives numériques des sociétés esclaves compte près de 20 téraoctets, soit à peu près l'espace nécessaire pour stocker tout le texte dans la Bibliothèque du Congrès.

Peu d’institutions disposent des ressources, du personnel ou de l’expertise nécessaires pour stocker des données en sciences humaines à une telle échelle. Le stockage de données n'est pas exorbitant, mais il n'est pas non plus bon marché, surtout lorsque les données doivent être consultées régulièrement, au lieu d'être stockées dans une sauvegarde statique ou une copie d'archivage.

Pendant de nombreuses années, la bibliothèque de l'Université Vanderbilt a hébergé les données, mais nous avons dépassé ce que cette organisation pouvait se permettre. Nous avions sauvegardé bon nombre de nos enregistrements les plus importants sur le Digital Preservation Network, un consortium d'universités qui a mis en commun des ressources pour financer un système de stockage numérique fiable pour la production savante. Mais cette organisation a fermé ses portes fin 2018 après avoir consulté chaque organisation membre pour s'assurer qu'aucune donnée ne serait perdue.

Notre chemin a conduit au cloud, aux ordinateurs dans les immenses bâtiments d'entrepôt de serveurs des entreprises technologiques auxquels nous accédons à distance pour stocker et récupérer des informations. À l'heure actuelle, plusieurs copies de l'ensemble de nos données sont stockées sur des serveurs situés sur les côtés opposés de l'Amérique du Nord. En conséquence, nous sommes beaucoup moins susceptibles de perdre nos données qu'à aucun autre moment de l'histoire du projet.

Ouverture d'accès

Le stockage de ces enregistrements dans des systèmes sécurisés est une autre partie de l'équation, mais nous devons également nous assurer qu'ils sont accessibles aux personnes qui souhaitent les voir.

Nos documents, généralement rédigés en espagnol ou portugais archaïque, sont très difficiles à lire. Même les locuteurs natifs ont besoin d'une formation spéciale pour déchiffrer ce qu'ils disent.

Depuis plusieurs années, nous produisons des transcriptions manuelles de certains de nos documents les plus remarquables, comme un volume de baptêmes de la fin du XVIe siècle à La Havane. Mais cela prend 10 à 15 minutes par page, ce qui signifie que la transcription de l'ensemble de notre collection prendrait plus de 100 000 heures.

D'autres projets ont fait appel à des bénévoles pour effectuer un travail similaire, mais cette approche est moins susceptible d'être la solution pour nos archives en raison des compétences linguistiques requises pour lire nos documents.

Nous explorons l'automatisation du processus de transcription à l'aide de la technologie de reconnaissance de l'écriture manuscrite. Ces systèmes nécessitent plus de travail, en particulier lorsqu'ils traitent de styles d'écriture séculaires, mais certains chercheurs progressent déjà.

Nous cherchons également des moyens d'identifier les personnes et les lieux mentionnés dans nos enregistrements, de les rendre consultables et de les connecter à d'autres ensembles de données similaires.

Au fur et à mesure que nous et d'autres chercheurs connectons nos travaux, les histoires contenues dans ces anciens documents prendront vie et apporteront de nouvelles perspectives aux chercheurs modernes.


La recherche archivistique des historiens semble très différente à l'ère numérique


Fourni par
                                                                                                    La conversation


Cet article est republié de The Conversation sous une licence Creative Commons. Lisez l'article original.La conversation "width =" 1 "height =" 1 "style =" border: none! Important; box-shadow: aucun! important; marge: 0! important; hauteur max: 1px! important; largeur max: 1px! important; hauteur min: 1px! important; largeur min: 1px! important; opacité: 0! important; contour: aucun! important; rembourrage: 0! important; text-shadow: aucun! important

Citation:
                                                 Construire une archive numérique pour les documents papier en décomposition (2020, 6 janvier)
                                                 récupéré le 6 janvier 2020
                                                 depuis https://techxplore.com/news/2020-01-digital-archive-paper-documents.html

Ce document est soumis au droit d'auteur. Hormis toute utilisation équitable aux fins d'études ou de recherches privées, aucune
                                            une partie peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.

Les offres de produits Hi-tech en rapport avec cet article

Continuer la lecture
Cliquez pour commenter

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

ARTICLES POPULAIRES