Ordinateurs et informatique

L’histoire de la lutte pour archiver Internet

Le même jour en 1996, Brewster Kahle a fondé deux organisations distinctes mais étroitement liées. Le premier l’a rendu très riche, et le second ne lui a pas valu un seul centime.

Alexa Internet (souvent confondu avec Alexa, le assistant vocal) était un service qui explorait le la toile pour les métadonnées et autres informations, qui ont ensuite été fournies via le navigateur aider les gens à donner un sens au contenu d’un site Internet.

Quelques années plus tard, la société a été rachetée par Amazon dans le cadre d’un accord d’une valeur de 250 millions de dollars et convertie en une service de référencement. Cependant, malgré le changement de propriétaire, Alexa Internet a continué à fournir les données collectées à la deuxième organisation fondée par Kahle : une organisation à but non lucratif appelée Internet Archive.

C’était la vision de Kahle que l’Internet Archive deviendrait une version moderne de la Bibliothèque d’Alexandrie et fournirait « un accès universel à toutes les connaissances », a-t-il déclaré. TechRadar Pro.

Cette bibliothèque numérique, qu’il préside toujours, abrite aujourd’hui plusieurs milliards de pages web archivées (accessibles gratuitement via un service appelé le Machine de retour) et des millions de livres numérisés.

Plus tôt cette année, les archives ont célébré un 25e anniversaire historique, mais Kahle n’est toujours pas satisfait de sa portée. Le projet est également confronté à des menaces sans précédent.

Brewster Kahle, fondateur de l’Internet Archive (Crédit image : Brewster Kahle)

Sommaire

Un avant-goût

La préoccupation de Kahle à la fois pour Internet et l’échange d’informations remonte au Massachusetts Institute of Technology (MIT), où il a étudié pour obtenir un diplôme en informatique dans les années 1980.

Au MIT, Kahle et sa cohorte avaient accès à l’Advanced Research Projects Agency Network (plus communément appelé ARPANET), un précurseur de l’Internet tel qu’il existe aujourd’hui et la source du tout premier e-mail.

ARPANET a permis aux ordinateurs de communiquer entre eux via des lignes téléphoniques à l’aide d’une technique appelée commutation de paquets, selon laquelle les données sont décomposées en petits morceaux, envoyées sur un réseau et réassemblées à leur destination. ARPANET est rapidement devenu un foyer d’innovation dans les domaines de l’informatique et la mise en réseau.

« Nous utilisions l’intranet ARPANET pour à peu près tout », a déclaré Kahle. « Et déjà, nous étions témoins de certains des problèmes qui finiraient par se produire au cours des 40 prochaines années. »

Il a décrit une expérience dans laquelle une liste de diffusion a été créée qui comprenait tous les utilisateurs d’ARPANET. L’idée était de voir ce qui se passerait si différentes communautés virtuelles (représentées à l’époque par une série de listes de diffusion plus petites et Usenet groupes) ont été jetés dans un espace.

« C’était le chaos, l’anarchie et la désinformation – c’était terrible! » expliqua Kahle avec un sourire ironique. « Nous pourrions essentiellement voir le discours civil se dissoudre sous nos yeux. »

« Cependant, nous avons également vu le pouvoir de connecter les personnes à travers les institutions et à travers le monde, avec un minimum de friction et de retard. »

À partir de ce moment, dit Kahle, la construction d’un grand référentiel numérique de connaissances est devenue son objectif principal. Mais il lui manquait presque tous les outils qui rendraient cela possible.

Après avoir quitté le MIT, il a canalisé ses ambitions dans une société appelée Thinking Machines, qui visait à commercialiser la recherche sur les architectures informatiques parallèles. Ici, Kahle était ingénieur en chef sur un superordinateur appelé Connection Machine (le plus rapide au monde à l’époque), qu’il a ensuite utilisé pour concevoir une forme de moteur de recherche.

Tamiko Thiel

Brewster Kahle (deuxième en partant de la droite) et son équipe, à côté d’un prototype de Connected Machine-1. (Crédit image : Tamiko Thiel)

L’étape suivante consistait à créer un réseau système de publication qui pourraient être utilisés pour diffuser des informations numériques. Pour combler cette lacune, Kahle a développé WAIS (abréviation de Wide Area Information Server), un système ouvert qui a été adopté par des entreprises comme la New York Times et Britannica, qui voulait contrôler la distribution de leur contenu à l’ère numérique à venir. Tout cela a eu lieu avant même qu’Internet n’existe, il faut s’en souvenir.

« Je pense que nous étions considérés comme des visionnaires, mais le but a toujours été de construire la bibliothèque numérique d’Alexandrie », nous a dit Kahle. « Et ce n’était pas un nouveau concept ; il y avait déjà Comme on peut le penser, un article clé de Vannevar Bush de 1945, et Ted Nelson faisait déjà de l’hypertexte et Projet Xanadu. «

« Dans les années 1980, [the library] était quelque chose que je pensais déjà promis, mais pas encore livré. Alors je me suis mis à le construire.

La Bibliothèque d’Alexandrie 2.0

Depuis sa conception, Internet Archive a accumulé une impressionnante bibliothèque de contenu de 70 pétaoctets (70 000 téraoctets), comprenant 635 milliards de pages Web, mais aussi 34 millions de livres, 14 millions d’enregistrements audio et plus.

Ce trésor de contenu est stocké dans disques durs haute capacité au siège d’Internet Archive, mais est également sauvegardé partiellement aux Pays-Bas et (comme geste symbolique) à Alexandrie, en Égypte.

L’association a jusqu’à présent conservé les écrits de plus de 100 millions de personnes, et Kahle ambitionne de multiplier ce chiffre par dix. Mais avec plus de contenu maintenant publié en ligne que les Archives ne peuvent espérer en contenir, la question centrale devient : qu’est-ce qui est digne d’être préservé ?

« Internet Archive parcourt le World Wide Web de la même manière que les moteurs de recherche », a expliqué Kahle. « Pour déterminer ce qu’il faut explorer, nous travaillons avec des centaines de bibliothèques et de bibliothécaires, qui déterminent ce qui est important à gratter et à quelle fréquence. Ces personnes construisent des collections sur les sujets pour lesquels elles sont expertes.

Environ 3 000 crawls sont effectués simultanément chaque jour, chacun avec des mandats différents. Certains se spécialisent dans l’actualité, les médias sociaux ou une région particulière, par exemple, et d’autres sont guidés par les recommandations du public, qui soumet des pages Web qu’ils jugent dignes d’être archivées.

Archives Internet

le TechRadar page d’accueil le 11 janvier 2008 – le premier jour où le site a été capturé par Internet Archive. (Crédit image : Internet Archive)

Ces analyses capturent une page Web principale, mais également un certain nombre de ramifications entre lesquelles les utilisateurs peuvent naviguer via la Wayback Machine, créant quelque chose qui semble beaucoup plus vivant qu’une capture d’écran statique.

« C’est une entreprise énorme pour des milliers, voire des centaines de milliers de personnes, de décider ce qui doit être sauvé », a déclaré Kahle. « Nous sommes intéressés par tout signal qui peut nous montrer ce qui vaut la peine d’être préservé. »

En plus d’archiver des pages Web pour la postérité, l’organisation considère également son rôle comme un outil de sauvegarde des preuves numériques. Il a été utilisé par des journalistes, par exemple, pour accéder à du matériel qu’un individu ou une entreprise a par la suite retiré du Web public. C’est aussi un terrain fertile pour les étudiants et universitaires qui étudient l’évolution de la culture en ligne et de la communication numérique.

Cependant, maintenir la Wayback Machine à jour avec les données actuelles n’est qu’un moyen par lequel l’organisation cherche à atteindre son objectif ultime ; la numérisation des livres est une autre facette importante.

Le commerce des livres

Lorsqu’on lui a demandé si la mission ou le but de l’Internet Archive avait changé au cours de son histoire d’un quart de siècle, Kahle a répondu un « non » catégorique. Mais alors que la mission principale est restée la même, la façon dont les gens utilisent la ressource a certainement évolué.

Pendant la pandémie, par exemple, les élèves ont été exclus de leurs bibliothèques et de leurs salles de classe, et contraints de compter sur e-learning services et les efforts vaillants des parents. Kahle dit que l’Archive a vu l’utilisation de son service de prêt de livres numériques monter en flèche et a reçu un flot de messages de bibliothèques qui souhaitaient prêter leurs collections sous forme numérique.

Sous l’impulsion de l’action, Internet Archive a lancé le Bibliothèque nationale des urgences. Habituellement, l’organisation prête un livre numérique pour chaque copie physique qu’elle possède (une pratique connue sous le nom de prêt numérique contrôlé), ce qui signifie qu’une copie numérique ne peut être prêtée qu’à une seule personne à la fois. Mais dans le cadre de ce programme d’urgence, le système basé sur la liste d’attente a été abandonné pendant une période de quatorze semaines.

De nombreux étudiants, enseignants et autres lecteurs ont célébré l’initiative, mais la bibliothèque d’urgence a été accueillie avec dégoût par les organisations de droit d’auteur qui l’ont considérée comme une violation flagrante des droits des auteurs, qui se débattaient également en raison de la pandémie. Un collectif d’éditeurs (dont Penguin Random House, Harper Collins, Hachette et Wiley) est également intenter un procès à Internet Archive sur « violation volontaire et massive du droit d’auteur ».

» Internet Archive ne cherche pas à » libérer le savoir » ; il cherche à détruire l’écosystème soigneusement calibré qui rend les livres possibles en premier lieu – et à saper la loi sur le droit d’auteur qui se dresse sur son chemin « , affirment les éditeurs.

Comme vous pouvez l’imaginer, Kahle n’est pas d’accord. « Nous prêtons des livres depuis dix ans. Ces éditeurs prétendent que nous ne sommes pas autorisés à prêter – et c’est scandaleux », a-t-il déclaré avec une force inhabituelle.

« Ce que font les bibliothèques, c’est acheter, conserver et prêter du matériel. Mais ces poursuites représentent une menace massive pour la fonction centrale des bibliothèques dans le monde numérique ; les éditeurs disent que vous ne pouvez pas acheter, ne pouvez pas conserver et ne pouvez pas prêter. »

Au moment de la rédaction du présent rapport, le procès est en cours d’enquête, et d’autres déclarations seront livrées au printemps.

Une opportunité perdue

Au fil des ans, Internet Archive a été soutenu par une combinaison de fonds de la propre poche de Kahle, de frais facturés aux bibliothèques pour les services de numérisation et de contributions de membres du public.

Cependant, maintenir ses services opérationnels deviendra de plus en plus coûteux à mesure que la bibliothèque s’agrandit, à moins que les progrès techniques ne réduisent le coût du stockage des données, hébergement de serveur et les autres technologies sur lesquelles s’appuie l’association.

Bien que Kahle affirme que sa fortune personnelle est suffisante pour garantir la longévité de l’Internet Archive (ou du moins de son trésor de données), il a récemment publié un appel aux dons pour aider à combattre le procès en cours, mais aussi d’autres obstacles à la libre circulation de l’information.

« La communauté Internet n’a pas fait assez pour construire des organisations fiables et responsables pour soutenir le monde numérique. Et nous pouvions voir les dangers dès le début », a déclaré Kahle, faisant référence à la fois à la crise de la désinformation et à la mainmise des Big Tech.

« Si nous ne parvenons pas à un bon équilibre, nous pourrions nous retrouver avec un environnement d’information où tout ce que nous lisons est surveillé et contrôlé par un petit groupe d’entreprises et de gouvernements. Nous aurons perdu l’opportunité que nous a offerte Internet.

Pour mettre en évidence ces problèmes, Internet Archive a récemment lancé le Machine à suivre, une version satirique de la Wayback Machine qui promet de permettre aux utilisateurs de « visiter l’avenir d’Internet ».

Archives Internet

Une vision de l’avenir d’Internet, avec l’aimable autorisation de la Wayforward Machine. (Crédit image : Internet Archive)

Le fait de brancher une URL dans la Wayforward Machine génère une page recouverte d’un flux infini de fenêtres contextuelles, dont certaines exigent un paiement ou des informations personnelles, tandis que d’autres notent simplement que l’accès aux informations est refusé. Le message n’est guère subtil.

« Nous ne détenons pas les leviers du pouvoir, mais nous gérons une bibliothèque. Bien qu’une bibliothèque ne puisse pas résoudre tous ces problèmes, c’est une composante nécessaire d’un écosystème numérique. Nous avons besoin que les bibliothèques soient soutenues, utilisées et défendues. Si nous ne défendons pas nos institutions ouvertes, elles seront écrasées », a déclaré Kahle.

« Nous pouvons avoir des plateformes et des systèmes motivés par l’altruisme, et non par des modèles publicitaires. Nous pouvons avoir un monde avec de nombreux gagnants, où les gens participent, apprennent et trouvent de nouvelles communautés.

Lorsqu’on lui a demandé s’il était optimiste quant à la réalisation de cet idéal utopique, Kahle a hoché la tête : « Mais nous devons vraiment le vouloir. »