Alors que le volume de données produites par l’activité Internet, les appareils numériques et les capteurs IoT continue d’augmenter à un rythme agressif, les entreprises manquent de temps pour résoudre un problème critique : où tout mettre.
Selon un récent rapport d’IDC, la quantité de données créées au cours des cinq prochaines années sera plus du double de la quantité générée depuis l’utilisation du stockage numérique.
Bien que moins de 2 % des 64,2 ZB (68,9 milliards de To) créés l’année dernière aient été stockés à long terme (le reste a été soit écrasé, soit temporairement mis en cache), les besoins mondiaux de stockage de données dépassent toujours l’expansion de la capacité totale.
Pendant que disques durs (disques durs) et disques SSD (SSD) font un excellent travail pour conserver et fournir les quantités de données dont nos appareils de tous les jours ont besoin pour fonctionner, ni ne sont bien adaptés pour stocker des informations en masse et pour de longues durées.
Lorsqu’il s’agit de stockage d’archives, Linéaire Tape-Open (LTO) la bande magnétique règne en maître, avec le coût par capacité le plus bas de toutes les technologies. La génération actuelle de bandes, LTO-8, a une capacité native de 12 To et peut être achetée pour aussi peu que 75 $ (ou 6,25 $/To).
Cependant, bien que rentable, la bande a aussi ses faiblesses ; les données ne sont accessibles qu’en série, ce qui rend difficile la localisation de fichiers spécifiques, et les entreprises doivent également migrer vers une nouvelle bande sur une base semi-régulière pour éviter perte de données.
Pour tenter de résoudre la crise des données qui se profile, les chercheurs recherchent de nouvelles technologies de stockage ultra-denses et ultra-durables. Quelques candidats différents ont émergé, mais un concept semble particulièrement prometteur : l’acide désoxyribonucléique, mieux connu sous le nom d’ADN.
Sommaire
Qu’est-ce que le stockage d’ADN et comment fonctionne-t-il ?
L’ADN, le matériau de base des organismes vivants, comprend quatre éléments constitutifs moléculaires : l’adénine (A), la guanine (G), la cytosine (C) et la thymine (T). Ces composés se connectent par paires (AT & GC) pour former les barreaux de la célèbre échelle à double hélice.
Cette structure peut être utilisée comme une forme extrêmement dense et durable de stockage de données, en convertissant les 1 et les 0 binaires en l’alphabet génétique à quatre lettres. Un seul gramme d’ADN a été trouvé capable de stocker 215 Po (220 000 To) de données.
« Le stockage de données ADN est le processus d’encodage et de décodage de données binaires sur et à partir de brins d’ADN synthétisés », a expliqué un porte-parole de la DNA Data Storage Alliance (DDSA), fondée l’année dernière par Microsoft, Western Digital, Twist Bioscience et Ilumina.
« Pour stocker des données dans l’ADN, les données numériques d’origine sont codées, puis écrites (synthétisées à l’aide de processus chimiques/biologiques) et stockées. Lorsque les données stockées sont à nouveau nécessaires, les molécules d’ADN sont séquencées pour révéler chaque individu A, C, G ou T dans l’ordre et remappées à partir des bases d’ADN en 1 et en 0.
DNA surpasse les technologies actuelles de stockage d’archives dans presque toutes les catégories. UNE papier récent estime que 9 To d’ADN codé peuvent être compressés dans seulement 1 mm^3 d’espace, ce qui signifie que le volume d’une seule cassette LTO contiendrait 2 millions de To de données, soit environ 167 000 fois la capacité d’une bande LTO-8.
Dans un scénario réel, l’ADN pourrait être utilisé pour stocker l’ensemble de YouTube (qui est censé héberger à peu près 400 000 To de nouvelle vidéo chaque année) dans un petit réfrigérateur, par opposition à des hectares et des hectares de centres de données.
Contrairement à la bande magnétique, qui doit être remplacée tous les dix ou deux ans selon l’utilisation, l’ADN peut durer des milliers d’années dans les bonnes conditions. Cela signifie que le coût total de possession (TCO) a le potentiel d’être extrêmement faible.
L’ADN est également biodégradable et facilement reproductible, et consomme peu d’énergie au-delà de l’énergie nécessaire pour fabriquer le climat nécessaire, ce qui le rend extrêmement respectueux de l’environnement.
Cependant, il existe encore de nombreuses raisons pour lesquelles l’ADN n’a pas encore rendu le stockage sur bande obsolète. La technologie en est encore à ses balbutiements, avec des problèmes à aplanir à presque toutes les étapes du processus, de l’encodage à la synthèse en passant par le séquençage.
Selon Turguy Goker, directeur du développement avancé, LTO de la société de stockage Quantum, il est encore trop tôt pour « placer des paris sur ce cheval ».
« Le stockage d’ADN nage dans des eaux agitées en ce moment et il lui faudra quelques années avant de pouvoir naviguer en toute sécurité vers les rivages commerciaux », a-t-il expliqué.
Dense et durable, mais lent et coûteux
Aussi prometteurs que puissent être les premiers signes, il reste encore un certain nombre d’obstacles à franchir avant que l’ADN ne puisse commencer à mettre un terme au problème de capacité de stockage dans le monde. Les principaux problèmes concernent le coût et la vitesse.
Pour éviter la dégradation, l’ADN a besoin d’un climat très spécifique, qui peut être à la fois difficile et coûteux à maintenir. Plus précisément, l’ADN doit soit être conservé à des températures extrêmement basses, soit être exposé à un flux d’air soigneusement contrôlé.
En utilisant les techniques actuelles, le processus d’écriture des données sur l’ADN est également extrêmement chronophage par rapport aux technologies en place. Jusqu’à ce que cela puisse être amélioré, le stockage d’ADN restera inutilisable à grande échelle.
« L’écriture de l’ADN est un processus chimique et est intrinsèquement beaucoup, beaucoup plus lent que l’électronique numérique que nous sommes actuellement habitués à utiliser », a expliqué Goker. « Sans surmonter cette barrière, écrire sur un stockage basé sur l’ADN est analogue à vider une piscine à l’aide d’une paille. »
La lecture des données stockées dans l’ADN pose également des défis, avec une forte probabilité que des erreurs soient introduites pendant le processus de séquençage. Pour cette raison, la DDSA s’attend à ce que les premiers utilisateurs de la technologie l’utilisent pour écrire une fois, lire jamais (WORN) ou écrire une fois, lire rarement si jamais (PIRE) cas d’utilisation (par exemple, stocker certains types de données pour répondre aux exigences réglementaires).
Outre les problèmes technologiques, le manque de normes communes doit être résolu, afin de garantir que les technologies de stockage de l’ADN seront interopérables à la fois entre elles et avec les technologies existantes.
Cependant, le stockage de l’ADN attirant à la fois l’attention et les investissements des gouvernements, des opérateurs historiques du stockage et des géants de la technologie, des travaux sont en cours pour trouver des solutions à ces problèmes.
Par exemple, le bureau américain du directeur du renseignement national a lancé le Molecular Information Storage (BRUME) l’année dernière, avec l’objectif déclaré de développer des technologies ADN capables d’écrire 1 To et de lire 10 To en 24 heures, pour un coût inférieur à 1 000 $.
Par ailleurs, Twist Bioscience a développé une méthode de augmentant le rendement de synthèse d’ADN par un facteur de 1000 en utilisant une plate-forme en silicium qui miniaturise la chimie requise.
Selon la DDSA, les inquiétudes concernant l’exactitude des données seront apaisées par des scripts capables de corriger les problèmes de séquençage, et l’organisation pense également qu’il reste du temps pour établir des spécifications qui empêcheront la fragmentation dans l’industrie.
« Contrairement à la synthèse pour les soins de santé, qui doit être parfaite, le stockage d’ADN peut tolérer des erreurs dues aux algorithmes de correction généralement utilisés dans le stockage aujourd’hui. Les pionniers du stockage d’ADN travaillent déjà sur des améliorations de l’algorithme de codage et de correction d’erreurs qui atténueront ce risque et récupéreront les données avec précision », a expliqué un porte-parole.
« Alors que les méthodes et les outils de stockage de données ADN commercialement viables deviendront mieux compris et plus largement disponibles, l’Alliance envisagera la création de spécifications et de normes spécifiques (par exemple, codage, interfaces physiques, conservation, systèmes de fichiers) pour promouvoir l’émergence d’ADN interopérables. des solutions basées sur le stockage de données qui complètent les hiérarchies de stockage existantes.
Est-ce la fin pour la bande?
Bien que l’arrivée du stockage d’ADN posera des questions sur l’utilité durable de la bande magnétique, certains pensent que l’écriture n’est pas encore sur le mur.
Par exemple, lorsqu’on lui a demandé si elle pensait que l’ADN mettrait en danger ses produits de stockage sur bande, IBM a fait un geste vers l’amélioration de la densité de la bande, ce qui est également éprouvé dans un contexte commercial.
« Alors que les volumes de données continuent d’augmenter dans le monde entier, la technologie des bandes reste la solution de choix pour la conservation, la protection et la résilience des données d’entreprise pour les environnements cloud hybrides et sur site », a déclaré Andy Walls, CTO et architecte en chef de la division de stockage flash d’IBM.
« Il s’agit également de la technologie de stockage la plus respectueuse de l’environnement disponible, qui ne consomme aucune énergie et dure des décennies. Et parce que nous continuons à faire progresser la densité de la bande, aujourd’hui, une seule cartouche d’IBM (c’est-à-dire plus petite qu’une cassette VHS) peut contenir un incroyable 60 To de données compressées. Ce sont quelques-unes des qualités qui font de la bande la solution de prédilection pour les plus grands hyperscalers qui en dépendent pour un stockage d’archives fiable et peu coûteux. »
À la fin de l’année dernière, IBM a également annoncé avoir battu le record du monde de densité surfacique sur un prototype de ruban en ferrite de strontium (SrFe), développé par Fujifilm. La paire a atteint un record de 317 Go/in^2, ce qui se traduit par 580 To par cartouche, montrant que la bande a du chemin à parcourir avant d’atteindre sa densité maximale.
Bien que les attributs du stockage d’ADN soient plus comparables à ceux des bandes, Quantum pense que l’ADN est plus susceptible de s’insérer dans les configurations existantes que de remplacer entièrement la technologie en place.
« La bande ne montre aucun signe de disparition de sitôt, en particulier à des fins d’archivage à long terme sur site », nous a dit Goker. « C’est la forme de stockage la plus économique par mégaoctet, elle peut stocker de grandes quantités de données par cartouche et elle nécessite des coûts d’exploitation très faibles. C’est également l’un des supports de stockage les plus sûrs, car les données sont stockées hors ligne et peuvent également servir d’archive active, une fonction clé et importante pour les hyperscalers.
« Au lieu de considérer les deux options de stockage comme concurrentes, nous devrions examiner leur complémentarité lorsque nous travaillons en tandem. L’ADN complétera les bandes à l’avenir en coexistant en tant que système à plusieurs niveaux au sein des centres de données hyperscale. Il est peu probable que l’ADN remplace la bande magnétique au cours des prochaines années, mais occupera un niveau inférieur, car l’écriture une fois lu est rarement utilisée. Un mélange parfait pour les scénarios d’archivage de Big Data.
Cependant, s’il est peu probable que la bande soit usurpée à court terme, car elle est au cœur des systèmes de stockage d’entreprise, il est peu probable que la technologie vieille de plusieurs décennies soit capable de résister au tsunami de données à l’horizon, quel que soit le de R&D.
Bien que la capacité des bandes ait eu tendance à presque doubler à chaque génération de LTO, dépassant largement la croissance de la capacité des SSD et des disques durs, même ce taux d’expansion exponentiel ne peut pas dépasser le volume de données produites.
La prochaine frontière pour le stockage de données
Si l’on en croit les analystes, la crise du stockage des données atteindra son paroxysme au cours des cinq prochaines années. Si les technologies de stockage ne rattrapent pas leur retard, les conséquences pourraient être multiples.
Par exemple, l’incapacité de stocker une quantité suffisante de données signifie que les entreprises sont moins bien équipées pour se remettre d’une perturbation, qu’elle soit déclenchée par une cyberattaque ou des conditions socio-économiques changeantes. La pleine valeur de analytique restera inexploité (et inconnu), car les entreprises devront travailler avec des ensembles de données incomplets.
Du point de vue du consommateur, il est possible que les plateformes de médias sociaux, e-mail les entreprises et autres pourraient commencer à supprimer les données et les publications plus anciennes, pour faire de la place à la rivière toujours fluide de nouveaux contenus. Google, par exemple, récemment annoncé il commencera à supprimer les données attachées à ses services Gmail, Drive et Photos des comptes inactifs depuis deux ans ou plus.
Le stockage de l’ADN n’est pas le seul espoir ; des chercheurs de Microsoft étudient la possibilité d’utiliser des lasers pour graver les données dans du verre de quartz, ou stocker des données sous forme d’hologramme à l’intérieur des cristaux.
Cependant, avec son ensemble unique de propriétés et de caractéristiques, l’ADN est peut-être le sauveur le plus probable.
Selon Luis Ceze, expert en stockage d’ADN à l’Université de Washington, il faudra entre huit et dix ans pour que l’ADN soit adopté dans des contextes commerciaux à grande échelle. D’autres spécialistes que nous avons consultés ont souscrit à cette évaluation.
Cependant, Ceze nous a également dit que les tendances de la recherche sont « favorables » et que « les marchés de boutiques pour les besoins en données plus petits sont déjà viables aujourd’hui ». Il y a donc de l’espoir que la course contre la montre puisse encore être gagnée et que la calamité des données soit évitée.