Nous avons entendu parler pour la première fois de Catalog, un pionnier du stockage de données basé sur l’ADN en octobre 2020 et avons interviewé David Turek, son PDG et ancien élève d’IBM. Près d’un an plus tard, ils ont annoncé un tour de table de série B d’un million de dollars, dirigé par Hamwha Impact Partners et prévoit de lancer sa première plate-forme informatique à base de produits chimiques qui combine à la fois la gestion (et le stockage) des données et le calcul via la manipulation d’ADN synthétique.
Le moment était donc venu de rattraper Catalog et de mettre son PDG, Hyunjun Park, à la place de l’interviewé.
1. Alors, quelle est la dernière sur Shannon? Que s’est-il passé depuis la dernière fois que nous avons interviewé Dave Turek (le CTO de Catalog) ?
Au cours de l’année écoulée, CATALOG a travaillé avec plusieurs sociétés leaders dans le domaine des technologies de l’information, de l’énergie, des médias et du divertissement sur des collaborations pour aider à faire progresser la technologie pour la commercialisation. Grâce à ce travail, CATALOG a découvert une large applicabilité de notre plate-forme dans tous les secteurs industriels, ainsi qu’une demande presque universelle pour ce que l’informatique basée sur l’ADN promet parmi les gros utilisateurs de données. Les premières applications dont nous pouvons parler actuellement incluent le traitement du signal numérique, tel que le traitement sismique dans le secteur de l’énergie, et les comparaisons de bases de données, telles que la protection contre la fraude et la gestion des identités dans le secteur financier.
2. En ce moment Shannon est un peu comme l’ENIAC de sa génération : encombrante, lente, chère, limitée mais révolutionnaire. Si nous devions avancer rapidement jusqu’en 2030 ; à quoi ressemblerait Shannon v10 ?
Shannon a aidé à prouver que le processus d’automatisation et de mise à l’échelle du stockage basé sur l’ADN et maintenant le calcul basé sur l’ADN était réalisable. Dans ce seul but, il était important de construire Shannon. Alors que nous avançons dans une décennie, les futures versions de la technologie seront plus petites et plus portables, plus rapides et plus efficaces. Il est certainement concevable que d’ici 2030, vous puissiez voir des versions de bureau et de poche de Shannon disponibles et utiliser de très petites quantités d’énergie pour le stockage et le calcul.
3. L’ADN en informatique est généralement associé au stockage de données. Catalog veut intégrer l’ADN dans les algorithmes et les applications ? Mais comment?
Par calcul avec l’ADN, nous entendons la transformation de données codées dans l’ADN en un nouveau type d’information. Par exemple, si j’ai un fichier d’entrée de deux grands nombres, les multiplier ensemble crée un nombre qui n’était pas auparavant présent dans le fichier – il s’agit de nouvelles informations qui représentent le produit des deux données. Nous pensons que nous pouvons créer un ensemble d’« instructions » chimiques qui peuvent opérer sur des données codées par l’ADN pour créer de nouvelles informations. Les exemples incluent des problèmes d’optimisation (trouver le plus gros, le plus petit, le meilleur de quelque chose dans les domaines de la finance, de la logistique, de la fabrication), des problèmes de traitement du signal (appliqué dans des domaines comme le traitement sismique dans l’industrie pétrolière et gazière) et des problèmes d’inférence et de l’apprentissage automatique pour commencer. L’avantage avec l’ADN est que nous pouvons effectuer ces opérations à des niveaux extrêmes de parallélisme, ce qui signifie que nous pouvons appliquer des milliards ou des milliards d’agents de calcul pour travailler collectivement pour résoudre le problème à résoudre. Chacun des agents de calcul (probablement composé d’un ensemble de molécules) sera relativement faible en tant que moteur de calcul, mais la possibilité de rassembler des milliards ou des milliards de milliards pour résoudre un problème réduira potentiellement considérablement le temps nécessaire à la compréhension.
Un autre domaine qui nous intéresse est la recherche. Nous pouvons utiliser des instructions chimiques pour trouver rapidement des objets de données codés dans l’ADN indépendamment du volume de données. Cela signifie qu’à mesure que la quantité de données que nous recherchons augmente, nous pouvons utiliser des techniques de recherche chimique qui seront essentiellement indépendantes du volume de données – le temps de résolution restera plus ou moins invariant. Ce n’est pas le cas dans de nombreuses applications de recherche électronique aujourd’hui et la raison de la différence est qu’une mémoire d’ADN est une collection de molécules flottant dans un liquide et indépendante du type d’organisation physique qui existe avec les supports électroniques : une cartouche de bande doit inspecté en série car c’est ainsi qu’il est physiquement organisé (A précède B qui précède C et ainsi de suite). Dans un fichier ADN, les molécules sont toutes mélangées dans un liquide et peuvent être recherchées directement. Cela réduit le temps nécessaire à l’analyse et réduit les coûts.
4. Vos nouvelles de financement mentionnent également que le calcul basé sur l’ADN est attendu en 2022 ? Qu’est-ce que cela signifie et sera-t-il plus largement disponible?
D’ici l’année prochaine, CATALOG démontrera la valeur du calcul basé sur l’ADN à travers un cas d’utilisation métier spécifique. Cela montrera probablement la valeur commerciale de l’analyse des données précédemment stockées dans un entrepôt frigorifique dans une industrie particulière. Notre attente est qu’à mesure que les cas d’utilisation se développent, nous permettrons aux clients d’accéder à notre technologie via le Web en tant que service (dans le courant de 2024) ; nous envisageons également la possibilité de construire des appareils miniatures capables d’exécuter des calculs chez le client à un moment donné par la suite
5. À l’heure actuelle, un échantillon de stockage à base d’ADN ressemble à une substance orange dans un tube à essai. Quelle forme/taille prendra-t-il finalement ?
Le stockage basé sur l’ADN est constitué de molécules d’ADN flottant dans un liquide (orange dans le cas des CATALOGUES en raison de la composition des encres que nous utilisons pour coder l’ADN) ou peut-être d’une pastille d’ADN pour un stockage à long terme. Il est très utile d’avoir le stockage sous forme liquide car il offre la possibilité de trouver directement des « enregistrements » dans le fichier : nous pouvons créer des sondes qui, une fois insérées dans le fichier, trouveront directement l’enregistrement ou la donnée ciblée.
6. J’ai posé une question au catalogue l’année dernière et c’était « combien cela va-t-il coûter? » Avons-nous une réponse maintenant que nous pouvons partager? Quel type de densité de stockage examinons-nous et quel type de coût par Po ou To stocké ?
La première option de commercialisation pour le stockage de l’ADN, suivie du calcul basé sur l’ADN, sera probablement livrée en tant que service. Nous annoncerons des modèles de tarification un peu plus près de la disponibilité de cette offre. L’objectif est d’être approximativement égal au stockage conventionnel, mais d’exprimer de la valeur grâce à des améliorations spectaculaires de la densité surfacique (un million de fois plus dense que les supports électroniques), une longévité effectivement infinie et l’évitement de l’obsolescence technologique : l’ADN écrit aujourd’hui sera lisible. à tout moment dans le futur car l’ADN ne change pas : il n’y a pas de problèmes tels que les mises à niveau du micrologiciel, du système d’exploitation ou des appareils qui soient préoccupants.
7. À l’heure actuelle, quels sont les plus grands obstacles au développement rapide des capacités de stockage/de calcul de l’ADN et ce qui est fait pour les résoudre
À l’heure actuelle, les obstacles sont de nature technique et se concentrent sur des questions que les clients considèrent comme toujours importantes en ce qui concerne toute technologie de calcul : fiabilité, rapport qualité-prix, disponibilité, cohérence, etc. Nous avons une équipe dédiée d’ingénieurs, de chimistes et d’informaticiens qui trient chacun de ces problèmes pour créer le type de mesures de valeur auquel les clients sont habitués. Cela comprend la miniaturisation de la machine actuelle, l’extension de l’automatisation couvrant l’ensemble du processus, ainsi que la conception et la mise en œuvre de l’infrastructure logicielle et de l’outillage souhaités par les clients.
8. Quelles sont les solutions actuellement envisagées pour résoudre le problème de débit (par exemple, 10 Mo/s écrits ne représentent que 26 To par mois).
Les attributs de débit actuels de Shannon sont destinés à aider CATALOG à mieux comprendre les impacts limitants des choix de conception que nous avons faits sur la machine, y compris l’implication de la mise à l’échelle de la chimie sous-jacente à nos modèles de codage et de calcul. Nous pouvons ajuster le débit en modifiant certains des paramètres de performance sur le système actuel et cela aurait un impact de quelques ordres de grandeur. Mais nous avons commencé à proposer d’autres choix de conception qui pourraient aller bien au-delà de cette amélioration. Par exemple, l’ajout de têtes d’impression à jet d’encre incrémentielles a un impact exponentiel sur le débit de la machine. Ceci n’est qu’un exemple des nombreux ajustements ou choix de conception qui s’offrent à nous.