Home » DNA: la solución de almacenamiento de datos definitiva

DNA: la solución de almacenamiento de datos definitiva

by admin

En un mundo inundado de datos, descubrir dónde y cómo almacenarlos de manera eficiente y económica se convierte en un problema mayor todos los días. Una de las soluciones más exóticas podría resultar una de las mejores: archivar información en moléculas de ADN.

El método predominante de almacenamiento en frío a largo plazo, que data de la década de 1950, escribe datos en carretes de cinta magnética del tamaño de una pizza. En comparación, el almacenamiento de ADN es potencialmente menos costoso, más eficiente energéticamente y más duradero. Los estudios demuestran que el ADN correctamente encapsulado con una sal permanece estable durante décadas a temperatura ambiente y debería durar mucho más en los entornos controlados de un centro de datos. El ADN no requiere mantenimiento y los archivos almacenados en el ADN se copian fácilmente por un costo insignificante.

Aún mejor, el ADN puede archivar una asombrosa cantidad de información en un volumen casi inconcebiblemente pequeño. Considere esto: la humanidad generará aproximadamente 33 zettabytes de datos para 2025, es decir, 3.3 seguido de 22 ceros. El almacenamiento de ADN puede comprimir toda esa información en una pelota de ping-pong, con espacio de sobra. Los 74 millones de millones de bytes de información de la Biblioteca del Congreso podrían almacenarse en un archivo de ADN del tamaño de una semilla de amapola: 6.000 veces más. Divida la semilla por la mitad y podrá almacenar todos los datos de Facebook.

¿Ciencia ficción? Difícilmente. La tecnología de almacenamiento de ADN existe hoy en día, pero para que sea viable, los investigadores deben superar algunos obstáculos tecnológicos abrumadores en torno a la integración de diferentes tecnologías. Como parte de una importante colaboración para realizar ese trabajo, nuestro equipo del Laboratorio Nacional de Los Alamos ha desarrollado una tecnología habilitadora clave para el almacenamiento molecular. Nuestro software, Adaptive DNA Storage Codex (ADS Codex), traduce archivos de datos del lenguaje binario de ceros y unos que las computadoras entienden al código de cuatro letras que la biología entiende.

ADS Codex es una parte clave del programa de almacenamiento de información molecular (MIST) de la actividad de proyectos de investigación avanzada de inteligencia (IARPA). MIST busca brindar un almacenamiento más barato, más grande y más duradero para las operaciones de big data en el gobierno y el sector privado, con el objetivo a corto plazo de escribir un terabyte (un billón de bytes) y leer 10 terabytes en 24 horas a un costo de $ 1,000.

DEL CÓDIGO DE COMPUTADORA AL CÓDIGO GENÉTICO

Cuando la mayoría de la gente piensa en el ADN, piensa en la vida, no en las computadoras. Pero el ADN es en sí mismo un código de cuatro letras para transmitir información sobre un organismo. Las moléculas de ADN están formadas por cuatro tipos de bases o nucleótidos, cada uno identificado por una letra: adenina (A), timina (T), guanina (G) y citosina (C). Son la base de todo el código de ADN y proporcionan el manual de instrucciones para construir todos los seres vivos de la tierra.

Una tecnología bastante bien conocida, la síntesis de ADN se ha utilizado ampliamente en medicina, productos farmacéuticos y desarrollo de biocombustibles, por nombrar solo algunas aplicaciones. La técnica organiza las bases en varios arreglos indicados por secuencias específicas de A, C, G y T. Estas bases se envuelven en una cadena retorcida entre sí, la familiar doble hélice, para formar la molécula. La disposición de estas letras en secuencias crea un código que le dice al organismo cómo formarse.

El conjunto completo de moléculas de ADN constituye el genoma, el modelo de su cuerpo. Al sintetizar moléculas de ADN, haciéndolas desde cero, los investigadores han descubierto que pueden especificar, o escribir, cadenas largas de las letras A, C, G y T y luego leer esas secuencias. El proceso es análogo a cómo una computadora almacena información binaria. A partir de ahí, fue un pequeño paso conceptual para codificar un archivo informático binario en una molécula.

Se ha demostrado que el método funciona, pero leer y escribir archivos codificados con ADN actualmente lleva mucho tiempo. Agregar una sola base al ADN lleva aproximadamente un segundo. Escribir un archivo de archivo a este ritmo podría llevar décadas, pero la investigación está desarrollando métodos más rápidos, incluidas operaciones masivamente paralelas que escriben en muchas moléculas a la vez.

NADA PERDIDO EN LA TRADUCCIÓN

ADS Codex dice exactamente cómo traducir los ceros y unos en secuencias de cuatro combinaciones de letras de A, C, G y T. El Codex también maneja la decodificación en binario. El ADN se puede sintetizar mediante varios métodos, y ADS Codex puede incluirlos todos.

Desafortunadamente, en comparación con los sistemas digitales tradicionales, las tasas de error al escribir en el almacenamiento molecular con síntesis de ADN son muy altas. Estos errores surgen de una fuente diferente a la que tienen en el mundo digital, lo que los hace más difíciles de corregir. En un disco duro digital, los errores binarios ocurren cuando un cero cambia a uno, o viceversa. Con el ADN, los problemas provienen de errores de inserción y eliminación. Por ejemplo, es posible que esté escribiendo ACGT, pero a veces intenta escribir A y no aparece nada, por lo que la secuencia de letras se desplaza hacia la izquierda o escribe AAA.

Los códigos de corrección de errores normales no funcionan bien con ese tipo de problema, por lo que ADS Codex agrega códigos de detección de errores que validan los datos. Cuando el software vuelve a convertir los datos en binarios, comprueba que los códigos coinciden. Si no lo hacen, elimina o agrega bases (letras) hasta que la verificación sea exitosa.

ESCALA INTELIGENTE

Hemos completado la versión 1.0 de ADS Codex y, a finales de este año, planeamos utilizarla para evaluar los sistemas de almacenamiento y recuperación desarrollados por los otros equipos de MIST. El trabajo encaja bien con la historia de Los Alamos de ser pioneros en nuevos desarrollos en computación como parte de nuestra misión de seguridad nacional. Desde la década de 1940, como resultado de esos avances informáticos, hemos acumulado algunos de los almacenes más antiguos y más grandes de datos exclusivamente digitales. Todavía tiene un valor tremendo. Debido a que guardamos los datos para siempre, hemos estado en la punta de la lanza durante mucho tiempo cuando se trata de encontrar una solución de almacenamiento en frío, pero no estamos solos.

Todos los datos del mundo: todas sus fotos digitales y tweets; todos los registros del sector financiero mundial; todas esas imágenes de satélite de tierras de cultivo, movimientos de tropas y deshielo de los glaciares; todas las simulaciones subyacentes a gran parte de la ciencia moderna; y mucho más, tengo que ir a alguna parte. La “nube” no es una nube en absoluto. Son centros de datos digitales en enormes almacenes que consumen grandes cantidades de electricidad para almacenar (y mantener frescos) billones de millones de bytes. Con un costo de miles de millones de dólares para construir, alimentar y ejecutar, estos centros de datos pueden tener dificultades para seguir siendo viables a medida que la necesidad de almacenamiento de datos continúa creciendo exponencialmente.

El ADN es muy prometedor para saciar el voraz apetito del mundo por el almacenamiento de datos. La tecnología requiere nuevas herramientas y nuevas formas de aplicar las conocidas. Pero no se sorprenda si un día los archivos más valiosos del mundo encuentran un nuevo hogar en una colección de moléculas del tamaño de una semilla de amapola.

La financiación para ADS Codex fue proporcionada por la Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA), una agencia de investigación dentro de la Oficina del Director de Inteligencia Nacional.

Este es un artículo de opinión y análisis.

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More

Privacy & Cookies Policy