Revolución Biotecnológica con inteligencia artificial y aprendizaje automático
Adrián E. Velázquez-Lizárraga1, Leopoldo J. Ríos González1, Ana G. Reyes-Alvarado2*
1Universidad Autónoma de Coahuila, Facultad de Ciencias Química, Departamento de Biotecnología Ambiental. Blvd. Venustiano Carranza 935, República, 25280 Saltillo, Coahuila.
2Centro de Investigaciones Biológicas del Noroeste, S. C., Programa de Agricultura en Zonas Áridas. Instituto Politécnico Nacional 195, Playa Palo Santa Rita Sur, 23096, La Paz, Baja California Sur.
*Autor responsable: agalvarado@cibnor.mx
Resumen
El artículo explora cómo la inteligencia artificial (IA) y el aprendizaje automático (AA) están revolucionando la biotecnología. Desde la explotación de los datos contenidos en las bases de datos biológicas hasta el uso de herramientas avanzadas para el análisis de grandes volúmenes de datos, se destaca cómo estas tecnologías están transformando la investigación y las aplicaciones biotecnológicas. Con ejemplos de su impacto en la secuenciación genómica, el diseño de fármacos y la optimización de prácticas agrícolas, el artículo subraya el potencial de la IA y el AA para impulsar innovaciones y superar desafíos técnicos y éticos en el campo, por lo que se percibe un futuro donde estás tecnologías puedan crear colaboraciones interdisciplinarias para abrir nuevas fronteras en la ciencia.
1. Introducción
La biotecnología está viviendo una revolución gracias a la integración de la inteligencia artificial (IA) y el aprendizaje automático (AA) (inglés: machine learning) transformando profundamente cómo investigamos y aplicamos conocimientos científicos. Desde la secuenciación del genoma humano hasta la generación masiva de datos biológicos, las tecnologías ómicas han potenciado un incremento exponencial en la información disponible. Esta abundancia de datos requiere herramientas analíticas avanzadas, donde la IA y el AA juegan un papel importante. Estas tecnologías no solo permiten gestionar grandes volúmenes de datos, sino que también potencian la precisión y velocidad en el análisis, la predicción y la toma de decisiones. En este emocionante panorama, la biotecnología y sus campos de estudio se encuentran a la vanguardia de descubrimientos innovadores y aplicaciones prácticas que prometen redefinir nuestra comprensión del mundo biológico y sus posibilidades.
1.1 El auge de las bases de datos biológicas
Desde la década de 1980, el estudio de las moléculas biológicas ha avanzado mucho gracias a las ciencias ómicas, que permiten analizarlas de manera integral. Este enfoque ha llevado a un gran aumento en las bases de datos biológicas, importantes para el progreso en biotecnología y otras áreas científicas.
La secuenciación del genoma humano en el año 2000 (Figura 1) fue un hecho importante, abriendo el camino para estudiar los genomas de otras especies relevantes (Collins & Venter, 2001). Desde 2009, la tecnología para secuenciar genomas se ha vuelto más accesible y económica, lo que ha generado una explosión en la cantidad de datos biológicos disponibles (Shendure & Ji, 2008).
Figura 1. Crecimiento de la base de datos Genbank (NCBI). Fuente: https://www.ncbi.nlm.nih.gov/genbank/statistics/
Hoy en día, existen más de 1,959 bases de datos que almacenan información sobre ADN, ARN, expresión génica, inmunología, proteómica y más (Bahtt et al., 2018). Este enorme volumen de datos necesita herramientas informáticas avanzadas para ser analizado, ya que los métodos tradicionales no son suficientes (Rigden y Fernández, 2024).
Los macrodatos, datos masivos, inteligencia de datos, o datos a gran escala (inglés: Big Data) refiere a un conjunto masivo y complejo de datos donde las herramientas tradicionales no pueden almacenar, gestionar y analizar los datos en tiempos razonables. Los macrodatos han revolucionado la forma y estrategia de analizar de datos en biotecnología, permitiendo procesar grandes volúmenes de datos de diversas fuentes. Esto es importante porque la cantidad de datos generados es demasiado grande para ser manejada con métodos convencionales (Stephens et al., 2015).
A pesar de los avances tecnológicos, el uso de macrodatos presenta desafíos para los investigadores en biotecnología. Muchos no están familiarizados con estos nuevos métodos, lo que puede limitar su capacidad para aprovechar completamente los datos disponibles. Aquí es donde la inteligencia artificial (IA) y el aprendizaje automático (AA) son fundamentales, proporcionando herramientas avanzadas para el análisis de datos.
Las bases de datos biológicas son un conjunto de repositorios digitales que almacenan y organizan una gran variedad de información como: secuencias de ADN, ARN y proteínas, estructuras de moléculas, estructuras de proteínas, funciones, localización de genes y cromosomas, mutaciones, evolución y expresión de genes y metabolismo. El auge de las bases de datos biológicas ha transformado la investigación en biotecnología, facilitando descubrimientos y avances impensables hace unas décadas. La integración de macrodatos y herramientas de IA y AA son esenciales para gestionar y aprovechar esta vasta cantidad de información, permitiendo grandes progresos en biotecnología y otras disciplinas científicas.
2. Inteligencia Artificial: Definiciones y conceptos clave
La inteligencia artificial (IA) es una de las tecnologías más revolucionarias del siglo XXI, transformando múltiples sectores y ofreciendo soluciones innovadoras a problemas complejos. En biotecnología, la IA facilita avances significativos en investigación y aplicaciones prácticas mediante herramientas avanzadas para el análisis de datos, la predicción y la toma de decisiones (LeCun et al., 2015).
Figura 2. Jerarquía e interrelación entre la inteligencia artificial, Machine Learning, Deep Learning y Big Data. Los círculos indican que Machine Learning es un tipo de inteligencia artificial, mientras que Deep Learning es un nuevo enfoque de Machine Learning y el Big Data (macrodatos) es utilizados por estas dos.
2.1 ¿Qué es la inteligencia artificial?
La IA es una rama de la informática que desarrolla algoritmos y sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, como el reconocimiento de patrones, el procesamiento de lenguaje natural, la toma de decisiones y la visión artificial. La IA busca emular la capacidad humana para aprender, razonar y resolver problemas.
La inteligencia artificial se compone de varios campos de estudio especializados (Figura 3) (Ching et al., 2018):
Visión Artificial: Permite a las máquinas interpretar y procesar imágenes del mundo real, utilizado en el reconocimiento facial, la conducción autónoma y la inspección de calidad en manufactura.
Procesamiento de Lenguaje Natural (NLP): Interacción entre computadoras y lenguaje humano, incluye la traducción automática, el análisis de sentimientos y la generación de texto.
Optimización: Enfocado en encontrar la mejor solución entre muchas posibles, aplicado en logística, planificación y toma de decisiones estratégicas.
Aprendizaje por Refuerzo: Entrena agentes que toman decisiones basadas en recompensas y castigos, usado en robótica y juegos.
Figura 3. Campos de estudio de la inteligencia artificial.
2.2 Diferencia entre inteligencia artificial, aprendizaje automático, y aprendizaje profundo
Inteligencia Artificial (IA): Campo que abarca el desarrollo de sistemas y tecnologías capaces de realizar tareas inteligentes. Incluye diversas subdisciplinas y enfoques.
Aprendizaje automático (AA): Subdisciplina de la IA que se centra en el desarrollo de algoritmos que permiten a las máquinas aprender a partir de datos. En lugar de ser programadas explícitamente, las máquinas utilizan datos para identificar patrones y tomar decisiones.
Aprendizaje profundo (AP): Conocido en inglés como Deep Learning, es una rama del AA que utiliza redes neuronales artificiales con múltiples capas para modelar y analizar datos complejos. Es especialmente efectivo en tareas como el reconocimiento de imágenes y el procesamiento de lenguaje natural.
Figura 4. Tipos de Machine Learning y ejemplos prácticos.
2.3 Aprendizaje automático
El aprendizaje automático (AA), una rama de la inteligencia artificial (IA), está transformando la ciencia y la tecnología. A diferencia de los enfoques tradicionales, donde las instrucciones se programan explícitamente, el AA permite que las máquinas aprendan y mejoren a partir de la experiencia adquirida con el análisis de datos. Esta innovación ha encontrado un terreno fértil en la biotecnología, ofreciendo soluciones avanzadas para problemas complejos y promoviendo avances significativos en el campo.
2.3.1 ¿Qué es el aprendizaje automático?
El AA es un conjunto de técnicas y algoritmos que permiten a las computadoras aprender de los datos. Por ejemplo, para enseñar a una máquina a diferenciar entre especies de plantas, se le proporcionan datos sobre las plantas y el algoritmo identifica patrones para hacer distinciones precisas. Este proceso consta de varias etapas: recolección y preprocesamiento de datos, selección y entrenamiento del modelo adecuado, y finalmente, la evaluación y aplicación del modelo para hacer predicciones y tomar decisiones informadas.
2.3.2 Tipos de aprendizaje automático
El aprendizaje automático se divide en tres categorías principales: aprendizaje supervisado, no supervisado y por refuerzo. Cada uno de estos enfoques es adecuado para diferentes tipos de problemas.
Aprendizaje supervisado
En el aprendizaje supervisado, los algoritmos se entrenan con datos etiquetados, donde cada entrada está asociada a una salida esperada. Es similar a cómo un maestro guía a un estudiante: proporciona ejemplos y respuestas correctas para que el estudiante aprenda a resolver problemas de manera independiente. En biotecnología, este método es escencial para tareas como la clasificación de tipos celulares y la predicción de resultados experimentales.
Aprendizaje no supervisado
En el aprendizaje no supervisado, los algoritmos trabajan con datos sin etiquetar para descubrir estructuras ocultas o patrones. Es como observar un grupo de animales y agruparlos por su comportamiento sin tener información previa sobre las especies. En biotecnología, este enfoque es invaluable para identificar subgrupos de enfermedades a partir de datos genómicos o descubrir nuevas funciones génicas.
Aprendizaje por refuerzo
El aprendizaje por refuerzo se basa en un enfoque dinámico donde un agente interactúa con su entorno y aprende de las consecuencias de sus acciones. Similar a cómo los humanos aprenden de sus experiencias, un agente de AA recibe recompensas o castigos basados en sus decisiones, ajustando su comportamiento para maximizar las recompensas acumuladas. Es útil en situaciones donde la toma de decisiones secuenciales es esencial, como en la optimización de protocolos experimentales o en el desarrollo de tratamientos personalizados.
2.3.3 Importancia de los datos en el aprendizaje automático
La eficacia del AA depende de la calidad y cantidad de datos disponibles. Los datos son la base de cualquier modelo de AA, determinando su capacidad para aprender y generalizar a nuevas situaciones. Es esencial que los datos sean representativos del problema, estén libres de ruido y sean abundantes para capturar la complejidad de los patrones.
2.3.4 Desafíos en el aprendizaje
A pesar de sus capacidades, el AA enfrenta desafíos como errores de predicción debido al sesgo y la variabilidad en los datos. Además, el sobreajuste ocurre cuando el modelo aprende demasiado bien de los datos de entrenamiento, incluyendo el ruido, mientras que el subajuste es cuando el modelo es demasiado simple para capturar la complejidad de los datos. Abordar estos desafíos requiere un análisis cuidadoso y ajustes continuos para mejorar la precisión y confiabilidad de los algoritmos.
El aprendizaje automático es una herramienta poderosa que permite a las máquinas aprender de los datos y tomar decisiones informadas. Sus aplicaciones en biotecnología están impulsando innovaciones en genómica, diseño de fármacos, diagnóstico médico y agricultura. Comprender los diferentes tipos de AA y su funcionamiento es esencial para aprovechar al máximo su potencial en la investigación y el desarrollo biotecnológico.
3. Desafíos y consideraciones éticas en la aplicación de inteligencia artificial y aprendizaje automático en biotecnología
La aplicación de la inteligencia artificial (IA) y el aprendizaje automático (AA) en biotecnología ofrece oportunidades inmensas, pero también presenta numerosos desafíos técnicos y éticos. Uno de los principales retos es la calidad y cantidad de datos disponibles, que son a menudo heterogéneos y no estructurados, complicando su recolección y procesamiento (Amodei et al., 2016). El preprocesamiento de datos es esencial para limpiar, normalizar y eliminar ruido, garantizando que los modelos de AA produzcan resultados precisos. La elección del modelo adecuado también es fundamental, ya que cada algoritmo tiene sus propias ventajas y limitaciones. Además, la interpretabilidad de los modelos es un desafío importante, especialmente en biotecnología (Topol, 2019), donde es importante entender cómo y por qué se toman ciertas decisiones. La capacidad de generalizar a datos no vistos previamente es vital para evitar el sobreajuste. Además de estos desafíos técnicos, existen importantes consideraciones éticas, como la privacidad de los datos, el consentimiento informado, la mitigación de sesgos y la responsabilidad en las decisiones tomadas por los modelos. La transparencia en el desarrollo y uso de algoritmos y la educación continua en principios éticos y técnicos son esenciales para una implementación responsable y efectiva de estas tecnologías en biotecnología.
4. Futuro de la inteligencia artificial y aprendizaje automático en biotecnología
La inteligencia artificial (IA) y el aprendizaje automático (AA) están posicionados para transformar la biotecnología en las próximas décadas. Estas tecnologías no solo optimizarán procesos existentes, sino que también abrirán nuevas fronteras en la ciencia y la tecnología. Entre las tendencias emergentes se encuentran la automatización total de laboratorios mediante sistemas robóticos inteligentes, la medicina personalizada basada en análisis genéticos, y mejoras en herramientas de edición genética como CRISPR. Además, la bioinformática avanzada y la colaboración interdisciplinaria serán esenciales para abordar problemas complejos y desarrollar nuevos paradigmas científicos.
Figura 5. Imagen generada por inteligencia artificial generativa con la tecnología DALL E 3 (OpenAI).
5. Impacto potencial y visión a largo lazo
El impacto de la inteligencia artificial y el aprendizaje automático en biotecnología será vasto. Estas tecnologías mejorarán la eficiencia de la investigación, reducirán costos y acelerarán descubrimientos, desde el desarrollo de nuevos fármacos hasta la optimización de prácticas agrícolas. En biología sintética, podrán diseñar organismos con funciones específicas, como la producción de biocombustibles. Además, la integración de estas tecnologías con otras disciplinas científicas permitirá abordar problemas desde múltiples perspectivas, fomentando la innovación. La ética y la transparencia serán esenciales para asegurar que estas innovaciones beneficien a toda la sociedad, mientras que la educación y la capacitación prepararán a la próxima generación de científicos para un futuro donde la IA y el AA son herramientas comunes.
Referencias
1. Collins, F. S., & Venter, J. C. (2001). The Human Genome Project. Science, 291(5507), 1304-1351. doi:10.1126/science.1058040.
2. Shendure, J., & Ji, H. (2008). Next-generation DNA sequencing. Nature Biotechnology, 26(10), 1135-1145. doi:10.1038/nbt1486.
3. Rigden, D.J. and Fernández, X.M. The 2024 Nucleic Acids Research database issue and the online molecular biology database collection. Nucleic Acids Research , 2024, 52 , D1–D9
4. Stephens, Z. D., Lee, S. Y., Faghri, F., Campbell, R. H., Zhai, C., Efron, M. J., ... & Robinson, G. E. (2015). Big Data: Astronomical or genomical?. PLoS Biology, 13(7), e1002195. doi:10.1371/journal.pbio.1002195
5. Bhatt, V.D., Patel, M., Joshi, C.G. (2018). An Insight of Biological Databases Used in Bioinformatics. In: Wadhwa, G., Shanmughavel, P., Singh, A., Bellare, J. (eds) Current trends in Bioinformatics: An Insight. Springer, Singapore. https://doi.org/10.1007/978-981-10-7483-7_1
6. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444. doi:10.1038/nature14539.
7. Ching, T., Himmelstein, D. S., Beaulieu-Jones, B. K., Kalinin, A. A., Do, B. T., Way, G. P., ... & Greene, C. S. (2018). Opportunities and obstacles for deep learning in biology and medicine. Journal of The Royal Society Interface, 15(141), 20170387. doi:10.1098/rsif.2017.0387.
8. Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete problems in AI safety. arXiv preprint arXiv:1606.06565.
9. Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56. doi:10.1038/s41591-018-0300-7.
10. OpenAI. (2024). Imagen de biotecnología e inteligencia artificial [Imagen generada por IA]. DALL-E 3. https://www.openai.com/dall-e-3