“La Muerte del Aprendizaje de Máquina”

o “cómo la teoría puede mejorar a las máquinas”

George G. Vega Yon, Ph.D.

University of Utah, US

Booz Allen Hamilton, US

Pueden descargar la presentación en https://ggv.cl/slides/udd-ene2024

Sobre mi

  • Profesor de Investigación en Epidemiología de la Universidad de Utah.

  • Lead Scientist en la consultora Booz Allen Hamilton.

  • Doctor en Bioestadística de la Universidad del Sur de California (USC).

  • Magíster en Ciencias Sociales del Instituto Tecnológico de California (Caltech).

  • Magíster en Economía y Poíticas Públicas de la Universidad Adolfo Ibáñez (UAI).

Parte I: La Revolucion de la IA

Definición

“[L]a capacidad de un sistema para interpretar correctamente datos externos, y así aprender y emplear esos conocimientos para lograr tareas y metas concretas a través de la adaptación flexible.”

Kaplan and Haenlein (2019)

AI, Machine Learning, y Estadística

  • AI es un sub-campo del aprendizaje de máquina.
  • Para algunos, AI y ML sólo es esadística sin preocupaciones. (tiene algo de cierto!)
  • En estadística buscamos hacer inferencias (causalidad,) mientras que en AI y ML buscamos predecir (correlación.)
  • La AI Generative es un sub-campo de la AI donde el foco es “crear contenido” .

Lily Popova Zhuhadar, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons

¿Por qué ahora?

  • Un componente fundamental: Las Redes Neuronales Artificiales.
  • Los modelos de redes neuronales que dan poder a la IA tienen billones de parámetros.
  • Más aún, estos modelos adquieren potencial sólo con grandes volúmenes de datos; que sólo se han podido obtener en los últimos años.
  • Y por último, la capacidad de procesamiento de los computadores ha aumentado exponencialmente.

¿Cómo funcionan estos modelos?

En términos sencillos, todos los modelos de IA y aprendizaje de máquina funcionan de la siguiente manera:

  1. Obtener datos:

    1. Etiquetados: aprendizaje supervisado.
    2. No etiquetados: aprendizaje no supervisado.
  1. Diseñar modelo (arquitectura):

    1. Qué variables de la BD se utilizarán (selección).

    2. Como se procesarán los datos (hyperpárametros).

    3. Definir criterio para aproximar los datos (función de pérdida).

  1. Entrenar el modelo con set de entrenamiento (una parte de los datos).
  1. Evaluar la calidad del modelo sobre los datos no usados para entrenar (set de validación.)

¿Cuál es el estado del arte?

  • El último grito de la moda está con los llamados modelos de lenguaje grandes (Large Language Models.)
  • Estos se basan en una clase de modelos llamados modelos generativos (generative models.)
  • La clave: La función de pérdida de estos modelos se centra en predecir sequencias.
  • También son implentados con redes neuronales.

Large language models

NVidia tiene una muy buena descripción de estos modelos (Lee 2023):

  • Datos grandes. Típicamente entrenados en con datos que incluyen casi todo lo que se ha escrito en internet en un largo periodo de tiempo.
  • Redes neuronales. Se pasa la información a un algorithmo de AI no supervisado.
  • Secuencias + patrones. Los LLM “aprenden” palabras, relaciones entre ellas, y conceptos. La idea clave: Contexto.
  • Que viene después. Así como las personas pueden “adivinar” la siguiente palabra (patrones), también los LLM.

Parte II: Los desafios

Hemos avanzado, pero…

  • Con toda la atención que ha recibido la AI/ML, la atención está volviendo a la teoría (inferencia) (Baker et al. 2018; Pearl 2019)

Revisaremos algunos casos donde la AI/ML ha fallado.

Caso 2: Derechos de Autor

  • El diario New York Times [NYT] que ChatGPT reproducia contenido literal del diario.

  • El problema es que aquel contenido estaba protegido por un PayWall.

  • NYT terminó demandando a OpenAI y Microsoft (dueños de ChatGPT) por violación de derechos de autor (CNNEE 2023; Muñoz-Ledo 2024).

Imagen reproducida del artículo Archive et al. (2023). ChatGPT fue capaz de extraer información completa de NYT.

Caso 3: Surreal

  • Puede generar imágenes realistas, pero no entiende de anatomía humana:

Imagen descargada de “Why AI-generated Hands Are the Stuff of Nightmares, Explained by a Scientist” (n.d.). Dall-E 2 intentando recrear manos humanas.

Caso 4: Pinocho

Un correo real que recibí durante el 2023:

Estimado Sr. Vega Yon,

Soy un académico en Alemania estudiando difusión en redes. Encontré (o mejor dicho, ChatGPT encontró) que su librería netdiffuseR aparentemente incluía una función llamada “multi.diffusion” para estimar exactamente ese caso. Parece que había un artículo de Wang, Robins y Pattison, “Competing Risks Diffusion in Networks: A Continuation Ratio Model with Time-Varying Effects” así como un Vignette llamado “competingrisks” disponible. Sin embargo, no pude encontrar ninguno de esos.

¿Cuál creen ustedes que fué el problema?…

¡Dicha función + paper + vignette nunca existieron!

Caso 5: Demasiado bueno

En resumen, nuestro trabajo suguiere que los datos utilizados para entrenar los mejores LLM pueden ser extraidos con técnicas simples

– Traducido al español del artículo Nasr et al. (2023)

Utilizando el texto: “fontanero de video juegos”, los autores del artículo lograron extraer la siguiente imagen:

Imagen descargada de “Generative AI Has a Visual Plagiarism Problem - IEEE Spectrum (n.d.)

Un texto simple: “captura de pantalla de peliculas populares”

Imagen descargada de “Generative AI Has a Visual Plagiarism Problem - IEEE Spectrum (n.d.)

  • El problema: Como los LLM tienen billones de parámetros, es muy fácil terminar memorizando datos de entrenamiento… eso no es aprendizaje.

Parte III: La teoría al rescate

Volviendo a lo Básico

  • Un motivo por el cual la AI y ML no se han tomado las ciencias por completo es claro (ver ejemplos anteriores).
  • El mínimo común de esos problemas: La falta de teoría (no teoría matemática).
  • Existe todo un campo en las ciencias de la computación para poder explicar los resultado de la IA/ML.
  • Pero con tanto hype, es difícil alejarse de esto.
  • Sin embargo, algunos científicos han comenzado a proponer algo distinto: Combinar los modelos mecanísticos con la AI/ML.

El aprendizaje de máquina mecanístico

El Aprendizaje de Máquina Mechanistico (mechanistic ML, o MechML)–también conocido como theory-guided data science/machine learning: Un híbrido entre modelos guiados por teoría y modelos guiados por los datos.

Modelos mecanísticos

  • Centrados en inferencia (causalidad).
  • Superiores con pocos datos.
  • Encierran información más allá de los datos.

Aprendizaje de máquina

  • Data-driven (predicción).
  • Superiores con big data.
  • Encuentra patrones “escondidos”.

El aprendizaje de máquina ayuda a explicar lo que la teoría no puede… pero aún necesitamos teoría (Lazer et al. 2014)!

Estado del arte en MechML

  • Corregir predicciones mechanisticas, como por ejemplo, en modelos basados en agentes (Compagni et al. 2022).
  • Incorporar información generada con modelos teóricos como una capa de datos adicionales en genética. (Zampieri et al. 2019)
  • Utilizar rede géneticas (“gene pathways”) para incorporar información externa en modelos predictivos. (Al taweraqi and King 2022)
  • Crear funciones de pérdida (en ML) que incorporen penalización mecanística para modelar la densidad de las celulas cancerígenas (Gaw et al. 2019)

Warning

  1. Mechanistic Machine Learning no es diseño de variables. Necesitas un modelo completo mecanístico completo para integrar con el modelo predictivo.

  2. Tampoco es lo que se conoce como ML ensamble, donde se mezclan predicciones después de generalas.

Caso 1: Detectando la temperatura de la superficie del agua

  • En Jia et al. (2021), los autores presentan su modelo de “redes neuronales recurrentes guiadas por la física” (physics-guided recurrent neural network model, o PGRNN)”

Así, PGRNN puede aprovechar las fortalezas de los modelos basados en la física y llena vacíos de conocimiento empleando modelos predictivos de vanguardia que aprenden de los datos. – Jia et al. (2021)

Caso 2: Mejorando los pronósticos de la influenza

  • Wang, Chen, and Marathe (2020) presenta el modelo de predicción epidemiológica utilizando redes neuronales guiadas por modelos teóricos (Theory-guided Deep Learning-based Epidemic Forecasting with Synthetic Information, o TDEFSI).

Caso 3: Prediciendo lo que hacen los genes

  • Junto con colaboradores de USC, desarrollamos un modelo de MechML para predecir funciones genéticas (en proceso de publicación).

  • En un experimento, el error de predicción bajó de 0.29 (mecanístico) a 0.14.

Discusión

  • La AI/ML tiene una capacidad infinita de potenciar la productividad humana.
  • LA AI generativa explota grandes volúmenes de datos para identificar patrones (secuencias).
  • Pero, la AI/ML no es perfecta… todavía necesitamos la teoría!
  • El aprendizaje de máquina mecanístico (Mechanistic ML) es un híbrido entre modelos guiados por teoría y modelos guiados por los datos.
  • El MechML ha demostrado tener la capacidad de mejorar la predicción de modelos de AI/ML y teóricos.
  • Inyectar teoría en la AI/ML es el siguiente paso en la revolución de la AI.

Fin

¡Gracias!

“La Muerte del Aprendizaje de Máquina”

George G. Vega Yon, Ph.D.

https://ggv.cl

george.vegayon@utah.edu

Referencias

Al taweraqi, Nada, and Ross D. King. 2022. “Improved Prediction of Gene Expression Through Integrating Cell Signalling Models with Machine Learning.” BMC Bioinformatics 23 (1): 323. https://doi.org/10.1186/s12859-022-04787-8.
Archive, View Author, Email the Author, Follow on Twitter, and Get author RSS feed. 2023. “New York Times Sues OpenAI, Microsoft for Seeking to ’Free-Ride’ on Its Articles to Train Chatbots.”
Baker, Ruth E., Jose-Maria Peña, Jayaratnam Jayamohan, and Antoine Jérusalem. 2018. “Mechanistic Models Versus Machine Learning, a Fight Worth Fighting for the Biological Community?” Biology Letters 14 (5): 20170660. https://doi.org/10.1098/rsbl.2017.0660.
CNNEE. 2023. El diario The New York Times demanda a OpenAI y Microsoft por infracción de derechos de autor.” CNN.
Compagni, Riccardo Delli, Zhao Cheng, Stefania Russo, and Thomas P. Van Boeckel. 2022. “A Hybrid Neural Network-SEIR Model for Forecasting Intensive Care Occupancy in Switzerland During COVID-19 Epidemics.” PLOS ONE 17 (3): e0263789. https://doi.org/10.1371/journal.pone.0263789.
Gaw, Nathan, Andrea Hawkins-Daarud, Leland S. Hu, Hyunsoo Yoon, Lujia Wang, Yanzhe Xu, Pamela R. Jackson, et al. 2019. “Integration of Machine Learning and Mechanistic Models Accurately Predicts Variation in Cell Density of Glioblastoma Using Multiparametric MRI.” Scientific Reports 9 (1): 10063. https://doi.org/10.1038/s41598-019-46296-4.
“Generative AI Has a Visual Plagiarism Problem - IEEE Spectrum.” n.d. https://spectrum.ieee.org/midjourney-copyright. Accessed January 14, 2024.
Ginsberg, Jeremy, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski, and Larry Brilliant. 2009. “Detecting Influenza Epidemics Using Search Engine Query Data.” Nature 457 (7232): 1012–14. https://doi.org/10.1038/nature07634.
Jia, Xiaowei, Jared Willard, Anuj Karpatne, Jordan S. Read, Jacob A. Zwart, Michael Steinbach, and Vipin Kumar. 2021. “Physics-Guided Machine Learning for Scientific Discovery: An Application in Simulating Lake Temperature Profiles.” ACM/IMS Transactions on Data Science 2 (3): 1–26. https://doi.org/10.1145/3447814.
Jorner, Kjell, Tore Brinck, Per-Ola Norrby, and David Buttar. 2021. “Machine Learning Meets Mechanistic Modelling for Accurate Prediction of Experimental Activation Energies.” Chemical Science 12 (3): 1163–75. https://doi.org/10.1039/D0SC04896H.
Kandula, Sasikiran, and Jeffrey Shaman. 2019. “Reappraising the Utility of Google Flu Trends.” PLOS Computational Biology 15 (8): e1007258. https://doi.org/10.1371/journal.pcbi.1007258.
Kaplan, Andreas, and Michael Haenlein. 2019. “Siri, Siri, in My Hand: Who’s the Fairest in the Land? On the Interpretations, Illustrations, and Implications of Artificial Intelligence.” Business Horizons 62 (1): 15–25. https://doi.org/10.1016/j.bushor.2018.08.004.
Lazer, David, Ryan Kennedy, Gary King, and Alessandro Vespignani. 2014. “The Parable of Google Flu: Traps in Big Data Analysis.” Science 343 (6176): 1203–5. https://doi.org/10.1126/science.1248506.
Lee, Angie. 2023. “What Are Large Language Models and Why Are They Important?” NVIDIA Blog. https://blogs.nvidia.com/blog/what-are-large-language-models-used-for/.
Muñoz-Ledo, Rocío. 2024. OpenAI afirma que la demanda de The New York Times por derechos de autor "no tiene fundamento".” CNN.
Nasr, Milad, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr, and Katherine Lee. 2023. “Scalable Extraction of Training Data from (Production) Language Models.” arXiv. https://doi.org/10.48550/arXiv.2311.17035.
Pearl, Judea. 2019. “The Seven Tools of Causal Inference, with Reflections on Machine Learning.” Communications of the ACM 62 (3): 54–60. https://doi.org/10.1145/3241036.
von Rueden, Laura, Sebastian Mayer, Katharina Beckh, Bogdan Georgiev, Sven Giesselbach, Raoul Heese, Birgit Kirsch, et al. 2023. “Informed Machine Learning A Taxonomy and Survey of Integrating Prior Knowledge into Learning Systems.” IEEE Transactions on Knowledge and Data Engineering 35 (1): 614–33. https://doi.org/10.1109/TKDE.2021.3079836.
Wang, Lijing, Jiangzhuo Chen, and Madhav Marathe. 2020. TDEFSI: Theory-guided Deep Learning-based Epidemic Forecasting with Synthetic Information.” ACM Transactions on Spatial Algorithms and Systems 6 (3): 15:1–39. https://doi.org/10.1145/3380971.
“Why AI-generated Hands Are the Stuff of Nightmares, Explained by a Scientist.” n.d. https://www.sciencefocus.com/future-technology/why-ai-generated-hands-are-the-stuff-of-nightmares-explained-by-a-scientist. Accessed January 14, 2024.
Willard, Jared, Xiaowei Jia, Shaoming Xu, Michael Steinbach, and Vipin Kumar. 2022. “Integrating Scientific Knowledge with Machine Learning for Engineering and Environmental Systems.” ACM Computing Surveys, March, 3514228. https://doi.org/10.1145/3514228.
Zampieri, Guido, Supreeta Vijayakumar, Elisabeth Yaneske, and Claudio Angione. 2019. “Machine and Deep Learning Meet Genome-Scale Metabolic Modeling.” PLOS Computational Biology 15 (7): e1007084. https://doi.org/10.1371/journal.pcbi.1007084.