Aprendizaje automático: desde la «mejor estimación» hasta las mejores decisiones basadas en datos
.
.
Los científicos de datos que trabajan con el aprendizaje automático nos han traído la era actual de big data. Los modelos tradicionales de machine learning (ML) ahora tienen mucho éxito en la predicción de resultados basados en los datos. Pero los modelos de ML generalmente no están diseñados para responder qué se podría hacer para cambiar esa probabilidad. Este es el concepto de inferencia causal. Y hasta hace poco, había pocas herramientas disponibles para ayudar a los científicos de datos a entrenar y aplicar modelos de inferencia causal, elegir entre los modelos y determinar qué parámetros usar.
IBM Research cambió esto. Lanzado en 2019, IBM Causal Inference 360 Toolkit de código abierto,
es el primero de su tipo en ofrecer un conjunto completo de métodos, todo bajo una API unificada, que ayuda a los científicos de datos a aplicar y comprender la inferencia causal en sus modelos.
Ahora, IBM presentó un nuevo y personalizado sitio web para el IBM Causal Inference 360 Toolkit, con tutoriales, información de soporte y demos, las cuales muestran las capacidades para múltiples dominios, incluida la salud, la agricultura y el marketing en los sectores financiero y bancario. También se lanzó una nueva versión de la biblioteca Python de código abierto con funcionalidades adicionales.
¿Qué es la inferencia causal?
Tomar decisiones implica hacer preguntas y tratar de obtener la mejor respuesta posible. A la pregunta: «¿Qué pasa si como huevos todos los días en el desayuno?», dependiendo de lo que se esté midiendo y de los factores adicionales involucrados, la respuesta podría variar ampliamente. ¿Y si las personas que tienden a desayunar huevos todas las mañanas son también las que hacen ejercicio todas las mañanas? Quizás la diferencia que vemos en el resultado estaría impulsada por el ejercicio y no por comer huevos.
Esto se denomina variable de confusión, que afecta tanto a la decisión como al resultado. Y eso es lo que la inferencia causal intenta resolver. ¿Cuál es la respuesta a la pregunta después de controlar (tanto como sea posible a partir de los datos) la variable de confusión?
A continuación, se intenta explicar cómo se influye en el resultado en función de diferentes parámetros -por ejemplo, cuántos huevos se comen; qué se come con los huevos; si la persona tiene sobrepeso, etc.-. También podemos intentar dar cuenta de lo que estamos buscando, si nos interesa si la persona aumentaría de peso, dormiría mejor, comería menos durante el día o bajaría el colesterol, por ejemplo.
En resumen, podría ser fácil comenzar con una pregunta que se pueda responder utilizando datos. Pero para obtener una respuesta confiable, se necesitaría ajustar los parámetros involucrados y el tipo de modelo que se está utilizando.
La inferencia causal consiste en un conjunto de métodos que intentan estimar el efecto de una intervención sobre un resultado a partir de datos de observación. Con IBM Causal Inference 360 Toolkit, las personas pueden usar múltiples herramientas para mover sus procesos de toma de decisiones desde un escenario de “mejor estimación” a respuestas concretas basadas en datos.
La librería de IBM Causality 360 es una biblioteca Python de código abierto que utiliza modelos de machine learning internamente y, a diferencia de la mayoría de los paquetes, permite a los usuarios conectar casi cualquier modelo de ML que deseen. También tiene metodologías para seleccionar los mejores modelos y sus parámetros basados en paradigmas de ML como la validación cruzada, y para utilizar novedosas y bien establecidas métricas causales específicas.
Ejemplos en el mundo real
En el laboratorio de IBM Research en Haifa, Israel, han utilizando el Causal Inference 360 Toolkit como parte de su investigación sobre la reutilización de fármacos1. La reutilización o reposicionamiento de fármacos es un método para encontrar nuevos usos terapéuticos para los medicamentos aceptados. Aquí, la pregunta que el equipo hizo fue: «¿Qué pasaría si el paciente X tomara el medicamento Y?»
El resultado fue el descubrimiento de dos nuevos tratamientos potenciales para la demencia que suele acompañar a la enfermedad de Parkinson. Puede encontrar más detalles sobre cómo funcionó el modelado causal en esta investigación aquí.
En otro ejemplo, el equipo buscaba comprender si las nuevas prácticas de riego contribuyen a la reducción deseada de la contaminación y la filtración de nutrientes. Para hacer esto, usaron un conjunto de datos que capturó múltiples aspectos del uso agrícola de la tierra, incluido su método de riego y medición de escorrentía. Notaron que los datos mostraron poco efecto. Luego, usaron el IBM Causal Inference 360 Toolkit para corregir el hecho de que los métodos de riego dependen en gran medida del tipo de uso de la tierra y del cultivo. El resultado cambió: demostraron que la introducción de estas nuevas técnicas de riego reduce la escorrentía. Podría ahorrar fertilización y agua, así como reducir la contaminación de la cuenca. Esta disminución se puede cuantificar aún más para estimar la compensación entre los ahorros y la inversión inicial.
Con la nueva capacidad y el sitio web de IBM Causal Inference 360 Toolkit, IBM espera ayudar a las personas en el campo de la inferencia causal para que apliquen fácilmente las metodologías de machine learning, y que los profesionales de ML pasen de hacer preguntas puramente predictivas a preguntas de ‘qué pasaría si’ utilizando inferencia causal.