Minería de datos
-
13Mayo | 2010
Con el nombre ahora popularizado de minería de datos se quiere dar a conocer el conjunto de técnicas que nos permiten y ayudan a obtener, no solo información, si no también conocimiento de las bases de datos y de todos aquellos depósitos de información que tengan cierto grado de organización y que dispongamos de ellos de forma coherente. En realidad las bases de datos y cualquier depósito de información lista para usarse, es decir que fuera recuperable y procesable, deberían llamarse “mina de datos” y la forma o el arte para extraer conocimiento “minería”.
Este nombre de Minería de Datos procede del inglés Data Mining y cada día es un término más usado, pero hay que advertir que la minería de datos no es algo aislado sino que forma parte de otro término también más utilizado cada día y muy interesante como es el Descubrimiento de Conocimientos o Knowledge Discovery.
Usama Fallad y otros, en 1996 definieron la minería de datos como “un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”.
Dentro del conjunto de técnicas que hacen posible la extracción de conocimiento, es necesario mencionar la estadística y la inteligencia artificial, aunque existen ciertas controversias en esta idea, ya que las fronteras existentes entre ellas no quedan claras. Mientras algunos mantienen que esas fronteras no existen ya que en opinión de muchos lo que nos ocupa, es decir, la minería de datos, no es sino la propia estadística envuelta en términos y definiciones que la convierten en un producto “diferente” y fácilmente vendible. Otros, sin embargo, opinan que la minería de datos presenta una serie de características que hacen que tenga personalidad propia y diferente a otras materias.
En la práctica la gran parte de los modelos y algoritmos que se utilizan normalmente en minería de datos, como son las redes neuronales, la regresión y clasificación, los árboles de decisión, los modelos logísticos, etc., se utilizan ampliamente y desde hace mucho tiempo en muy diferentes campos.
La estadística le presta técnicas y herramientas muy importantes y muy usadas en muchos procesos como son: las series temporales que nos permiten y facilitan el estudio de una variable a través del tiempo, lo que nos ayuda, si no cambia algún factor, a alcanzar un objetivo muy importante como es hacer predicciones.
En ocasiones tendremos necesidad de ver si existen o no diferencias significativas entre variables para lo cual utilizaremos el análisis de la varianza.
También tendremos que recurrir al análisis discriminante que nos ayuda a identificar las características que permiten diferenciar a dos o más grupos de sujetos. También la regresión, el chi cuadrado y el análisis de cluster en los que los grupos, que no hayamos definido previamente, se configurarán por las propias variables que utiliza.
Dicho de otra forma, el análisis de cluster analiza los casos y los va colocando en grupos que podemos considerar homogéneos sin que antes de comenzar el estudio ni siquiera hubiéramos podido intuirlo. Sería, en cierto modo, algo parecido a lo que sucede con los intervalos en los que vamos colocando datos que son muy parecidos o están muy próximos mientras que las diferencias que aparecen de casos mayores o menores nos obligan a introducir estos en otros grupos o intervalos o, siguiendo con la idea que llevamos adelante, van a parar a otros grupos o clúster diferentes.
También hemos mencionado la inteligencia artificial de la cual utilizaríamos los denominados Sistemas Expertos y las Redes Neuronales.
Los sistemas expertos son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos principalmente a base de inferencias o de causa-efecto. Es oportuno comentar que los sistemas expertos, en el campo médico – asistencial son cada vez utilizados con mayor precaución. No hay tiempo para comentar profundamente varios casos de sistemas expertos que funcionando a la perfección los autores no se han atrevido a utilizarlos o comercializarlos por miedo a cualquier fallo que pudiera ser la causa de alguna demanda.
Las redes neuronales son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener ciertos output. Estas salidas se contrastan con las esperadas basándose en unos datos de prueba, dando así lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta que lleguemos a obtener el modelo adecuado.
Un ejemplo clásico, antiguo ya, de aplicación de la minería de datos es el que tiene que ver con la detección de hábitos de compra en supermercados. Este estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se llegó a la conclusión que esto se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión mientras bebían cerveza. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.
Otro ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias, como la banca y la telefonía, etc. existe interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes se les podrían hacer ofertas con el objetivo último de retenerlos. Es sobradamente conocida la famosa “zona azul” de Movistar.
Actualmente la minería de datos se usa en diferentes campos de la medicina.