Análisis de información y minería de datos para la toma de decisiones


datamining

Análisis de información y minería de datos para la toma de decisiones

Proyecto final de minería de datos
Asesor - Jose Orozco Nuñez
César Alejandro Morán Graciano
Licenciatura en Tecnologias de la Informacion
Guadalajara, Jalisco
Fecha: 28 de Noviembre 2025

Sociedad de la información / Sociedad del conocimiento

La sociedad de la información se caracteriza por la disponibilidad masiva de información digital; la sociedad del conocimiento va más allá, transformando esa información en conocimiento útil para decisión mediante procesos analíticos y aprendizaje. En logística, convertir registros operativos en conocimiento permite optimizar rutas, tiempos y recursos.


Inteligencia de negocios (BI)

La Inteligencia de Negocios BI (Business Intelligence) es una herramienta bajo la cual diferentes tipos de organizaciones, pueden soportar la toma de decisiones basadas en información precisa y oportuna; garantizando la generación del conocimiento necesario que permita escoger la alternativa que sea más conveniente para el éxito de la empresa. La investigación comienza con la definición y aplicaciones de BI; además se muestran trabajos relevantes en algunas de las herramientas para hacer BI, como son Data Warehouse (Bodega de Datos), Olap (Cubos Procesamiento Analítico en Línea), Balance Scorecard (Cuadro de Mando) y Data Mining (Minería de Datos).


OLAP

OLAP (Online Analytical Processing) permite consultas multidimensionales sobre datos agregados en cubos y modelos precomputados. Es útil para explorar KPIs por dimensión (tiempo, repartidor, zona), facilitando análisis históricos y comparativos.

Minería de datos y KDD

La minería de datos es la actividad de descubrir patrones en grandes volúmenes de datos. El proceso KDD (Knowledge Discovery in Databases) se divide en etapas: selección de datos relevantes, preprocesamiento (limpieza e imputación), transformación (normalización, discretización), minería (aplicación de algoritmos) y interpretación/evaluación de resultados.

Tareas y técnicas

Las tareas principales incluyen clasificación, regresión, clustering (agrupamiento), asociación (reglas) y detección de anomalías. Técnicas comunes: árboles de decisión, random forest, k-means, regresión logística y reglas de asociación.

Herramientas ETL, Data Warehouse y Data Marts

Las herramientas ETL (Extract, Transform, Load) como Pentaho, Talend o Apache Nifi extraen datos de orígenes operativos, los transforman y cargan en un Data Warehouse. Un DW implementa modelos dimensionales (MOLAP/ROLAP) y se complementa con DataMarts para áreas específicas, facilitando vistas minables.

Vista minable

Una vista minable es un subconjunto o transformación del almacén de datos diseñada para análisis: limpia, con atributos relevantes y bien documentada. Es la fuente que alimenta herramientas de minería como Orange.

Herramientas y técnicas de minería

Herramientas populares: Orange, Weka, RapidMiner, Python (scikit-learn), R. Las técnicas se eligen según la tarea: clasificación para predecir estatus, clustering para segmentación, regresión para tiempos, etc.


El proceso de KDD se organiza en cinco fases que son

La fase de integración y recopilación de datos, aquí se determinan las fuentes de información que pueden ser útiles y dónde conseguirlas. Continua con La fase de selección, limpieza y transformación que se transforman los datos a un formato común, mediante un almacén de datos que consiga unificar de manera operativa toda la información recogida, detectando y resolviendo las inconsistencias, facilitando su uso y manipulación para discernir qué aspectos pueden interesar que sean estudiados, ya que los datos provienen de diferentes fuentes, pueden contener valores erroneos o faltantes. En la fase de minería de datos se decide cuál es la terea a realizar y se elige el método qque se va a utilizar. En la fase de evluación e interpretación se evalúan los patrones y se analizan por los expertos, y si es necesario se vuelve a las fases anteriores para una nueva iteración y finalmente, la fase de difusión se hace uso del nuevo conocimiento y se hace partícipe de él a todos los posibles usuarios.


Tecnicas de Mineria de datos

Tareas predictivas

Clasificación: Es la tarea más utilizada. En ella, cada instancia o registro de la base de datos pertenece a una clase, la cuál se indica mediante el valor de un atributo que llamamos la clase de la instancia.
Regresión: Consiste en aprender una función real que asigna a cada instancia un valor real. El objetivo en este caso es minimizar el error entre el valor predicho y el valor real.

Tareas descriptivas

Agrupamiento: Es la tarea descriptiva por excelencia y consisten en obtener grupo naturales a partir de los datos. Son grupos y no clases, ya que, a diferencia de la clasificación, los datos son agrupados basándose en el principio de maximizar la similitud entre los elementos de un grupo minimizando la similitud entre distintos grupos.

Correlación: Una fórmula estándar para medir la correlación lineal es el coeficiente de correlación r, el cual es un valor real comprendido entre –1 y 1. Si r es 1 las variables están perfectamente correlacionadas mientras que si es 0 no hay correlación. Esto quiere decir que cuando r es positivo, las variables tienen un comportamiento similar y cuando r es negativo si una variable crece la otra decrece.

Reglas de asociación: Pueden ser de muchas formas, aunque la formulación más común es del estilo “si el atributo X toma el valor d entonces el atributo Y toma el valor b”. Las reglas de asociación no implican una relación causa-efecto, es decir, puede no existir una causa para que los datos estén asociados. Este tipo de tarea se utiliza frecuentemente en el análisis de la cesta de la compra, para identificar productos que son frecuentemente comprados juntos, información esta que puede usarse para ajustar los inventarios, para la organización física del almacén o en campañas publicitarias.