miércoles, 8 de mayo de 2013

Retomando Datawarehouse

Para volver al tema, leamos el excelente resumen contenido en este blog de Bussiness Inteligence http://estudiandobi.blogspot.com.ar/2007/11/data-warehouse-en-profundidad.html

Vamos al tema en el que quedamos "trabados" la clase anterior: Modelado de datos

Vimos que un Data Mining (traducido como “minería de datos”) es un conjunto de tecnologías (o herramientas) capaces de analizar la información almacenada en un Data Warehouse y capaces de ayudar a descubrir relaciones insospechadas, tendencias, modelos de comportamiento o correlaciones entre los datos contenidos en el DataWarehouse.


Estos modelos se obtendrán a partir de información que se presente estructurada, bajo la forma de filas y columnas. Cada fila contendrá un registro de la base de datos. Cada columna representa una variable. Por ejemplo, para un archivo de alumnos se podrá definir un conjunto de características que serán distintas para los varones y para las mujeres.

Analizaremos un caso: supongamos que en una universidad se encare un proyecto para determinar si existe
correlación de alumnos aprobados entre las materias denominadas correlativas. Supongamos también que
durante un cuatrimestre de dicten las siguientes materias: Programación, Sistemas Administrativos, Teoría de
Sistemas, Sistemas Operativos y Base de Datos, y que las materias correlativas sean Programación y Base de Datos. Por último, que los registros de notas expresen que en ese cuatrimestre sólo cuatro alumnos (A, B, C, y D) cursaron las cinco materias y que los resultados fueron los siguientes:

El alumno A aprobó Programación, Sistemas Administrativos, Sistemas Operativos y Base de Datos.
El alumno B aprobó Programación y Base de Datos.
El alumno C aprobó Programación, Sistemas Administrativos, Teoría de Sistemas y Base de Datos.
El alumno D aprobó Sistemas Operativos.


Para descubrir la posibilidad de correlación entre materias aprobadas, se deberá estructurar la información
bajo una forma matricial (cada celda indicará si la materia fue aprobada o no).




No obstante la conclusión anterior, será necesario considerar dos aspectos:

a. Volumen de datos analizados:

Cuando el volumen de datos es significativo, los procesos de Data Warehousing y de Data Mining
llevan tiempo y requieren potencia (máquinas servidoras de envergadura). Una manera de reducir ese
volumen es procesando muestras por medio de técnicas que brinda la Estadística, y agrupando datos
contenidos en las bases de datos. Debe observarse que trabajar con muestreo implica correr el riesgo
de que la muestra no sea realmente representativa del total de información existente, pues el proceso
puede ocultar nichos de datos no detectables solamente con muestras. Lo mismo ocurre con técnicas
de agregación. Por ejemplo, en una investigación de mercado en el que la estadística se refleja
tomando como unidad de tiempo la semana, pueden no detectarse diferencias significativas entre el
volumen de ventas de los primeros días y los últimos de la semana.

b. Validación de los modelos descubiertos:

Si se formularon hipótesis a través de la aplicación de herramientas de Data Mining, es necesario
validar los modelos descubiertos mediante pruebas con el ingreso de nuevos datos que confirmen los
resultados previamente obtenidos. Las pruebas de validez permitirán asegurar la calidad de los
conocimientos extraídos.

Fuente: http://es.pdfsb.com/readonline/5a564e466641462b57584636436e786e55554d3d


No hay comentarios:

Publicar un comentario

Los comentarios serán moderados antes de mostrarse. De ser posible, omitir mensajes anónimos.