misaelerikson
Usuario (Perú)

Asesor y Consultor Estadistisco e Informatico ----> Misael Erikson Maguiña Palma <---- ------> en peru cel: 943451762, Rpm: *698162 <--------- Correo electronico: [email protected] MINERIA DE DATOS Def. “Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés Knowledge Discovery from Databases). “proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”. (Fayyad et al. 1996) Objetivos:• Conocer las características especiales de la extracción automática de conocimiento de bases de datos. • Entender el proceso de extracción de conocimiento, sus fases y sus aplicaciones. • Conocer las técnicas más apropiadas y su adaptación a estos problemas, especialmente clasificación y agrupamiento. • Saber utilizar un paquete de minería de datos para resolver problemas sencillos de extracción de conocimiento. Ejemplo: Para ello trataremos con el data Mart DMCALIDADAGUA. Proporcionado por el Ing. Erick FLORES CHACÓN. Para ello realizaremos los siguientes pasos: Conexión de orígenes de datos (ODBC) para ello nos dirigimos a: Inicio -> panel de control -> Rendimiento y mantenimiento -> Herramientas administrativas -> orígenes de datos (ODBC), mostrándose la siguiente ventana: Luego seleccionamos en el administrador de orígenes de datos ODBC la pestaña DSN de sistema como muestra en la siguiente figura: Luego presionamos en Configurar y tenemos la siguiente ventana: Luego seleccionar Siguiente: Luego seleccionar Siguiente y seleccionamos la base de datos: Y por ultimo presionamos en finalizar y listo. A minerisar se dijo. CONEXIÓN DEL DATA MART Para esta parte utilizaremos los siguientes softwares: • Spss V. 15 en español. • Spss Clementine V. 6.5 en español. Con estas 3 herramientas realizaremos los análisis correspondientes de la información, para ello organizaremos la información en el Spss 15 ya que en esta versión nos ayuda a organizar mejor la información almacenada en Bases de Datos, no obviando. Las relaciones que se tiene (trabaja con toda la base de datos). Mientras que solo el Spss Clementine solo trabaja con una solo tabla y etiquetándola respectivamente. PROCEDIMIENTOS: 1. Cargamos el Spss 15 en nuestro ordenador: 2. Luego seleccionamos Crear una nueva consulta mediante el Asistente de base de datos. Y le damos aceptar. 3. Luego Seleccionamos -> LocalServer -> Siguiente. 4. Luego Seleccionamos ya arrastramos las tablas: dbo.Dim_Tiempo, dbo.Dim_Estacion, dbo.Dim_Ubigeo, dbo.TH_CalidadAgua. De izquierda a derecha. Le damos siguiente. 5. Luego si el procedimiento está bien hecho me nos mostrara las tablas relacionas tal como se muestra la imagen. Presionamos siguiente. 6. Luego siguiente -> siguiente -> Introducimos el criterio de consulta y Finalizar, listos para minerisar ahora ya podemos nosotros empezar a realizar los análisis correspondientes. 7. Una vez con la base de datos en el Spss 15 podemos importarla des de el clementine de la siguiente manera: Origenes ->import. Spss -> Definir archivo -> Establecer -> Aceptar. Y preparado para el análisis. EXPLOTACIÓN DE LA INFORMACIÓN Una vez terminado los procedimientos anteriores, solo queda explotar la información. Para tal motivo utilizaremos el Software estadístico: ] Para esto necesitamos realizar el paso 7 de lo explicado anteriormente. Luego queda mostrar en el clementine los datos. Seguidamente realizaremos los reportes de estadísticas descriptivas para algunas de las variables en estudio. Como podemos observar existen 170 observaciones recolectadas para los minerales de FE y MN. Mientras que 171 para el CU. Existe una relación con la presencia de FE y MN a lo largo del RIO SANTA. Si nuestro objetivo fuera determinar la Presencia de FE por Distrito y provincia seria: Si queremos determinar por trimestre y mes la presencia de FE seria de: Para este caso utilizaremos la base de datos guardada anteriormente. Nos ubicamos en Analizar -> tablas ->Tablas personalizadas.. -> Aceptar, y definimos como queremos que se nos muestre la información deseada. Por ejemplo: se quiere saber el nivel de MN definimos de la siguiente manera en el Spss. Luego presionamos Aceptar y ya tenemos el resultado. Y Así podemos nosotros seguir realizando el análisis correspondiente para determinar la presencia de los demás minerales por diferentes tipos - Lo que nos lleva a preguntarnos que si el promedio de FE , MN CU en el año 2003 es igual al de 2004. - Para ello realizamos el análisis de normalidad de los 2 grupos de 2003 y del 2004. Para el 2003: Para el 2004: La prueba relacionada seria de - para el análisis de varianza se tiene y la prueba correspondiente es: CONCLUSIONES a) Con el correcto uso de las bases de datos se pueden tomar decisiones correctas en tiempos oportunos. b) La correcta utilización del software estadístico enlazadados a las bases de datos de las organizaciones contribuyen al éxito de la empresa. c) La aplicación de la minería de datos en las empresas ase que la mejore sus procesos productivos en tiempo reales. BIBLIOGRAFIA - José Hernández Orallo “ Laboratorio de investigación con Clementine” Noviembre del 2002. - Rufino Moya Calderon “ Estadística descriptiva” Primera Edicion 1991. - Máximo Villón Béjar “ Hidrología Estadística” junio del 2001.