La minería de datos es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
Básicamente, la minería de datos surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.
se suele componer de cuatro etapas principales:
Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en minería de datos.
Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de minería de datos.
Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
Técnicas de la minería de datos
Las técnicas de minería de datos provienen de la inteligencia artificial y de la propia estadística. Se trata de algoritmos que se aplican sobre un conjunto de datos con el objetivo de obtener resultados.
Las técnicas de minería de datos más representativas que se utilizan son:
Las redes neuronales
Se trata de un paradigma de aprendizaje y de un procesamiento automatizado que se encuentra inspirado en la manera que funciona el sistema nervioso de los animales.
Es un sistema que permite interconectar las neuronas en una red (red neuronal) que presta colaboración para la producción de estímulos de salida.
Entre los ejemplos de las redes neuronales se pueden mencionar:
La perceptrón (tipo de red neuronal artificial)
La perceptrón multicapas
Los mapas autoorganizados
La regresión lineal
Es una de las técnicas más utilizadas para la formación de relaciones entre datos. Se trata de un sistema rápido y eficaz pero que a su vez cuenta con insuficiencias en los espacios multidisciplinarios donde puedan relacionarse más de 2 variables.
Los árboles de decisión
Se trata de un modelo de predicción que se utiliza en el campo de la inteligencia artificial a partir de una base de datos en donde se construyen los diagramas de construcciones lógicas. Es un sistema similar a la predicción que está basado en reglas que sirven para la representación de una serie de condiciones que se presentan de manera sucesiva en la resolución de problemas.
Los modelos estadísticos
Se trata de una expresión simbólica en forma de igualdad que es empleada en los diseños experimentales y en la regresión, con la intención de identificar los factores que modifican la variable de respuesta
El agrupamiento
Consiste en la agrupación de una serie de vectores según determinados criterios que habitualmente son a distancia. Se trata de la disposición de los vectores de entrada de manera que estén más cercanos a los que tengan características comunes.
Según el objetivo que tenga la realización del análisis los algoritmos se pueden clasificar como algoritmos supervisados, que predicen un dato desconocido inicialmente a partir de otros datos que son de conocimiento previo. Y los algoritmos no supervisados, los cuales descubren patrones y tendencias que se presentan los datos.
Microsoft SQL Server Analysis Servicies proporciona las siguientes herramientas de minería de datos que puede utilizar para crear soluciones:
El Asistente para minería de datos de SQL Server Data Tools (SSDT) facilita la creación de estructuras y de modelos de minería de datos, usando orígenes de datos relacionales o datos multidimensionales en cubos.
En el asistente, elija los datos que desee utilizar y, a continuación, aplique técnicas de minería de datos específicas, como agrupación en clústeres, redes neurales o modelado de series temporales. y disponen de SQL Server Management Studio visores de modelos SQL Server Data Tools (SSDT)para explorar los modelos de minería de datos una vez creados. Puede examinar los modelos mediante visores adaptados a cada algoritmo o analizar con mayor profundidad utilizando el visor de contenido del modelo.
El Generador de consultas de predicción se proporciona en SQL Server Management Studio y SQL Server Data Tools (SSDT) para ayudarle a crear consultas de predicción. También puede probar la exactitud de los modelos respecto a un conjunto de datos de exclusión o datos externos, o utilizar validación cruzada para evaluar la calidad del conjunto de datos.
SQL Server Management Studio es la interfaz en la que administra las soluciones de minería de datos implementadas en una instancia de Analysis Services. Puede volver a procesar las estructuras y modelos para actualizar los datos que contienen.
SQL Server Integration Services contiene herramientas que puede utilizar para limpiar datos, automatizar tareas como la creación de predicciones y actualización de modelos y para crear soluciones de minería de datos de texto.
Comments