top of page

La minería de datos y los tipos de repositorios
(Data Lake y Data Warehouse)

La minería de datos son un conjunto de técnicas y tecnologías que exploran grandes bases de datos, de manera automática o semiautomática, con la finalidad de encontrar patrones que expliquen el comportamiento que están presentando.

El principal objetivo de aplicar la minera de datos es hacer un filtrado y obtener información de valor, la cual pueda ser utilizada para tomar decisiones de negocio, y con esto lograr la mejora y crecimiento de las empresas, a través de todos los datos recopilados y analizados.

¿Qué herramientas son últiles para realizar minería de datos?

Algunas de las herramientas que pueden ayudar a las empresas a realizar minería de datos son:

SPSS(IBM), Cognos (IBM) Oracle Data mining, Spark, Python, R entre otras.

mineria de datos.jpg

¿Qué es un Data Lake?

Un data lake es un método para almacenar datos en un repositorio (lugar de almacenamiento de información) que contienen una gran cantidad de datos en bruto y que se mantienen allí hasta que sea necesario. A diferencia de un data warehouse que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana para almacenar los datos.

data lake.jpg

A cada elemento de un data lake se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos. Una empresa que almacena datos a través de un data lake se caracteriza generalmente por almacenar todos los datos independientemente de que estén estructurados o no, todos estos se encuentran en bruto, sin ninguna organización, para analizarlos posteriormente.

¿Qué herramientas son usadas para el manejo de Data Lake?

Algunas de las herramientas usadas para el manejo de data lake son: Azure data lake, Pivotal, Snowflake, Apache Spark, Amazon Storage Services S3, Presto, entre otros.

¿Qué es un Data Warehouse?

Un data warehouse es un repositorio unificado para todos los datos en su mayoría estructurados que recogen los diversos sistemas dentro de una empresa. El repositorio puede ser físico o lógico obteniendo datos de diversas fuentes, sobre todo para fines analíticos y de acceso.

Normalmente, un data warehouse se aloja en un servidor corporativo o cada vez más empresas optan por la nube. Los datos se obtienen de diferentes aplicaciones de procesamiento de transacciones, posteriormente estos se extraen para uso en aplicaciones analíticas y de consultas por usuarios.

¿Qué plataformas son usadas para el manejo de Data Warehouse?

Algunas de las principales plataformas para data warehouse son: Azure SQL data warehouse, Amazon Redshift, Amazon DynamoDB, Amazon RDS, IBM DB2, Teradata

data warehouse.jpg
bottom of page