DataLake
Publicado: Vie Jun 05, 2026 9:07 pm
Hola,
Quiero compartirles mis avances.
Llega a un momento que almacenamos mucha informacion con los clientes, y que en muchas ocaciones borramos
tanto de las bases de datos como archivos para que nuestros sistemas puedan seguir funcionado de manera rapida.
( No sin antes respaldar todo )
Y aparte nuestros clientes nos piden informacion para hacer analisis estadisticos y debemos tomar datos historicos, datos que ya no
estan en nuestras bases de datos.
Aqui es cuando el concepto Datalake entra en juego.
Como dato, tengo una tabla de 104 Millones de registros, en mariaDB , la misma tabla en Postgresql y la misma tabla
migrada al Datalake.
Un query como este:
SELECT
idproveed,
COUNT(*) as total_articulos,
AVG(precio) as precio_promedio,
MIN(fecha) as primera_fecha,
MAX(fecha) as ultima_fecha
FROM lstpre
GROUP BY idproveed
ORDER BY total_articulos DESC
En MariaDB Local se tardo 3m 53s
En Postgresql local se tardo 17s
En Trino local se tardo 2.197s
Todo mi ambiente de pruebas esta en una computadora con 32gb memoria, 2Tb nvme y un AMD Ryzen 5700g ( 8 Nucles fisicos,16 procesadores logicos ), usando LinuxMint
Esta semana quiero instalar dos nodos ( dos computadoras viejas ) al Datalake, para ver si el aumento de procesamiento y velocidad.
Las ventajas de tener un DataLake son enormes, Ojo, eso no es para sustituir lo que esta en vivo, esto es para analisis.
Y tambien, no es para subir todo al Datalake, hay que seguir ciertas reglas como son las del ETL.
Anexo un par de imagenes
1.- Caracteristicas del la computadora
2.- Un pantalla de como se ve cuando estaba migrando de MariaDB a PostgreSQL
3.- Herramientas que componen mi datalake
Estare comentado mis avances ...
Saludos a todos!
Osvaldo Ramirez
Quiero compartirles mis avances.
Llega a un momento que almacenamos mucha informacion con los clientes, y que en muchas ocaciones borramos
tanto de las bases de datos como archivos para que nuestros sistemas puedan seguir funcionado de manera rapida.
( No sin antes respaldar todo )
Y aparte nuestros clientes nos piden informacion para hacer analisis estadisticos y debemos tomar datos historicos, datos que ya no
estan en nuestras bases de datos.
Aqui es cuando el concepto Datalake entra en juego.
Como dato, tengo una tabla de 104 Millones de registros, en mariaDB , la misma tabla en Postgresql y la misma tabla
migrada al Datalake.
Un query como este:
SELECT
idproveed,
COUNT(*) as total_articulos,
AVG(precio) as precio_promedio,
MIN(fecha) as primera_fecha,
MAX(fecha) as ultima_fecha
FROM lstpre
GROUP BY idproveed
ORDER BY total_articulos DESC
En MariaDB Local se tardo 3m 53s
En Postgresql local se tardo 17s
En Trino local se tardo 2.197s
Todo mi ambiente de pruebas esta en una computadora con 32gb memoria, 2Tb nvme y un AMD Ryzen 5700g ( 8 Nucles fisicos,16 procesadores logicos ), usando LinuxMint
Esta semana quiero instalar dos nodos ( dos computadoras viejas ) al Datalake, para ver si el aumento de procesamiento y velocidad.
Las ventajas de tener un DataLake son enormes, Ojo, eso no es para sustituir lo que esta en vivo, esto es para analisis.
Y tambien, no es para subir todo al Datalake, hay que seguir ciertas reglas como son las del ETL.
Anexo un par de imagenes
1.- Caracteristicas del la computadora
2.- Un pantalla de como se ve cuando estaba migrando de MariaDB a PostgreSQL
3.- Herramientas que componen mi datalake
Estare comentado mis avances ...
Saludos a todos!
Osvaldo Ramirez