Procesamiento de datos en la nube con DuckDB y AWS S3

Tutoriales

AWS

DuckDb es una poderosa base de datos en memoria que cuenta con una función de procesamiento en paralelo, lo que la convierte en una buena opción para leer/transformar datos de almacenamiento en la nube, en este caso, AWS S3. He tenido mucho éxito utilizándola y te guiaré a través de los pasos para implementarla.

También incluiré algunos aprendizajes y mejores prácticas para ti. Usando la DuckDb, la extensión httpfs y pyarrow, podemos procesar de manera eficiente archivos Parquet almacenados en buckets de S3. Vamos a profundizar:

Antes de comenzar la instalación de DuckDb, asegúrate de tener estos requisitos previos:

Python 3.9 o superior instalado
Conocimiento previo sobre configurar proyectos de Python y entornos virtuales o entornos conda

Instalando Dependencias

Primero, establezcamos el entorno necesario:

Shell

# Install required packages for cloud integration

pip install "duckdb>=0.8.0" pyarrow pandas boto3 requests

Las dependencias explicadas:

duckdb>=0.8.0: El motor de base de datos principal que proporciona funcionalidad SQL y procesamiento en memoria
pyarrow: Maneja operaciones de archivos Parquet de manera eficiente con soporte para almacenamiento en columnas
pandas: Habilita potentes capacidades de manipulación y análisis de datos
boto3: SDK de AWS para Python, que proporciona interfaces a los servicios de AWS
requests: Gestiona las comunicaciones HTTP para interacciones en la nube

Configuración de acceso seguro a la nube

Python

import duckdb

import os

​

# Initialize DuckDB with cloud support

conn = duckdb.connect(':memory:')

conn.execute("INSTALL httpfs;")

conn.execute("LOAD httpfs;")

​

# Secure AWS configuration

conn.execute("""

    SET s3_region='your-region';

    SET s3_access_key_id='your-access-key';

    SET s3_secret_access_key='your-secret-key';

""")

Este código de inicialización realiza varias cosas importantes:

Crea una nueva conexión DuckDB en memoria usando :memory:
Instala y carga la extensión del sistema de archivos HTTP (httpfs) que permite el acceso al almacenamiento en la nube
Configura las credenciales de AWS con su región específica y claves de acceso
Establece una conexión segura a los servicios de AWS

Procesamiento de archivos Parquet de AWS S3

Veamos un ejemplo completo de procesamiento de archivos Parquet con enmascaramiento de datos sensibles:

Python

import duckdb

import pandas as pd

​

# Create sample data to demonstrate parquet processing

sample_data = pd.DataFrame({

    'name': ['John Smith', 'Jane Doe', 'Bob Wilson', 'Alice Brown'],

    'email': ['[email protected]', '[email protected]', '[email protected]', '[email protected]'],

    'phone': ['123-456-7890', '234-567-8901', '345-678-9012', '456-789-0123'],

    'ssn': ['123-45-6789', '234-56-7890', '345-67-8901', '456-78-9012'],

    'address': ['123 Main St', '456 Oak Ave', '789 Pine Rd', '321 Elm Dr'],

    'salary': [75000, 85000, 65000, 95000]  # Non-sensitive data

})

Esta creación de datos de muestra nos ayuda a demostrar técnicas de enmascaramiento de datos. Incluimos varios tipos de información sensible que se encuentran comúnmente en conjuntos de datos del mundo real:

Identificadores personales (nombre, SSN)
Información de contacto (correo electrónico, teléfono, dirección)
Datos financieros (salario)

Ahora, veamos la función de procesamiento:

Python

def demonstrate_parquet_processing():

    # Create a DuckDB connection

    conn = duckdb.connect(':memory:')

    # Save sample data as parquet

    sample_data.to_parquet('sample_data.parquet')

    # Define sensitive columns to mask

    sensitive_cols = ['email', 'phone', 'ssn']

    # Process the parquet file with masking

    query = f"""

    CREATE TABLE masked_data AS

    SELECT 

        -- Mask name: keep first letter of first and last name

        regexp_replace(name, '([A-Z])[a-z]+ ([A-Z])[a-z]+', '\1*** \2***') as name,

        -- Mask email: hide everything before @

        regexp_replace(email, '([a-zA-Z0-9._%+-]+)(@.*)', '****\2') as email,

        -- Mask phone: show only last 4 digits

        regexp_replace(phone, '[0-9]{3}-[0-9]{3}-', '***-***-') as phone,

        -- Mask SSN: show only last 4 digits

        regexp_replace(ssn, '[0-9]{3}-[0-9]{2}-', '***-**-') as ssn,

        -- Mask address: show only street type

        regexp_replace(address, '[0-9]+ [A-Za-z]+ ', '*** ') as address,

        -- Keep non-sensitive data as is

        salary

    FROM read_parquet('sample_data.parquet');

    """

Desglosemos esta función de procesamiento:

Creamos una nueva conexión DuckDB
Convertimos nuestro DataFrame de muestra en un archivo Parquet
Definimos qué columnas contienen información sensible
Cree una consulta SQL que aplique diferentes patrones de enmascaramiento:
- Nombres: Preserva las iniciales (por ejemplo, “John Smith” → “J*** S***”)
- Correos electrónicos: Oculta la parte local manteniendo el dominio (por ejemplo, “” → “****@email.com”)
- Números de teléfono: Muestra solo los últimos cuatro dígitos
- SSNs: Muestra solo los últimos cuatro dígitos
- Direcciones: Conserva solo el tipo de calle
- Salario: Se mantiene sin enmascarar como datos no sensibles

La salida debe lucir así:

Plain Text

Original Data:

=============

         name                   email           phone          ssn        address  salary

0  John Smith    [email protected]   123-456-7890  123-45-6789   123 Main St   75000

1   Jane Doe    [email protected]   234-567-8901  234-56-7890   456 Oak Ave   85000

2  Bob Wilson         [email protected]     345-678-9012  345-67-8901   789 Pine Rd   65000

3 Alice Brown      [email protected]     456-789-0123  456-78-9012   321 Elm Dr    95000

Masked Data:

===========

      name                email           phone          ssn     address  salary

0  J*** S***    ****@email.com     ***-***-7890  ***-**-6789   *** St   75000

1  J*** D***  ****@company.com     ***-***-8901  ***-**-7890   *** Ave   85000

2  B*** W***      ****@email.net   ***-***-9012  ***-**-8901   *** Rd   65000

3  A*** B***      ****@org.com     ***-***-0123  ***-**-9012   *** Dr    95000

Ahora, exploremos diferentes patrones de enmascaramiento con explicaciones en los comentarios de los fragmentos de código de Python:

Variaciones de Enmascaramiento de Correo Electrónico

Python

# Show first letter only

"[email protected]" → "j***@email.com"

​

# Show domain only

"[email protected]" → "****@email.com"

​

# Show first and last letter

"[email protected]" → "j*********[email protected]"

Enmascaramiento de Números de Teléfono

Python

# Last 4 digits only

"123-456-7890" → "***-***-7890"

​

# First 3 digits only

"123-456-7890" → "123-***-****"

​

# Middle digits only

"123-456-7890" → "***-456-****"

Enmascaramiento de Nombres

Python

# Initials only

"John Smith" → "J.S."

​

# First letter of each word

"John Smith" → "J*** S***"

​

# Fixed length masking

"John Smith" → "XXXX XXXXX"

Procesamiento Eficiente de Datos Particionados

Cuando se trata de conjuntos de datos grandes, la partición se vuelve crucial. Así es cómo manejar datos particionados de manera eficiente:

Python

def process_partitioned_data(base_path, partition_column, sensitive_columns):

    """

    Process partitioned data efficiently

    Parameters:

    - base_path: Base path to partitioned data

    - partition_column: Column used for partitioning (e.g., 'date')

    - sensitive_columns: List of columns to mask

    """

    conn = duckdb.connect(':memory:')

    try:

        # 1. List all partitions

        query = f"""

        WITH partitions AS (

            SELECT DISTINCT {partition_column}

            FROM read_parquet('{base_path}/*/*.parquet')

        )

        SELECT * FROM partitions;

        """

Esta función demuestra varios conceptos importantes:

Descubrimiento de partición dinámica
Procesamiento eficiente de la memoria
Manejo de errores con limpieza adecuada
Generación de salida de datos enmascarados

La estructura de partición típicamente se ve así:

Estructura de partición

Plain Text

sample_data/

├── date=2024-01-01/

│   └── data.parquet

├── date=2024-01-02/

│   └── data.parquet

└── date=2024-01-03/

    └── data.parquet

Datos de muestra

Plain Text

Original Data:

date        customer_id  email              phone           amount

2024-01-01  1           [email protected]    123-456-0001    500.00

2024-01-01  2           [email protected]    123-456-0002    750.25

...

Masked Data:

date        customer_id  email     phone        amount

2024-01-01  1           ****      ****         500.00

2024-01-01  2           ****      ****         750.25

A continuación se presentan algunos beneficios del procesamiento particionado:

Reducción de la huella de memoria
Capacidad de procesamiento paralelo
Rendimiento mejorado
Manejo escalable de datos

Técnicas de optimización de rendimiento

1. Configuración de procesamiento paralelo

Python

# Optimize for performance

conn.execute("""

    SET partial_streaming=true;

    SET threads=4;

    SET memory_limit='4GB';

""")

Estas configuraciones:

Permiten la transmisión parcial para una mejor gestión de la memoria
Establecen los hilos de procesamiento paralelo
Definen límites de memoria para prevenir desbordamientos

2. Manejo de errores robusto

Python

def robust_s3_read(s3_path, max_retries=3):

    """

    Implement reliable S3 data reading with retries.

    Parameters:

    - s3_path: Path to S3 data

    - max_retries: Maximum retry attempts

    """

    for attempt in range(max_retries):

        try:

            return conn.execute(f"SELECT * FROM read_parquet('{s3_path}')")

        except Exception as e:

            if attempt == max_retries - 1:

                raise

            time.sleep(2 ** attempt)  # Exponential backoff

Este bloque de código demuestra cómo implementar reintentos y lanzar excepciones cuando sea necesario para tomar medidas proactivas.

3. Optimización de almacenamiento

Python

# Efficient data storage with compression

conn.execute("""

    COPY (SELECT * FROM masked_data)

    TO 's3://output-bucket/masked_data.parquet'

    (FORMAT 'parquet', COMPRESSION 'ZSTD');

""")

Este bloque de código demuestra la aplicación de un tipo de compresión de almacenamiento para optimizar el almacenamiento.

Mejores prácticas y recomendaciones

Mejores prácticas de seguridad

La seguridad es crucial al manejar datos, especialmente en entornos de nube. Seguir estas prácticas ayuda a proteger la información sensible y mantener el cumplimiento:

Roles de IAM. Utilice roles de identidad y acceso de AWS en lugar de claves de acceso directo cuando sea posible
Rotación de claves. Implementar la rotación regular de claves de acceso
Principio de menor privilegio. Conceder los permisos mínimos necesarios
Monitoreo de acceso. Revisar y auditar regularmente los patrones de acceso

Por qué es importante: Las brechas de seguridad pueden llevar a filtraciones de datos, violaciones de cumplimiento y pérdidas financieras. Las medidas de seguridad adecuadas protegen tanto a su organización como a los datos de sus usuarios.

Optimización de rendimiento

La optimización del rendimiento garantiza una utilización eficiente de los recursos y un procesamiento de datos más rápido:

Tamaño de la partición. Elegir tamaños de partición adecuados según el volumen de datos y los patrones de procesamiento
Procesamiento paralelo. Utilizar múltiples hilos para un procesamiento más rápido
Gestión de memoria. Monitorear y optimizar el uso de la memoria
Optimización de consultas. Estructurar las consultas para obtener la máxima eficiencia

Por qué es importante: Un rendimiento eficiente reduce el tiempo de procesamiento, ahorra recursos computacionales y mejora la confiabilidad general del sistema.

Manejo de errores

Un manejo de errores sólido garantiza un procesamiento confiable de los datos:

Mecanismos de reintento. Implementar un retroceso exponencial para operaciones fallidas
Registros exhaustivos. Mantener registros detallados para la depuración
Monitoreo de estado. Seguir el progreso del procesamiento
Casos excepcionales. Manejar escenarios de datos inesperados

Por qué es importante: Un manejo adecuado de errores evita la pérdida de datos, garantiza la completitud del procesamiento y facilita la solución de problemas.

Conclusión

El procesamiento de datos en la nube con DuckDB y AWS S3 ofrece una poderosa combinación de rendimiento y seguridad. ¡Avísame cómo va tu implementación de DuckDB! manejo de errores

Source:
https://dzone.com/articles/processing-cloud-data-duckdb-aws