Privacy e Sicurezza dei Dati: Una Guida per Sviluppatori su Come Gestire Dati Sensibili con DuckDB

Tutorial

SQL

Comprendere DuckDB per la Privacy e la Sicurezza dei Dati

La privacy e la sicurezza dei dati sono diventate fondamentali per tutte le organizzazioni in tutto il mondo. Le organizzazioni devono spesso identificare, mascherare o rimuovere informazioni sensibili dai loro set di dati mantenendo l’utilità dei dati. Questo articolo esplora come sfruttare DuckDB, un database analitico in-process, per un’efficiente remediation dei dati sensibili.

Perché DuckDB? (E perché dovresti interessartene?)

Pensa a DuckDB come al cugino analiticamente dotato di SQLite. È un database incorporato che funziona direttamente nel tuo processo, ma è specificamente progettato per gestire carichi di lavoro analitici. Cosa lo rende perfetto per la remediation dei dati? Beh, immagina di poter elaborare grandi set di dati con una velocità fulminea, senza dover configurare un complicato server di database. Suona bene, giusto?

Ecco cosa rende DuckDB particolarmente eccezionale per il nostro caso d’uso:

È incredibilmente veloce grazie al suo storage orientato alle colonne.
Puoi eseguirlo direttamente nel tuo ambiente Python esistente.
Gestisce più formati di file come se niente fosse.
Si integra bene con lo storage cloud (ne parleremo più avanti).

In questa guida, utilizzerò Python insieme a DuckDB. DuckDB supporta anche altri linguaggi, come menzionato nella loro documentazione.

Iniziare con DuckDB per la Privacy dei Dati

Requisiti

Python 3.9 o superiore installato
Conoscenza pregressa della configurazione di progetti Python e ambienti virtuali o ambienti Conda

Installa DuckDB all’interno di un ambiente virtuale eseguendo il seguente comando:

Shell

pip install duckdb --upgrade

Ora che hai installato DuckDB, creiamo una connessione DuckDB:

Python

import duckdb

import pandas as pd

​

# Create a DuckDB connection - it's this simple!

conn = duckdb.connect(database=':memory:')

Tecniche Avanzate di Mascheramento dei Dati PII

Ecco come implementare un robusto mascheramento PII (Informazioni Personali Identificabili):

Diciamo che hai un dataset pieno di informazioni sui clienti che deve essere ripulito. Ecco come puoi gestire scenari comuni.

Creiamo dati di esempio:

SQL

CREATE TABLE customer_data AS 

SELECT 

    'John Doe' as name,

    '123-45-6789' as ssn,

    '[email protected]' as email,

    '123-456-7890' as phone;

Questo crea una tabella chiamata customer_data con una riga di dati sensibili di esempio.
I dati includono un nome, SSN, email e numero di telefono.

La seconda parte coinvolge mascherare i modelli utilizzando regexp_replace:

SQL

-- Implement PII masking patterns

CREATE TABLE masked_data AS

SELECT 

    regexp_replace(name, '[a-zA-Z]', 'X') as masked_name,

    regexp_replace(ssn, '[0-9]', '*') as masked_ssn,

    regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email,

    regexp_replace(phone, '[0-9]', '#') as masked_phone

FROM customer_data;

Lasciami spiegarti cosa fa il codice SQL sopra.

regexp_replace(name, '[a-zA-Z]', 'X')
- Sostituisce tutte le lettere (maiuscole e minuscole) con 'X'
- Esempio: "John Doe" diventa "XXXX XXX"
regexp_replace(ssn, '[0-9]', '*') as masked_ssn
- Sostituisce tutti i numeri con '*'
- Esempio: "123-45-6789" diventa "--***"
regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email:
- (^[^@]+) cattura tutto prima del simbolo @
- (@.*$) cattura il @ e tutto ciò che segue
- Sostituisce la prima parte con '****' e mantiene la parte del dominio
- Esempio: "" diventa "****@email.com"
regexp_replace(phone, '[0-9]', '#') as masked_phone:
- Sostituisce tutte le cifre con '#'
- Esempio: "123-456-7890" diventa "###-###-####"

Quindi i tuoi dati vengono trasformati come segue:

Dati originali:

name: John Doe
ssn: 123-45-6789
email: [email protected]
phone: 123-456-7890

Dati mascherati:

masked_name: XXXX XXX
masked_ssn: ***-**-****
masked_email: ****@email.com
masked_phone: ###-###-####

Implementazione Python

Python

import duckdb

import pandas as pd

​

def mask_pii_data():

    # Create a DuckDB connection in memory

    conn = duckdb.connect(database=':memory:')

    try:

        # Create and populate sample data

        conn.execute("""

            CREATE TABLE customer_data AS 

            SELECT 

                'John Doe' as name,

                '123-45-6789' as ssn,

                '[email protected]' as email,

                '123-456-7890' as phone

        """)

        # Implement PII masking

        conn.execute("""

            CREATE TABLE masked_data AS

            SELECT 

                regexp_replace(name, '[a-zA-Z]', 'X') as masked_name,

                regexp_replace(ssn, '[0-9]', '*') as masked_ssn,

                regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email,

                regexp_replace(phone, '[0-9]', '#') as masked_phone

            FROM customer_data

        """)

        # Fetch and display original data

        print("Original Data:")

        original_data = conn.execute("SELECT * FROM customer_data").fetchdf()

        print(original_data)

        print("\n")

        # Fetch and display masked data

        print("Masked Data:")

        masked_data = conn.execute("SELECT * FROM masked_data").fetchdf()

        print(masked_data)

        return original_data, masked_data

    except Exception as e:

        print(f"An error occurred: {str(e)}")

        return None, None

    finally:

        # Close the connection

        conn.close()

Redazione dei dati basata su regole

Lasciami spiegare la redazione dei dati in termini semplici prima di approfondire gli aspetti tecnici.

La redazione dei dati è il processo di nascondere o rimuovere informazioni sensibili da documenti o database, preservando la struttura complessiva e il contenuto non sensibile. Pensala come usare un evidenziatore nero per nascondere informazioni riservate su un documento stampato, ma in forma digitale.

Implementiamo ora la Redazione dei Dati con DuckDB e Python. Ho aggiunto questo frammento di codice con commenti in modo che tu possa seguire facilmente.

Python

import duckdb

import pandas as pd

​

def demonstrate_data_redaction():

    # Create a connection

    conn = duckdb.connect(':memory:')

    # Create sample data with various sensitive information

    conn.execute("""

        CREATE TABLE sensitive_info AS SELECT * FROM (

            VALUES

                ('John Doe', '[email protected]', 'CC: 4532-1234-5678-9012', 'Normal text'),

                ('Jane Smith', '[email protected]', 'SSN: 123-45-6789', 'Some notes'),

                ('Bob Wilson', '[email protected]', 'Password: SecretPass123!', 'Regular info'),

                ('Alice Brown', '[email protected]', 'API_KEY=abc123xyz', 'Basic text')

            ) AS t(name, email, sensitive_field, normal_text);

    """)

    # Define redaction rules

    redaction_rules = {

        'email': r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}',  # Email pattern

        'sensitive_field': r'(CC:\s*\d{4}[-\s]?\d{4}[-\s]?\d{4}[-\s]?\d{4}|SSN:\s*\d{3}-\d{2}-\d{4}|Password:\s*\S+|API_KEY=\S+)',  # Various sensitive patterns

        'name': r'[A-Z][a-z]+ [A-Z][a-z]+'  # Full name pattern

    }

    # Show original data

    print("Original Data:")

    print(conn.execute("SELECT * FROM sensitive_info").fetchdf())

    # Apply redaction

    redact_sensitive_data(conn, 'sensitive_info', redaction_rules)

    # Show redacted data

    print("\nRedacted Data:")

    print(conn.execute("SELECT * FROM redacted_data").fetchdf())

    return conn

​

def redact_sensitive_data(conn, table_name, rules):

    """

    Redact sensitive data based on specified patterns.

    Parameters:

    - conn: DuckDB connection

    - table_name: Name of the table containing sensitive data

    - rules: Dictionary of column names and their corresponding regex patterns to match sensitive data

    """

    redaction_cases = []

    # This creates a CASE statement for each column

    # If the pattern matches, the value is redacted

    # If not, the original value is kept

    for column, pattern in rules.items():

        redaction_cases.append(f"""

            CASE 

                WHEN regexp_matches({column}, '{pattern}') 

                THEN '(REDACTED)' 

                ELSE {column} 

            END as {column}

        """)

    query = f"""

    CREATE TABLE redacted_data AS

    SELECT 

        {', '.join(redaction_cases)}

    FROM {table_name};

    """

    conn.execute(query)

​

# Example with custom redaction patterns

def demonstrate_custom_redaction():

    conn = duckdb.connect(':memory:')

    # Create sample data

    conn.execute("""

        CREATE TABLE customer_data AS SELECT * FROM (

            VALUES

                ('John Doe', '123-45-6789', 'ACC#12345', '$5000'),

                ('Jane Smith', '987-65-4321', 'ACC#67890', '$3000'),

                ('Bob Wilson', '456-78-9012', 'ACC#11111', '$7500')

            ) AS t(name, ssn, account, balance);

    """)

    # Define custom redaction rules with different patterns

    custom_rules = {

        'name': {

            'pattern': r'[A-Z][a-z]+ [A-Z][a-z]+',

            'replacement': lambda match: f"{match[0][0]}*** {match[0].split()[1][0]}***"

        },

        'ssn': {

            'pattern': r'\d{3}-\d{2}-\d{4}',

            'replacement': 'XXX-XX-XXXX'

        },

        'account': {

            'pattern': r'ACC#\d{5}',

            'replacement': 'ACC#*****'

        }

    }

    def apply_custom_redaction(conn, table_name, rules):

        redaction_cases = []

        for column, rule in rules.items():

            redaction_cases.append(f"""

                CASE 

                    WHEN regexp_matches({column}, '{rule['pattern']}') 

                    THEN '{rule['replacement']}'

                    ELSE {column} 

                END as {column}

            """)

        query = f"""

        CREATE TABLE custom_redacted AS

        SELECT 

            {', '.join(redaction_cases)},

            balance  -- Keep this column unchanged

        FROM {table_name};

        """

        conn.execute(query)

    # Show original data

    print("\nOriginal Customer Data:")

    print(conn.execute("SELECT * FROM customer_data").fetchdf())

    # Apply custom redaction

    apply_custom_redaction(conn, 'customer_data', custom_rules)

    # Show results

    print("\nCustom Redacted Data:")

    print(conn.execute("SELECT * FROM custom_redacted").fetchdf())

​

# Run demonstrations

print("=== Basic Redaction Demo ===")

demonstrate_data_redaction()

print("\n=== Custom Redaction Demo ===")

demonstrate_custom_redaction()

Risultati di esempio

Prima della redazione:

name       email              sensitive_field
John Doe   [email protected] CC: 4532-1234-5678-9012

Dopo la redazione:

name       email      sensitive_field
(REDACTED) (REDACTED) (REDACTEd)

Conclusione

DuckDB è un database in memoria semplice ma potente che può aiutare nella remediation dei dati sensibili.

Ricorda sempre di:

Validare i tuoi dati mascherati.
Utilizzare l’elaborazione parallela per grandi dataset.
Sfruttare l’integrazione S3 di DuckDB per i dati nel cloud.
Fai attenzione all’uso della memoria quando elabori file di grandi dimensioni.

Source:
https://dzone.com/articles/developers-guide-handling-sensitive-data-with-duckdb