Come utilizzare Azure Data Lake per archiviazione e analisi

Probabilmente avrai bisogno di archiviare dati su una grande scala come amministratore o sviluppatore. Ma dove puoi conservarli? Il cloud è la tua opzione più pratica e, fortunatamente, Azure Data Lake può aiutarti a conservare i dati senza preoccupazioni.

Azure Data Lake ti consente di eseguire tutti i tipi di elaborazione e analisi su diverse piattaforme e linguaggi a velocità incredibile. In questo tutorial, imparerai come utilizzare Azure Data Lake per l’archiviazione e l’analisi dei dati.

Conserva i tuoi dati in modo efficiente e sicuro in un unico posto utilizzando Azure Data Lake oggi stesso!

Prerequisiti

Questo tutorial sarà una dimostrazione pratica. Se desideri seguirla, assicurati di avere un account Azure con una sottoscrizione attiva. Se non ne hai ancora uno, puoi utilizzare una prova gratuita.

Creare un Data Lake tramite il portale di Azure

Azure Data Lake è un servizio di archiviazione dati basato su cloud ottimizzato per l’analisi di big data ed è altamente scalabile. Puoi iniziare con una soluzione di piccole dimensioni e crescere man mano che aumentano le tue esigenze. Ma come puoi creare lo spazio di archiviazione?

Fai un breve tour del portale di Azure e crea un account Azure Data Lake.

1. Apri il tuo browser preferito e vai al Portale di Azure.

2. Successivamente, fornisci le tue credenziali, fai clic sul pulsante Accedi e accedi al tuo account Azure.

Dopo aver effettuato l’accesso, il tuo browser verrà reindirizzato al Portale Azure (passaggio tre).

Logging in to Azure Portal

3. Sul tuo Portale Azure, fai clic su Crea una risorsa, che apre l’elenco delle risorse Azure disponibili.

Vedrai la pagina sottostante quando effettui l’accesso per la prima volta o non hai risorse distribuite nel tuo abbonamento.

Creating a Resource

4. Cerca ‘account di archiviazione’ nella barra di ricerca in alto sulla pagina e seleziona Account di archiviazione. Facendo ciò, il tuo browser verrà reindirizzato alla pagina di panoramica della risorsa Account di archiviazione.

La barra di ricerca ti consente di trovare rapidamente le risorse che desideri creare anziché scorrere tra quelle in primo piano. Ma per questo tutorial, stai creando un account Azure Data Lake.

Azure Data Lake è costruito sopra Azure Storage. Quindi, un account di archiviazione è il tipo di risorsa che devi creare per un nuovo account Azure Data Lake.

Searching for Storage Account Resource

5. Ora, fai clic su Crea, che reindirizzerà il tuo browser alla pagina Crea un account di archiviazione (passaggio sei), dove configurerai il tuo account di archiviazione.

Initializing Creating a Storage Account

6. Configura il tuo account di archiviazione a partire dai Dettagli del progetto come segue:

  • Seleziona il tuo Abbonamento – Se hai più abbonamenti, assicurati di selezionare quello in cui preferisci creare il tuo account di archiviazione. Questo tutorial utilizza l’abbonamento Azure 1, come mostrato di seguito.
  • Seleziona il tuo gruppo di risorse – I gruppi di risorse sono un modo per raggruppare logicamente le risorse di Azure. Puoi pensare ai gruppi di risorse come a delle cartelle dove inserisci risorse correlate. I gruppi di risorse ti permettono di gestire, monitorare ed eliminare le risorse più facilmente.

Se non hai ancora un gruppo di risorse, clicca invece sul collegamento Crea nuovo per crearne uno.

Setting Project Details

7. Nella stessa pagina, configura i dettagli dell’istanza come segue:

  • Fornisci un nome unico per il tuo account di archiviazione – La scelta per questo tutorial è ataazurestorage. Il nome deve essere unico all’interno di Azure e deve essere lungo tra tre e 24 caratteri.
  • Seleziona la Regione in cui desideri distribuire il tuo account di archiviazione – La regione è dove il tuo account di archiviazione risiederà fisicamente. Seleziona la regione più vicina a te o ai tuoi utenti.

Ad esempio, se stai creando un account di archiviazione per un’applicazione web a cui accederanno utenti degli Stati Uniti, seleziona le regioni US East o US West.

  • Mantieni tutte le altre impostazioni sui valori predefiniti e clicca su Avanti: Avanzate in fondo alla pagina. A questo punto, avrai un account di archiviazione blob standard.
Create a Storage Account

8. Sotto la scheda Avanzate, spunta la casella di controllo Abilita namespace gerarchico in Data Lake Storage Gen2. Questa opzione converte il tuo account di archiviazione Blob in un account Data Lake e abilita tutte le funzionalità di un Data Lake, compresa l’analisi e l’archiviazione.

Clicca sul pulsante Review + crea (in basso a sinistra) per convalidare le tue impostazioni, il che potrebbe richiedere alcuni minuti per completarsi.

Click on the Review + create button at the bottom to validate your settings.

9. Dopo la convalida, clicca sul pulsante Crea per finalizzare la creazione dell’account di archiviazione.

Creating the Storage Account

Dopo che il tuo account di archiviazione è stato creato, vedrai il deployment in corso, come mostrato di seguito, il che potrebbe richiedere alcuni minuti per completarsi.

Viewing Deployment in Progress

10. Infine, clicca sul pulsante Vai alla risorsa per aprire il tuo account di archiviazione appena creato dopo il deployment. A questo punto, hai già un account Azure Data Lake.

Accessing the Newly-created Storage Account
Viewing the New Azure Data Lake Account

Creazione di un Data Lake utilizzando la CLI

Hai visto che la creazione di un account Azure Data Lake tramite il portale di Azure funziona bene. Ma se desideri avere un modo ripetibile e automatizzato per creare account Data Lake? Il portale di Azure non è la migliore opzione, ma la CLI di Azure.

La CLI di Azure è uno strumento multipiattaforma che puoi utilizzare per gestire le risorse di Azure e ti consente di integrarti con il tuo processo di integrazione continua (CI) o di distribuzione continua (CD) automatizzata.

Azure CLI è disponibile per Windows, Linux, Azure Cloud Shell e macOS.

Per creare un account Azure Data Lake tramite Azure CLI:

1. Nel portale di Azure, fai clic sul pulsante Cloud Shell, come mostrato di seguito, per aprire Azure Cloud Shell.

Opening the Azure Cloud Shell

2. In fondo al portale di Azure, scegli Bash o PowerShell come tipo di shell e la shell si aprirà.

Azure Portal

Nella tua Azure Cloud Shell, puoi cambiare il tipo di shell a piacimento tra Bash e PowerShell. Ma per questo tutorial, mantieni attiva la shell Bash.

Viewing Azure Cloud Shell

3. Esegui il comando seguente sulla tua Azure Cloud Shell per verificare la versione di Azure CLI installata. Qualunque piattaforma tu stia utilizzando, assicurati di avere Azure CLI versione 2.6.0 o successiva, altrimenti non potrai creare un account Data Lake.

az --version
Verifying Azure CLI Version Installed

4. Ora, esegui il comando sottostante per accedere ad Azure con il tuo account Azure.

Questo tutorial utilizza il metodo di autorizzazione di Azure Active Directory (Azure AD). Questo metodo è il tipo di autorizzazione consigliato in quanto è più semplice e offre maggiore sicurezza rispetto all’utilizzo di un principale servizio.

az login

Vedrai un codice e un URL apparire nella finestra del terminale qui sotto. Annota l’URL poiché ne avrai bisogno per autenticare Azure utilizzando Azure AD nel passaggio successivo.

Log in to Azure using your Azure account

5. Autenticati utilizzando Azure AD con quanto segue:

  • Naviga all’URL che hai annotato nel passaggio quattro nel tuo browser.
  • Accedi utilizzando le credenziali del tuo account Azure e il codice che hai annotato nel passaggio quattro.
Authenticating Azure using Azure AD

6. Successivamente, fai clic su Continua per completare il processo di autenticazione.

Logging in to Azure

7. Esegui il comando sottostante az account list per elencare le sottoscrizioni per l’account connesso.

Se il tuo account è associato a più di una sottoscrizione Azure, potresti dover selezionare e impostare la sottoscrizione che desideri utilizzare per il tuo account Data Lake.

Nota il nome della sottoscrizione da utilizzare per il tuo account Azure Data Lake. Per questo tutorial, la sottoscrizione da utilizzare è la sottoscrizione Azure 1.

az account list
Getting the Subscription Name to Use for the Azure Data Lake Account

8. Ora, esegui il seguente comando az account set e specifica il nome della tua sottoscrizione. Questo comando non fornisce un output ma imposta la sottoscrizione da utilizzare per il tuo account Azure Data Lake.

az account set --subscription 'Azure subscription 1'

9. Esegui il seguente comando az group create per creare un gruppo di risorse. Scegli un nome unico per il tuo gruppo di risorse, ma la scelta di questo tutorial è ataadatalakecli e un -location impostato su westus.

az group create --location westus --resource-group ataadatalakecli
Creating a Resource Group

10. Dopo aver creato un gruppo di risorse, esegui il comando az storage account create di seguito e inserisci i valori per i seguenti parametri per creare un account di archiviazione:

  • --name – Il nome del tuo account Data Lake (ataaazuredatalakecli).
  • --resource-group – Il nome del tuo gruppo di risorse (ataadatalakecli).
  • --location – La posizione del tuo account Data Lake (westus).
  • --sku – Lo SKU di archiviazione per il tuo account Data Lake (Standard_LRS).
  • --kind – Il tipo di account Data Lake da creare (StorageV2).
  • --enable-hierarchical-namespace true - Abilita il namespace gerarchico per il tuo account, che è necessario per utilizzare Data Lake Storage Gen2.
az storage account create  --name ataaazuredatalakecli --resource-group ataadatalakecli --location westus --sku Standard_LRS  --kind StorageV2 --enable-hierarchical-namespace true

Nota che StorageV1 è stato deprecato e si consiglia vivamente di utilizzare StorageV2 per tutti i nuovi account Data Lake creati. Gli account esistenti di StorageV1 possono ancora essere utilizzati per un certo periodo, ma verranno alla fine migrati a StorageV2. Pertanto, si consiglia vivamente di migrare i tuoi dati agli account StorageV2.

Creating a Storage Account

11. Ora, naviga al tuo gruppo di risorse nel Portale di Azure e vedrai le risorse appena create, come mostrato di seguito.

Fai clic sul collegamento ipertestuale del tuo gruppo di risorse per accedere alla pagina di panoramica del gruppo di risorse (passo 12).

Viewing the Resource Groups

12. Infine, fai clic sul tuo account di archiviazione dall’elenco per accedere alla pagina di panoramica.

Accessing Storage Account Info

È tutto! Ora hai un account di archiviazione attivo.

Viewing the Storage Account’s Overview

Caricamento dei dati in Data Lake Storage

Hai appena creato il tuo account di Lake Storage Gen2, ma al momento è vuoto. Quindi perché non caricare i tuoi dati? Puoi caricare e verificare i tuoi dati utilizzando il Portale di Azure e Azure CLI, ma prima devi creare un contenitore.

1. Nel dashboard del tuo account di archiviazione, fai clic su Contenitore sotto Archiviazione dati (pannello sinistro) e fai clic su Contenitore, come mostrato di seguito, per creare un nuovo contenitore.

In Azure, un contenitore è un sistema di file per archiviare i tuoi dati.

Creating a Container

2. Successivamente, configura il nuovo contenitore con quanto segue:

  • Specifica un nome per il tuo contenitore, ma la scelta di questo tutorial è azuredatalakecotainer.
  • Seleziona Privato (nessun accesso anonimo) per il livello di accesso.
  • Clicca su Crea in basso per creare il contenitore.
Creating a Container

3. Clicca sul nome del tuo contenitore nell’elenco, come mostrato di seguito, per aprirlo. Nota che il tuo contenitore è attualmente vuoto.

Opening the Container

4. Ora, clicca sul pulsante Carica in alto per caricare file o cartelle nel tuo contenitore.

Initializing Uploading Files or Folders

5. Nella scheda Carica blob, clicca sul pulsante di caricamento della cartella, individua i tuoi file o cartelle e clicca su Carica per caricarli.

Puoi selezionare più file e cartelle da caricare in una sola volta.

Locating Files to Upload

Vedrai lo stato di ogni caricamento di file/cartella come quello qui sotto.

Viewing Upload Progress

Una volta completato il caricamento, vedrai i file elencati nel tuo contenitore.

Verifying Uploaded Files in Azure Portal

In alternativa, esegui il comando az storage di seguito per elencare tutti i file caricati nel tuo contenitore. Sostituisci il nome del contenitore (azuredatalakecotainer) e il nome dell’account (ataaazuredatalakecli) con i tuoi.

az storage fs file list -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

Il risultato sottostante verifica che i file sono stati caricati con successo nel tuo account Azure Data Lake Storage Gen2 e nei loro metadati.

Listing Uploaded Files in Container via Azure CLI

6. Esegui il comando sottostante per creare una nuova directory denominata my-data-lake-directory nel tuo contenitore (azuredatalakecotainer).

az storage fs directory create -n my-data-lake-directory -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

7. Infine, torna alla tua contenitore nel portale di Azure e vedrai la cartella appena creata nell’elenco, come mostrato di seguito.

Da lì, puoi caricare ulteriori nuovi file e cartelle nella cartella appena creata seguendo i passaggi tre al cinque.

Verifying Newly-created Directory

Conclusione

Oltre a essere conveniente in termini di costi poiché pagherai solo per lo storage che utilizzi, Azure Data utilizza Azure Active Directory per l’autenticazione e l’autorizzazione. La sicurezza dei tuoi dati è comunque una priorità assoluta. E in questo tutorial, hai imparato come creare un account di Azure Data Lake Storage Gen2 utilizzando il portale di Azure e la CLI.

Con Azure Data Lake, puoi caricare file e verificarli senza dover eseguire complicati carichi di lavoro di analisi dei big data.

A questo punto, puoi ora memorizzare in modo sicuro tutti i tuoi dati in un unico luogo e iniziare ad analizzare i tuoi dati utilizzando gli strumenti e i servizi che Azure offre. Perché non iniziare il servizio Data Lake Analytics e cominciare a fare query e visualizzare i tuoi dati?

Source:
https://adamtheautomator.com/azure-data-lake/