Hoe Azure Data Lake te gebruiken voor opslag en analyse

Je zult waarschijnlijk ergens gegevens moeten opslaan als beheerder of ontwikkelaar, niet zomaar gegevens, maar enorme hoeveelheden gegevens. Waar ga je naartoe? De cloud is je meest praktische optie, en gelukkig kan Azure Data Lake helpen voor zorgeloze gegevensopslag.

Azure Data Lake stelt je in staat om allerlei soorten verwerking en analyses uit te voeren over platforms en talen heen met een razendsnelle snelheid. En in deze tutorial leer je hoe je Azure Data Lake kunt gebruiken voor opslag en analyse.

Efficiënt en veilig je gegevens opslaan op één plek met Azure Data Lake vandaag nog!

Vereisten

Deze tutorial zal een praktische demonstratie zijn. Als je wilt meedoen, zorg er dan voor dat je een Azure-account hebt met een actief abonnement – Als je er nog geen hebt, is een gratis proefversie voldoende.

Een Data Lake aanmaken via het Azure Portal

Azure Data Lake is een cloudgebaseerde gegevensopslagservice geoptimaliseerd voor big data-analyse en is zeer schaalbaar. Je kunt klein beginnen en groeien naarmate je behoeften toenemen. Maar hoe maak je de opslag aan?

Maak een snelle tour door het Azure Portal en maak een Azure Data Lake-account aan.

1. Open je favoriete webbrowser en ga naar het Azure Portal.

2. Geef vervolgens uw referenties op, klik op de knop Aanmelden en meld u aan bij uw Azure-account.

Nadat u zich hebt aangemeld, wordt uw browser doorgestuurd naar het Azure-portal (stap drie).

Logging in to Azure Portal

3. Op uw Azure-portal klikt u op Een resource maken, waardoor de lijst met beschikbare Azure-resources wordt geopend.

U ziet de onderstaande pagina wanneer u voor het eerst inlogt of geen resources hebt geïmplementeerd in uw abonnement.

Creating a Resource

4. Zoek naar ‘opslagaccount’ in de zoekbalk bovenaan de pagina en selecteer Opslagaccount. Hierdoor wordt uw browser doorgestuurd naar de overzichtspagina van de opslagaccountresource.

De zoekbalk stelt u in staat om snel resources te vinden die u wilt maken in plaats van door de aanbevolen te scrollen. Maar voor deze tutorial maakt u een Azure Data Lake-account.

Azure Data Lake is gebouwd op Azure Storage. Dus een opslagaccount is het type resource dat u moet maken voor een nieuw Azure Data Lake-account.

Searching for Storage Account Resource

5. Klik nu op Maken, waardoor uw browser wordt doorgestuurd naar de pagina Een opslagaccount maken (stap zes), waar u uw opslagaccount zult configureren.

Initializing Creating a Storage Account

6. Configureer uw opslagaccount, te beginnen met de Projectdetails zoals hieronder:

  • Selecteer uw Abonnement – Als u meerdere abonnementen heeft, zorg er dan voor dat u er een selecteert waar u uw opslagaccount wilt maken. Deze tutorial maakt gebruik van Azure-abonnement 1, zoals hieronder wordt weergegeven.
  • Selecteer uw Resourcegroep – Resourcegroepen zijn een manier om Azure-bronnen logisch te groeperen. U kunt resourcegroepen zien als mappen waarin u gerelateerde bronnen plaatst. Resourcegroepen laten u toe om bronnen gemakkelijker te beheren, te monitoren en te verwijderen.

Als u nog geen resourcegroep heeft, klik dan op de Nieuw maken hyperlink om er een te creëren.

Setting Project Details

7. Configureer op dezelfde pagina de details van de instantie met het volgende:

  • Geef een unieke Opslagaccountnaam – De keuze voor deze tutorial is ataazurestorage. De naam moet uniek zijn binnen Azure en moet tussen de drie en 24 karakters lang zijn.
  • Selecteer de Regio waar u uw opslagaccount wilt implementeren – De regio is waar uw opslagaccount fysiek zal verblijven. Selecteer de regio die het dichtst bij u of uw gebruikers ligt.

Bijvoorbeeld, als u een opslagaccount aanmaakt voor een webapplicatie die door gebruikers uit de VS zal worden gebruikt, selecteer dan de regio’s US East of US West.

  • Houd alle andere instellingen op standaardwaarden en klik onderaan de pagina op Volgende: Geavanceerd. Op dit punt zult u een standaard blob opslagaccount hebben.
Create a Storage Account

8. Onder het tabblad Geavanceerd, vink het selectievakje Hierarchische namespace inschakelen aan in Data Lake Storage Gen2. Deze optie converteert uw blob-opslagaccount naar een Data Lake-account en maakt alle functionaliteiten van een Data Lake mogelijk, inclusief Analytics en Store.

Klik op de knop Beoordelen + maken (linksonder) om uw instellingen te valideren, wat enkele minuten kan duren om te voltooien.

Click on the Review + create button at the bottom to validate your settings.

9. Na validatie, klik op de knop Maken om het maken van het opslagaccount te voltooien.

Creating the Storage Account

Nadat uw opslagaccount is gemaakt, ziet u de implementatie in uitvoering, zoals hieronder weergegeven, wat enkele minuten kan duren om te voltooien.

Viewing Deployment in Progress

10. Klik tot slot op de knop Naar resource gaan om uw nieuw gemaakte opslagaccount te openen na implementatie. Op dit punt heeft u al een Azure Data Lake-account.

Accessing the Newly-created Storage Account
Viewing the New Azure Data Lake Account

Een Data Lake maken met behulp van de CLI

U heeft gezien dat het maken van een Azure Data Lake-account met behulp van de Azure Portal prima werkt. Maar wat als u een herhaalbare en geautomatiseerde manier wilt hebben om Data Lake-accounts te maken? Azure Portal is niet de beste optie, maar Azure CLI.

De Azure CLI is een tool die op meerdere platformen werkt en waarmee u uw Azure-resources kunt beheren en kunt integreren met uw geautomatiseerde CI/CD-proces.

De Azure CLI is beschikbaar voor Windows, Linux, Azure Cloud Shell en macOS.

Om een Azure Data Lake-account aan te maken via de Azure CLI:

1. Op het Azure-portal, klik op de Cloud Shell-knop, zoals hieronder weergegeven, om de Azure Cloud Shell te openen.

Opening the Azure Cloud Shell

2. Onderaan het Azure-portal kiest u Bash of PowerShell als uw shelltype, en de shell wordt geopend.

Azure Portal

Op uw Azure Cloud Shell kunt u op elk moment uw shelltype wijzigen naar Bash of PowerShell. Maar houd voor deze tutorial de Bash-shell actief.

Viewing Azure Cloud Shell

3. Voer de onderstaande opdracht uit op uw Azure Cloud Shell om de geïnstalleerde Azure CLI-versie te controleren. Zorg ervoor dat u Azure CLI-versie 2.6.0 of later hebt, anders kunt u geen Data Lake-account maken.

az --version
Verifying Azure CLI Version Installed

4. Voer nu de onderstaande opdracht uit om u aan te melden bij Azure met uw Azure-account.

Deze tutorial maakt gebruik van de autorisatiemethode van Azure Active Directory (Azure AD). Deze methode wordt aanbevolen omdat het eenvoudiger is en meer beveiliging biedt dan het gebruik van een serviceprincipal.

az login

Je ziet een code en een URL verschijnen in het terminalvenster hieronder. Noteer de URL, want je hebt deze nodig om Azure te authenticeren met behulp van Azure AD in de volgende stap.

Log in to Azure using your Azure account

5. Authenticeer met Azure AD als volgt:

  • Ga naar de URL die je hebt genoteerd in stap vier in je browser.
  • Log in met je Azure-accountgegevens en de code die je hebt genoteerd in stap vier.
Authenticating Azure using Azure AD

6. Klik vervolgens op Doorgaan om het authenticatieproces te voltooien.

Logging in to Azure

7. Voer de onderstaande az account list opdracht uit om de abonnementen voor het ingelogde account weer te geven.

Als je account is gekoppeld aan meer dan één Azure-abonnement, moet je mogelijk het abonnement selecteren en instellen dat je wilt gebruiken voor je Data Lake-account.

Merk de naam op van het abonnement dat je wilt gebruiken voor je Azure Data Lake-account. Voor deze tutorial is het te gebruiken abonnement Azure-abonnement 1.

az account list
Getting the Subscription Name to Use for the Azure Data Lake Account

8. Voer nu de volgende az account set opdracht uit en geef de naam van je abonnement op. Deze opdracht geeft geen output, maar stelt het abonnement in dat moet worden gebruikt voor je Azure Data Lake-account.

az account set --subscription 'Azure subscription 1'

9. Voer het volgende az group create commando uit om een resourcegroep aan te maken. Kies een unieke naam voor uw resourcegroep, maar de keuze voor deze tutorial is ataadatalakecli en een locatie ingesteld op westus.

az group create --location westus --resource-group ataadatalakecli
Creating a Resource Group

10. Nadat u een resourcegroep heeft aangemaakt, voert u het az storage account create commando hieronder uit en geeft u de waarden door voor de volgende parameters om een opslagaccount aan te maken:

  • --name – Uw Data Lake accountnaam (ataaazuredatalakecli).
  • --resource-group – Uw resourcegroepnaam (ataadatalakecli).
  • --location – De locatie van uw Data Lake-account (westus).
  • --sku – De opslag SKU voor uw Data Lake-account (Standard_LRS).
  • --kind – Het type Data Lake-account dat moet worden aangemaakt (StorageV2).
  • --enable-hierarchical-namespace true - Schakelt de hiërarchische namespace in voor uw account in, wat vereist is om Data Lake Storage Gen2 te gebruiken.
az storage account create  --name ataaazuredatalakecli --resource-group ataadatalakecli --location westus --sku Standard_LRS  --kind StorageV2 --enable-hierarchical-namespace true

Merk op dat StorageV1 nu is verouderd, en u zou StorageV2 moeten gebruiken voor alle nieuw aangemaakte Data Lake-accounts. Bestaande StorageV1-accounts kunnen nog enige tijd worden gebruikt, maar zullen uiteindelijk worden gemigreerd naar StorageV2. Het wordt daarom sterk aanbevolen om uw gegevens naar StorageV2-accounts te migreren.

Creating a Storage Account

11. Nu, navigeer naar je resourcesgroep in het Azure Portal, en je ziet je nieuw aangemaakte resources, zoals hieronder weergegeven.

Klik op de hyperlink van je resourcesgroep om naar de overzichtspagina van de resourcesgroep te gaan (stap 12).

Viewing the Resource Groups

12. Klik tenslotte op je opslagaccount in de lijst om toegang te krijgen tot de overzichtspagina.

Accessing Storage Account Info

Dat is het! Je hebt nu een actief opslagaccount.

Viewing the Storage Account’s Overview

Data uploaden naar Data Lake Storage

Je hebt zojuist je Lake Storage Gen2-account aangemaakt, maar het is momenteel leeg. Waarom upload je je gegevens niet? Je kunt je gegevens uploaden en verifiëren met behulp van het Azure Portal en Azure CLI, maar eerst moet je een container maken.

1. Klik op je opslagaccountdashboard op ‘Container’ onder ‘Data Storage’ (linkerpaneel) en klik op ‘Container’, zoals hieronder weergegeven, om een nieuwe container te maken.

In Azure is een container een bestandssysteem voor het opslaan van je gegevens.

Creating a Container

2. Configureer de nieuwe container vervolgens als volgt:

  • Geef een naam op voor je container, maar de keuze in deze handleiding is azuredatalakecotainer.
  • Klik op Maken onderaan om de container te maken.
Creating a Container

3. Klik op de naam van uw container in de lijst, zoals hieronder weergegeven, om deze te openen. Let op, uw container is momenteel leeg.

Opening the Container

4. Klik nu op de knop Uploaden bovenaan om bestanden of mappen naar uw container te uploaden.

Initializing Uploading Files or Folders

5. In het blad Upload blob, klik op de knop map uploaden, zoek uw bestanden of mappen op, en klik op Uploaden om ze te uploaden.

U kunt meerdere bestanden en mappen selecteren om in één keer te uploaden.

Locating Files to Upload

U zult de status van elke bestandsmap upload zoals hieronder zien.

Viewing Upload Progress

Zodra het uploaden is voltooid, ziet u de bestanden vermeld in uw container.

Verifying Uploaded Files in Azure Portal

Als alternatief, voer het az storage commando hieronder uit om alle geüploade bestanden in uw container weer te geven. Vervang de container naam (azuredatalakecotainer) en de account naam (ataaazuredatalakecli ) met uw eigen gegevens.

az storage fs file list -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

De uitvoer hieronder bevestigt dat de bestanden succesvol zijn geüpload naar uw Azure Data Lake Storage Gen2 account en hun metadata.

Listing Uploaded Files in Container via Azure CLI

6. Voer het onderstaande commando uit om een nieuwe map met de naam my-data-lake-directory in uw container (azuredatalakecotainer) te maken.

az storage fs directory create -n my-data-lake-directory -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

7. Navigeer ten slotte terug naar je container in het Azure-portal en je zult het nieuw aangemaakte directory in de lijst zien staan, zoals hieronder weergegeven.

Van daaruit kun je meer nieuwe bestanden en mappen uploaden naar de nieuw aangemaakte directory door de stappen drie tot en met vijf te volgen.

Verifying Newly-created Directory

Conclusie

Naast kostenbesparend te zijn omdat je alleen betaalt voor de opslag die je gebruikt, maakt Azure Data gebruik van Azure Active Directory voor authenticatie en autorisatie. Het beveiligen van je gegevens heeft hoe dan ook de hoogste prioriteit. En in deze zelfstudie heb je geleerd hoe je een Azure Data Lake Storage Gen2-account kunt aanmaken met behulp van het Azure-portal en de CLI.

Met Azure Data Lake kun je bestanden uploaden en verifiëren, zonder ingewikkelde verwerking van workloads voor big data-analyse te hoeven uitvoeren.

Op dit punt kun je nu al je gegevens veilig op één plek opslaan en beginnen met het analyseren van je gegevens met behulp van de tools en services die Azure biedt. Waarom begin je niet met de Data Lake Analytics-service en begin je met het bevragen en visualiseren van je gegevens?

Source:
https://adamtheautomator.com/azure-data-lake/