Verwendung von Azure Data Lake für Speicherung und Analyse

Du wirst wahrscheinlich Daten als Administrator oder Entwickler speichern müssen, nicht einfach irgendwelche Daten, sondern massenhafte Daten. Wo wendest du dich hin? Die Cloud ist deine praktischste Option, und zum Glück kann Azure Data Lake dir bei der sorgenfreien Datenspeicherung helfen.

Azure Data Lake ermöglicht es dir, alle Arten von Verarbeitung und Analysen plattformübergreifend und in verschiedenen Sprachen mit atemberaubender Geschwindigkeit durchzuführen. Und in diesem Tutorial lernst du, wie du Azure Data Lake für Speicherung und Analyse verwenden kannst.

Speichere deine Daten effizient und sicher an einem Ort mit Azure Data Lake noch heute!

Voraussetzungen

Dieses Tutorial wird eine praktische Demonstration sein. Wenn du mitmachen möchtest, stelle sicher, dass du über ein Azure-Konto mit einem aktiven Abonnement verfügst – Wenn du noch keins hast, reicht auch eine kostenlose Testversion.

Erstellen eines Data Lakes über das Azure-Portal

Azure Data Lake ist ein cloudbasierter Datenspeicherdienst, optimiert für Big-Data-Analyse und hochskalierbar. Du kannst klein anfangen und mit steigenden Anforderungen wachsen. Aber wie erstellst du den Speicher?

Mach eine kurze Tour durch das Azure-Portal und erstelle ein Azure Data Lake-Konto.

1. Öffne deinen Lieblingswebbrowser und gehe zur Azure-Portal.

2. Als nächstes geben Sie Ihre Anmeldedaten ein, klicken Sie auf die Schaltfläche „Anmelden“ und melden Sie sich bei Ihrem Azure-Konto an.

Nach der Anmeldung leitet Ihr Browser Sie zum Azure-Portal weiter (Schritt drei).

Logging in to Azure Portal

3. Klicken Sie im Azure-Portal auf „Ressource erstellen“, um die Liste der verfügbaren Azure-Ressourcen anzuzeigen.

Sie sehen die folgende Seite, wenn Sie sich zum ersten Mal anmelden oder keine Ressourcen in Ihrem Abonnement bereitgestellt haben.

Creating a Resource

4. Suchen Sie im Suchfeld oben auf der Seite nach „Speicherkonto“ und wählen Sie „Speicherkonto“ aus. Dadurch wird Ihr Browser zur Übersichtsseite der Speicherkonto-Ressource weitergeleitet.

Das Suchfeld ermöglicht es Ihnen, Ressourcen schnell zu finden, die Sie erstellen möchten, anstatt durch die vorgestellten zu scrollen. Aber für dieses Tutorial erstellen Sie ein Azure Data Lake-Konto.

Der Azure Data Lake basiert auf Azure Storage. Daher ist ein Speicherkonto der Ressourcentyp, den Sie benötigen, um ein neues Azure Data Lake-Konto zu erstellen.

Searching for Storage Account Resource

5. Klicken Sie nun auf „Erstellen“, um zu der Seite „Speicherkonto erstellen“ weitergeleitet zu werden (Schritt sechs), wo Sie Ihr Speicherkonto konfigurieren werden.

Initializing Creating a Storage Account

6. Konfigurieren Sie Ihr Speicherkonto, beginnend mit den Projektdetails wie folgt:

  • Wählen Sie Ihr Abonnement aus – Wenn Sie mehrere Abonnements haben, stellen Sie sicher, dass Sie eines auswählen, in dem Sie Ihr Speicherkonto erstellen möchten. Dieses Tutorial verwendet Azure-Abonnement 1, wie unten gezeigt.
  • Wählen Sie Ihre Ressourcengruppe aus – Ressourcengruppen sind eine Möglichkeit, Azure-Ressourcen logisch zu gruppieren. Sie können sich Ressourcengruppen als Ordner vorstellen, in denen Sie verwandte Ressourcen platzieren. Ressourcengruppen ermöglichen es Ihnen, Ressourcen einfacher zu verwalten, zu überwachen und zu löschen.

Wenn Sie noch keine Ressourcengruppe haben, klicken Sie stattdessen auf den Hyperlink Neu erstellen, um eine zu erstellen.

Setting Project Details

7. Konfigurieren Sie auf derselben Seite die Instanzdetails wie folgt:

  • Geben Sie einen eindeutigen Speicherkontonamen an – Die Wahl in diesem Tutorial ist ataazurestorage. Der Name muss innerhalb von Azure eindeutig sein und zwischen drei und 24 Zeichen lang sein.
  • Wählen Sie die Region aus, in der Sie Ihr Speicherkonto bereitstellen möchten – Die Region ist der physische Standort Ihres Speicherkontos. Wählen Sie die Region aus, die Ihnen oder Ihren Benutzern am nächsten liegt.

Zum Beispiel, wenn Sie ein Speicherkonto für eine Webanwendung erstellen, auf die Benutzer aus den USA zugreifen werden, wählen Sie die Regionen US Ost oder US West aus.

  • Behalten Sie alle anderen Einstellungen bei den Standardwerten und klicken Sie unten auf der Seite auf Weiter: Erweitert. Zu diesem Zeitpunkt haben Sie ein Standard-Blob-Speicherkonto.
Create a Storage Account

8. Unter dem Register Erweitert aktivieren Sie das Kontrollkästchen Hierarchischen Namespace aktivieren im Data Lake Storage Gen2. Diese Option wandelt Ihr Blob-Speicherkonto in ein Data Lake-Konto um und aktiviert alle Funktionen eines Data Lakes, einschließlich Analyse und Speicherung.

Klicken Sie auf die Schaltfläche Überprüfen + Erstellen (unten links), um Ihre Einstellungen zu validieren, was einige Minuten dauern kann.

Click on the Review + create button at the bottom to validate your settings.

9. Nach der Validierung klicken Sie auf die Schaltfläche Erstellen, um die Erstellung des Speicherkontos abzuschließen.

Creating the Storage Account

Nachdem Ihr Speicherkonto erstellt wurde, sehen Sie den Bereitstellungsstatus, wie unten gezeigt, was einige Minuten dauern kann.

Viewing Deployment in Progress

10. Klicken Sie abschließend auf die Schaltfläche Zu Ressource gehen, um Ihr neu erstelltes Speicherkonto nach der Bereitstellung zu öffnen. Zu diesem Zeitpunkt haben Sie bereits ein Azure Data Lake-Konto.

Accessing the Newly-created Storage Account
Viewing the New Azure Data Lake Account

Erstellen eines Data Lake mit der Befehlszeilenschnittstelle (CLI)

Sie haben gesehen, dass das Erstellen eines Azure Data Lake-Kontos über das Azure-Portal gut funktioniert. Aber was ist, wenn Sie eine wiederholbare und automatisierte Möglichkeit zur Erstellung von Data Lake-Konten haben möchten? Das Azure-Portal ist nicht die beste Option, sondern die Azure CLI.

Die Azure CLI ist ein plattformübergreifendes Tool, das Sie zur Verwaltung Ihrer Azure-Ressourcen verwenden können und das sich in Ihren automatisierten CI/CD-Prozess integrieren lässt.

Azure CLI ist für Windows, Linux, Azure Cloud Shell und macOS verfügbar.

Um ein Azure Data Lake-Konto über die Azure CLI zu erstellen:

1. Klicken Sie im Azure-Portal auf die Schaltfläche Cloud Shell, wie unten gezeigt, um die Azure Cloud Shell zu öffnen.

Opening the Azure Cloud Shell

2. Wählen Sie unten im Azure-Portal entweder Bash oder PowerShell als Ihren Shell-Typ aus, und die Shell wird geöffnet.

Azure Portal

Auf Ihrer Azure Cloud Shell können Sie Ihren Shell-Typ nach Belieben auf Bash oder PowerShell ändern. Aber für dieses Tutorial behalten Sie die Bash-Shell bei.

Viewing Azure Cloud Shell

3. Führen Sie den unten stehenden Befehl auf Ihrer Azure Cloud Shell aus, um die installierte Version der Azure CLI zu überprüfen. Stellen Sie sicher, dass Sie, egal welche Plattform Sie verwenden, über Azure CLI-Version 2.6.0 oder höher verfügen, da Sie sonst kein Data Lake-Konto erstellen können.

az --version
Verifying Azure CLI Version Installed

4. Führen Sie nun den Befehl unten aus, um sich mit Ihrem Azure-Konto anzumelden.

Dieses Tutorial verwendet die Autorisierungsmethode Azure Active Directory (Azure AD). Diese Methode ist die empfohlene Autorisierungsart, da sie einfacher ist und mehr Sicherheit bietet als die Verwendung eines Dienstprinzipals.

az login

Sie werden einen Code und eine URL im Terminalfenster unten sehen. Notieren Sie sich die URL, da Sie sie benötigen, um Azure mit Azure AD zu authentifizieren.

Log in to Azure using your Azure account

5. Authentifizieren Sie sich mit Azure AD wie folgt:

  • Öffnen Sie die URL, die Sie in Schritt vier notiert haben, in Ihrem Browser.
  • Melden Sie sich mit Ihren Azure-Kontozugangsdaten und dem Code, den Sie in Schritt vier notiert haben, an.
Authenticating Azure using Azure AD

6. Klicken Sie als nächstes auf Weiter, um den Authentifizierungsprozess abzuschließen.

Logging in to Azure

7. Führen Sie den folgenden az account list Befehl aus, um die Abonnements für das angemeldete Konto aufzulisten.

Wenn Ihr Konto mit mehr als einem Azure-Abonnement verknüpft ist, müssen Sie möglicherweise das Abonnement auswählen und festlegen, das Sie für Ihr Data Lake-Konto verwenden möchten.

Notieren Sie sich den Namen des Abonnements, das Sie für Ihr Azure Data Lake-Konto verwenden möchten. Für dieses Tutorial ist das zu verwendende Abonnement Azure-Abonnement 1.

az account list
Getting the Subscription Name to Use for the Azure Data Lake Account

8. Führen Sie nun den folgenden az account set Befehl aus und geben Sie den Namen Ihres Abonnements an. Dieser Befehl liefert keine Ausgabe, sondern setzt das Abonnement für Ihr Azure Data Lake-Konto.

az account set --subscription 'Azure subscription 1'

9. Führen Sie den folgenden Befehl az group create aus, um eine Ressourcengruppe zu erstellen. Wählen Sie einen eindeutigen Namen für Ihre Ressourcengruppe, aber die Wahl dieses Tutorials ist ataadatalakecli und eine -location auf westus gesetzt.

az group create --location westus --resource-group ataadatalakecli
Creating a Resource Group

10. Nachdem Sie eine Ressourcengruppe erstellt haben, führen Sie den folgenden Befehl az storage account create aus und übergeben Sie die Werte für die folgenden Parameter, um ein Speicherkonto zu erstellen:

  • --name – Ihr Data Lake Kontoname (ataaazuredatalakecli).
  • --resource-group – Ihr Ressourcengruppenname (ataadatalakecli).
  • --location – Der Speicherort Ihres Data Lake Kontos (westus).
  • --sku – Die Speicher-SKU für Ihr Data Lake Konto (Standard_LRS).
  • --kind – Der Typ des Data Lake Kontos, das erstellt werden soll (StorageV2).
  • --enable-hierarchical-namespace true - Aktiviert den hierarchischen Namespace für Ihr Konto, der erforderlich ist, um Data Lake Storage Gen2 zu verwenden.
az storage account create  --name ataaazuredatalakecli --resource-group ataadatalakecli --location westus --sku Standard_LRS  --kind StorageV2 --enable-hierarchical-namespace true

Beachten Sie, dass StorageV1 jetzt veraltet ist und Sie für alle neu erstellten Data Lake Konten StorageV2 verwenden sollten. Vorhandene StorageV1-Konten können noch eine Weile verwendet werden, werden aber letztendlich auf StorageV2 migriert. Es wird daher dringend empfohlen, Ihre Daten auf StorageV2-Konten zu migrieren.

Creating a Storage Account

11. Jetzt navigieren Sie zum Ressourcengruppe im Azure-Portal, und Sie sehen Ihre neu erstellten Ressourcen, wie unten gezeigt.

Klicken Sie auf den Hyperlink Ihrer Ressourcengruppe, um zur Übersichtsseite der Ressourcengruppe zu gelangen (Schritt 12).

Viewing the Resource Groups

12. Klicken Sie schließlich auf Ihren Speicherkonto in der Liste, um auf die Übersichtsseite zuzugreifen.

Accessing Storage Account Info

Das ist es! Sie haben jetzt ein aktives Speicherkonto.

Viewing the Storage Account’s Overview

Daten in den Data Lake Storage hochladen

Sie haben gerade Ihr Lake Storage Gen2-Konto erstellt, aber es ist derzeit leer. Warum laden Sie also nicht Ihre Daten hoch? Sie können Ihre Daten über das Azure-Portal und Azure CLI hochladen und überprüfen, müssen jedoch zuerst einen Container erstellen.

1. Klicken Sie auf dem Dashboard Ihres Speicherkontos auf „Container“ unter „Datenspeicher“ (linke Seite) und klicken Sie auf „Container“, wie unten gezeigt, um einen neuen Container zu erstellen.

In Azure ist ein Container ein Dateisystem zum Speichern Ihrer Daten.

Creating a Container

2. Konfigurieren Sie den neuen Container wie folgt:

  • Geben Sie einen Namen für Ihren Container an, aber die Wahl in diesem Tutorial ist azuredatalakecotainer.
  • Wählen Sie „Privat (kein anonymer Zugriff)“ für die Zugriffsebene.
  • Klicken Sie unten auf Erstellen, um den Container zu erstellen.
Creating a Container

3. Klicken Sie auf den Namen Ihres Containers in der Liste, wie unten gezeigt, um ihn zu öffnen. Beachten Sie, dass Ihr Container derzeit leer ist.

Opening the Container

4. Klicken Sie nun auf die Hochladen Schaltfläche oben, um Dateien oder Ordner in Ihren Container hochzuladen.

Initializing Uploading Files or Folders

5. In der Hochladen von Blob-Blade klicken Sie auf die Ordner-Hochladen-Schaltfläche, suchen Sie Ihre Dateien oder Ordner und klicken Sie auf Hochladen, um sie hochzuladen.

Sie können mehrere Dateien und Ordner gleichzeitig hochladen.

Locating Files to Upload

Sie sehen den Status jedes Datei-/Ordneruploads wie unten gezeigt.

Viewing Upload Progress

Nach Abschluss des Uploads werden die Dateien in Ihrem Container aufgelistet.

Verifying Uploaded Files in Azure Portal

Alternativ führen Sie den az storage-Befehl unten aus, um alle hochgeladenen Dateien in Ihrem Container aufzulisten. Ersetzen Sie den Container-Namen (azuredatalakecotainer) und den Kontonamen (ataaazuredatalakecli) durch Ihre eigenen.

az storage fs file list -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

Die Ausgabe unten bestätigt, dass die Dateien erfolgreich in Ihrem Azure Data Lake Storage Gen2-Konto hochgeladen wurden und ihre Metadaten.

Listing Uploaded Files in Container via Azure CLI

6. Führen Sie den unten stehenden Befehl aus, um ein neues Verzeichnis mit dem Namen my-data-lake-directory in Ihrem Container (azuredatalakecotainer) zu erstellen.

az storage fs directory create -n my-data-lake-directory -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

7. Navigieren Sie abschließend zurück zu Ihrem Container im Azure-Portal, und Sie sehen das neu erstellte Verzeichnis in der Liste, wie unten gezeigt.

Von dort aus können Sie weitere neue Dateien und Ordner in das neu erstellte Verzeichnis hochladen, indem Sie Schritte drei bis fünf befolgen.

Verifying Newly-created Directory

Schlussfolgerung

Abgesehen davon, dass es kostengünstig ist, da Sie nur für den Speicherplatz bezahlen, den Sie verwenden, verwendet Azure Data Azure Active Directory zur Authentifizierung und Autorisierung. Die Sicherung Ihrer Daten hat in jedem Fall höchste Priorität. In diesem Tutorial haben Sie gelernt, wie Sie ein Azure Data Lake Storage Gen2-Konto mithilfe des Azure-Portals und der CLI erstellen.

Mit Azure Data Lake können Sie Dateien hochladen und überprüfen, ohne komplizierte Verarbeitung von Big-Data-Analyse-Workloads durchführen zu müssen.

An diesem Punkt können Sie nun sicher alle Ihre Daten an einem Ort speichern und mit den Tools und Diensten, die Azure bietet, mit der Analyse Ihrer Daten beginnen. Warum starten Sie nicht den Data Lake Analytics-Dienst und beginnen Sie mit der Abfrage und Visualisierung Ihrer Daten?

Source:
https://adamtheautomator.com/azure-data-lake/