Comment utiliser Azure Data Lake pour le stockage et l’analyse

Vous devrez probablement stocker des données quelque part en tant qu’administrateur ou développeur, pas n’importe quelles données, mais des données massives. Où vous tournez-vous ? Le cloud est votre option la plus pratique, et heureusement, Azure Data Lake peut vous aider à stocker vos données sans soucis.

Azure Data Lake vous permet d’effectuer tous types de traitements et d’analyses sur différentes plateformes et langages à une vitesse impressionnante. Et dans ce tutoriel, vous apprendrez comment utiliser Azure Data Lake pour le stockage et l’analyse de données.

Stockez efficacement et en toute sécurité vos données en un seul endroit avec Azure Data Lake dès aujourd’hui!

Prérequis

Ce tutoriel sera une démonstration pratique. Si vous souhaitez suivre, assurez-vous d’avoir un compte Azure avec un abonnement actif – Si vous n’en avez pas encore, un essai gratuit suffira.

Création d’un Data Lake via le portail Azure

Azure Data Lake est un service de stockage de données basé sur le cloud, optimisé pour l’analyse de données volumineuses et hautement évolutif. Vous pouvez commencer petit et augmenter au fur et à mesure de vos besoins. Mais comment créez-vous le stockage ?

Faites un tour rapide du portail Azure et créez un compte Azure Data Lake.

1. Ouvrez votre navigateur web préféré et accédez au portail Azure.

2. Ensuite, fournissez vos informations d’identification, cliquez sur le bouton Se connecter et connectez-vous à votre compte Azure.

Après vous être connecté, votre navigateur vous redirige vers le portail Azure (étape trois).

Logging in to Azure Portal

3. Sur votre portail Azure, cliquez sur Créer une ressource, ce qui ouvre la liste des ressources Azure disponibles.

Vous verrez la page ci-dessous lors de votre première connexion ou si vous n’avez aucune ressource déployée dans votre abonnement.

Creating a Resource

4. Recherchez ‘compte de stockage’ dans la barre de recherche en haut de la page et sélectionnez Compte de stockage. Cela redirige votre navigateur vers la page d’aperçu de la ressource Compte de stockage.

La barre de recherche vous permet de trouver rapidement les ressources que vous souhaitez créer au lieu de parcourir celles en vedette. Mais pour ce tutoriel, vous créez un compte Azure Data Lake.

Azure Data Lake est construit sur Azure Storage. Ainsi, un compte de stockage est le type de ressource que vous devez créer pour un nouveau compte Azure Data Lake.

Searching for Storage Account Resource

5. Maintenant, cliquez sur Créer, ce qui redirige votre navigateur vers la page Créer un compte de stockage (étape six), où vous configurerez votre compte de stockage.

Initializing Creating a Storage Account

6. Configurez votre compte de stockage en commençant par les Détails du projet comme suit:

  • Sélectionnez votre Abonnement – Si vous avez plusieurs abonnements, assurez-vous de sélectionner celui dans lequel vous préférez créer votre compte de stockage. Ce tutoriel utilise Abonnement Azure 1, comme indiqué ci-dessous.
  • Sélectionnez votre Groupe de ressources – Les groupes de ressources sont un moyen de regrouper logiquement les ressources Azure. Vous pouvez les considérer comme des dossiers dans lesquels vous placez des ressources connexes. Les groupes de ressources vous permettent de gérer, surveiller et supprimer plus facilement les ressources.

Si vous n’avez pas encore de groupe de ressources, cliquez plutôt sur le lien Créer un nouveau pour en créer un.

Setting Project Details

7. Sur la même page, configurez les détails de l’instance comme suit :

  • Fournissez un nom unique du compte de stockage – Le choix de ce tutoriel est ataazurestorage. Le nom doit être unique dans Azure et doit comporter entre trois et 24 caractères.
  • Sélectionnez la région dans laquelle vous souhaitez déployer votre compte de stockage – La région est l’endroit où votre compte de stockage résidera physiquement. Sélectionnez la région la plus proche de vous ou de vos utilisateurs.

Par exemple, si vous créez un compte de stockage pour une application web à laquelle les utilisateurs des États-Unis accéderont, sélectionnez les régions US East ou US West.

  • Gardez les autres paramètres avec les valeurs par défaut et cliquez sur Suivant : Avancé en bas de la page. À ce stade, vous aurez un compte de stockage de blobs standard.
Create a Storage Account

8. Sous l’onglet Avancé, cochez la case Activer l’espace de noms hiérarchique dans le stockage Data Lake Gen2. Cette option convertit votre compte de stockage de blob en un compte Data Lake et active toutes les fonctionnalités d’un Data Lake, y compris Analytics et Store.

Cliquez sur le bouton Examen + création (en bas à gauche) pour valider vos paramètres, ce qui peut prendre quelques minutes.

Click on the Review + create button at the bottom to validate your settings.

9. Après la validation, cliquez sur le bouton Créer pour finaliser la création du compte de stockage.

Creating the Storage Account

Une fois votre compte de stockage créé, vous verrez le déploiement en cours, comme indiqué ci-dessous, ce qui peut prendre quelques minutes pour être complet.

Viewing Deployment in Progress

10. Enfin, cliquez sur le bouton Accéder à la ressource pour ouvrir votre compte de stockage nouvellement créé après le déploiement. À ce stade, vous avez déjà un compte Azure Data Lake.

Accessing the Newly-created Storage Account
Viewing the New Azure Data Lake Account

Création d’un Data Lake à l’aide de l’interface de ligne de commande (CLI) Azure

Vous avez vu que la création d’un compte Azure Data Lake via le portail Azure fonctionne bien. Mais que faire si vous souhaitez avoir une manière reproductible et automatisée de créer des comptes Data Lake ? Le portail Azure n’est pas la meilleure option, mais Azure CLI.

L’Azure CLI est un outil multiplateforme que vous pouvez utiliser pour gérer vos ressources Azure et qui vous permet d’intégrer vos processus CI/CD automatisés.

L’interface de ligne de commande Azure est disponible pour Windows, Linux, Azure Cloud Shell et macOS.

Pour créer un compte Azure Data Lake via l’interface de ligne de commande Azure :

1. Sur le portail Azure, cliquez sur le bouton Cloud Shell, comme illustré ci-dessous, pour ouvrir Azure Cloud Shell.

Opening the Azure Cloud Shell

2. En bas du portail Azure, choisissez soit Bash soit PowerShell comme type de shell, et le shell s’ouvre.

Azure Portal

Sur votre Azure Cloud Shell, vous pouvez changer votre type de shell à tout moment pour passer de Bash à PowerShell. Mais pour ce tutoriel, gardez le shell Bash actif.

Viewing Azure Cloud Shell

3. Exécutez la commande suivante sur votre Azure Cloud Shell pour vérifier la version de l’interface de ligne de commande Azure installée. Peu importe la plateforme que vous utilisez, assurez-vous d’avoir l’interface de ligne de commande Azure version 2.6.0 ou ultérieure, sinon vous ne pourrez pas créer de compte Data Lake.

az --version
Verifying Azure CLI Version Installed

4. Maintenant, exécutez la commande ci-dessous pour vous connecter à Azure avec votre compte Azure.

Ce tutoriel utilise la méthode d’autorisation Azure Active Directory (Azure AD). Cette méthode est le type d’autorisation recommandé car elle est plus facile et offre plus de sécurité que l’utilisation d’un principal de service.

az login

Vous verrez un code et une URL apparaître dans la fenêtre du terminal ci-dessous. Notez l’URL car vous en aurez besoin pour authentifier Azure en utilisant Azure AD à l’étape suivante.

Log in to Azure using your Azure account

5. Authentifiez-vous en utilisant Azure AD avec ce qui suit :

  • Accédez à l’URL que vous avez notée à l’étape quatre dans votre navigateur.
  • Connectez-vous en utilisant vos identifiants de compte Azure et le code que vous avez noté à l’étape quatre.
Authenticating Azure using Azure AD

6. Ensuite, cliquez sur Continuer pour compléter le processus d’authentification.

Logging in to Azure

7. Exécutez la commande ci-dessous az account list pour lister les abonnements du compte connecté.

Si votre compte est associé à plus d’un abonnement Azure, vous devrez peut-être sélectionner et définir l’abonnement que vous souhaitez utiliser pour votre compte Data Lake.

Notez le nom de l’abonnement à utiliser pour votre compte Azure Data Lake. Pour ce tutoriel, l’abonnement à utiliser est Azure subscription 1.

az account list
Getting the Subscription Name to Use for the Azure Data Lake Account

8. Maintenant, exécutez la commande suivante az account set et spécifiez le nom de votre abonnement. Cette commande ne fournit pas de sortie mais définit l’abonnement à utiliser pour votre compte Azure Data Lake.

az account set --subscription 'Azure subscription 1'

9. Exécutez la commande suivante az group create pour créer un groupe de ressources. Choisissez un nom unique pour votre groupe de ressources, mais le choix de ce tutoriel est ataadatalakecli et une -location définie sur westus.

az group create --location westus --resource-group ataadatalakecli
Creating a Resource Group

10. Après avoir créé un groupe de ressources, exécutez la commande az storage account create ci-dessous et transmettez les valeurs des paramètres suivants pour créer un compte de stockage :

  • --name – Nom de votre compte Data Lake (ataaazuredatalakecli).
  • --resource-group – Nom de votre groupe de ressources (ataadatalakecli).
  • --location – Emplacement de votre compte Data Lake (westus).
  • --sku – Le SKU de stockage pour votre compte Data Lake (Standard_LRS).
  • --kind – Le type de compte Data Lake à créer (StorageV2).
  • --enable-hierarchical-namespace true - Active l'espace de noms hiérarchique pour votre compte, ce qui est nécessaire pour utiliser Data Lake Storage Gen2.
az storage account create  --name ataaazuredatalakecli --resource-group ataadatalakecli --location westus --sku Standard_LRS  --kind StorageV2 --enable-hierarchical-namespace true

Notez que StorageV1 est désormais obsolète, et vous devez utiliser StorageV2 pour tous les comptes Data Lake nouvellement créés. Les comptes existants de StorageV1 peuvent encore être utilisés pendant un certain temps mais seront finalement migrés vers StorageV2. Il est donc fortement recommandé de migrer vos données vers des comptes StorageV2.

Creating a Storage Account

11. Maintenant, naviguez vers votre groupe de ressources dans le portail Azure, et vous verrez vos ressources nouvellement créées, comme indiqué ci-dessous.

Cliquez sur le lien hypertexte de votre groupe de ressources pour accéder à la page d’aperçu du groupe de ressources (étape 12).

Viewing the Resource Groups

12. Enfin, cliquez sur votre compte de stockage dans la liste pour accéder à sa page d’aperçu.

Accessing Storage Account Info

C’est tout ! Vous avez maintenant un compte de stockage actif.

Viewing the Storage Account’s Overview

Téléchargement de données vers le stockage de données Lake

Vous venez de créer votre compte Lake Storage Gen2, mais il est actuellement vide. Alors pourquoi ne pas télécharger vos données ? Vous pouvez télécharger et vérifier vos données à l’aide du portail Azure et de l’interface de ligne de commande Azure, mais d’abord, vous devez créer un conteneur.

1. Sur le tableau de bord de votre compte de stockage, cliquez sur Conteneur sous Stockage de données (panneau de gauche), et cliquez sur Conteneur, comme indiqué ci-dessous, pour créer un nouveau conteneur.

Dans Azure, un conteneur est un système de fichiers pour stocker vos données.

Creating a Container

2. Ensuite, configurez le nouveau conteneur avec les éléments suivants :

  • Spécifiez un nom pour votre conteneur, mais le choix de ce tutoriel est azuredatalakecotainer.
  • Sélectionnez le niveau d’accès privé (pas d’accès anonyme) pour le niveau d’accès.
  • Cliquez sur Créer en bas pour créer le conteneur.
Creating a Container

3. Cliquez sur le nom de votre conteneur dans la liste, comme indiqué ci-dessous, pour l’ouvrir. Notez que votre conteneur est actuellement vide.

Opening the Container

4. Maintenant, cliquez sur le bouton Uploader en haut pour charger des fichiers ou des dossiers dans votre conteneur.

Initializing Uploading Files or Folders

5. Dans la fenêtre Télécharger un blob, cliquez sur le bouton de téléchargement de dossier, localisez vos fichiers ou dossiers, et cliquez sur Télécharger pour les charger.

Vous pouvez sélectionner plusieurs fichiers et dossiers à télécharger en une seule fois.

Locating Files to Upload

Vous verrez l’état de chaque téléchargement de fichier/dossier comme celui ci-dessous.

Viewing Upload Progress

Une fois le téléchargement terminé, vous verrez les fichiers répertoriés dans votre conteneur.

Verifying Uploaded Files in Azure Portal

Alternativement, exécutez la commande az storage ci-dessous pour lister tous les fichiers téléchargés dans votre conteneur. Remplacez le nom du conteneur (azuredatalakecotainer) et le nom du compte (ataaazuredatalakecli) par les vôtres.

az storage fs file list -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

La sortie ci-dessous vérifie que les fichiers ont été téléchargés avec succès dans votre compte Azure Data Lake Storage Gen2 et leur métadonnées.

Listing Uploaded Files in Container via Azure CLI

Exécutez la commande ci-dessous pour créer un nouveau répertoire nommé my-data-lake-directory dans votre conteneur (azuredatalakecotainer).

az storage fs directory create -n my-data-lake-directory -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

7. Enfin, naviguez de retour vers votre conteneur dans le portail Azure, et vous verrez le répertoire nouvellement créé dans la liste, comme indiqué ci-dessous.

À partir de là, vous pouvez télécharger plus de nouveaux fichiers et dossiers vers le répertoire nouvellement créé en suivant les étapes trois à cinq.

Verifying Newly-created Directory

Conclusion

En plus d’être rentable car vous ne paierez que pour le stockage que vous utilisez, Azure Data utilise Azure Active Directory pour l’authentification et l’autorisation. Sécuriser vos données est de toute façon une priorité absolue. Et dans ce didacticiel, vous avez appris comment créer un compte de stockage Azure Data Lake Gen2 en utilisant le portail Azure et l’interface de ligne de commande.

Avec Azure Data Lake, vous pouvez télécharger des fichiers et les vérifier, sans effectuer de traitement compliqué des charges de travail d’analyse de données volumineuses.

À ce stade, vous pouvez désormais stocker en toute sécurité toutes vos données en un seul endroit et commencer à analyser vos données à l’aide des outils et services qu’Azure propose. Pourquoi ne pas commencer le service Analytics Data Lake et commencer à interroger et à visualiser vos données ?

Source:
https://adamtheautomator.com/azure-data-lake/