Как использовать Azure Data Lake для хранения и анализа

Вам скорее всего потребуется где-то хранить данные в качестве администратора или разработчика, и не просто какие-то данные, а огромные объемы данных. Куда обратиться? Облако – ваш самый практичный вариант, и к счастью, Azure Data Lake может помочь вам с беззаботным хранением данных.

Azure Data Lake позволяет выполнять все виды обработки и аналитики на различных платформах и языках со сверхбыстрой скоростью. И в этом руководстве вы узнаете, как использовать Azure Data Lake для хранения и анализа данных.

Эффективно и безопасно храните свои данные в одном месте с Azure Data Lake уже сегодня!

Предварительные условия

Это руководство будет демонстрацией на практике. Если вы хотите следовать за нами, убедитесь, что у вас есть учетная запись Azure с активной подпиской – если у вас еще нет такой, подойдет бесплатная пробная версия.

Создание озера данных через портал Azure

Azure Data Lake – это облачный сервис хранения данных, оптимизированный для анализа больших данных и имеющий высокую масштабируемость. Вы можете начать с небольших масштабов и расширяться по мере роста ваших потребностей. Но как создать хранилище?

Сделайте быстрый обзор портала Azure и создайте учетную запись Azure Data Lake.

1. Откройте ваш любимый веб-браузер и перейдите на портал Azure.

2. Затем предоставьте свои учетные данные, нажмите кнопку Войти и войдите в свою учетную запись Azure.

После входа ваш браузер перенаправляется на портал Azure (шаг третий).

Logging in to Azure Portal

3. На портале Azure нажмите “Создать ресурс”, что откроет список доступных ресурсов Azure.

Вы увидите страницу ниже при первом входе или если у вас нет развернутых ресурсов в вашей подписке.

Creating a Resource

4. Ищите “storage account” в строке поиска вверху страницы и выберите “Storage account”. Это перенаправит ваш браузер на страницу обзора ресурса Storage account.

Строка поиска позволяет быстро находить ресурсы, которые вы хотите создать, вместо прокрутки через рекомендованные. Но в этом руководстве вы создаете учетную запись Azure Data Lake.

Azure Data Lake построен поверх Azure Storage. Так что тип ресурса, который вам нужно создать, – это учетная запись хранилища.

Searching for Storage Account Resource

5. Теперь нажмите “Создать”, что перенаправит ваш браузер на страницу создания учетной записи хранилища (шаг шестой), где вы настроите свою учетную запись хранилища.

Initializing Creating a Storage Account

6. Настройте свою учетную запись хранилища, начиная с Детали проекта, как показано ниже:

  • Выберите ваш Подписка – Если у вас есть несколько подписок, убедитесь, что вы выбираете ту, в которой вы хотите создать учетную запись хранилища. В этом руководстве используется Azure subscription 1, как показано ниже.
  • Выберите свою группу ресурсов – Группы ресурсов – это способ логической группировки ресурсов Azure. Можно представить группы ресурсов как папки, в которых размещаются связанные ресурсы. Группы ресурсов позволяют управлять, контролировать и удалять ресурсы проще.

Если у вас еще нет группы ресурсов, нажмите на гиперссылку Создать новую, чтобы создать ее.

Setting Project Details

На той же странице настройте параметры экземпляра следующим образом:

  • Укажите уникальное имя учетной записи хранилища – В этом учебнике выбрано имя ataazurestorage. Имя должно быть уникальным в пределах Azure и должно состоять из трех до 24 символов.
  • Выберите регион, в котором вы хотите развернуть свою учетную запись хранилища – Регион, в котором будет физически находиться ваша учетная запись хранилища. Выберите регион, наиболее близкий к вам или вашим пользователям.

Например, если вы создаете учетную запись хранилища для веб-приложения, к которому будут обращаться пользователи из США, выберите регионы US East или US West.

  • Оставьте все остальные настройки с значениями по умолчанию и нажмите на кнопку Далее: Дополнительно внизу страницы. На этом этапе у вас будет стандартная учетная запись блобового хранилища.
Create a Storage Account

8. На вкладке “Дополнительно” установите флажок “Включить иерархическое пространство имен” в хранилище Data Lake Storage Gen2. Этот параметр преобразует вашу учетную запись хранилища блобов в учетную запись Data Lake и активирует все функции Data Lake, включая аналитику и хранилище.

Нажмите кнопку “Обзор + создание” (внизу слева), чтобы подтвердить ваши настройки, что может занять несколько минут.

Click on the Review + create button at the bottom to validate your settings.

9. После проверки нажмите кнопку “Создать”, чтобы завершить создание учетной записи хранилища.

Creating the Storage Account

После создания вашей учетной записи хранения вы увидите процесс развертывания, как показано ниже, что может занять несколько минут.

Viewing Deployment in Progress

10. Наконец, нажмите кнопку “Перейти к ресурсу”, чтобы открыть вашу новосозданную учетную запись хранилища после развертывания. На этом этапе у вас уже есть учетная запись Azure Data Lake.

Accessing the Newly-created Storage Account
Viewing the New Azure Data Lake Account

Создание Data Lake с использованием интерфейса командной строки (CLI)

Вы видели, что создание учетной записи Azure Data Lake через портал Azure работает нормально. Но что если вам хочется иметь повторяемый и автоматизированный способ создания учетных записей Data Lake? Портал Azure не является лучшим вариантом, но Azure CLI.

Azure CLI – это кросс-платформенный инструмент, который вы можете использовать для управления вашими ресурсами Azure и позволяет интегрироваться с вашим автоматизированным процессом CI/CD.

Командная строка Azure доступна для Windows, Linux, Azure Cloud Shell и macOS.

Для создания учетной записи Azure Data Lake через командную строку Azure:

1. На портале Azure нажмите кнопку Cloud Shell, как показано ниже, чтобы открыть Azure Cloud Shell.

Opening the Azure Cloud Shell

2. Внизу портала Azure выберите тип оболочки: Bash или PowerShell, и оболочка откроется.

Azure Portal

В вашей оболочке Azure Cloud Shell вы можете в любое время переключаться между оболочками Bash или PowerShell. Но для этого учебного пособия оставьте активной оболочку Bash.

Viewing Azure Cloud Shell

3. Запустите следующую команду в вашем Azure Cloud Shell, чтобы проверить версию установленной командной строки Azure. Независимо от используемой платформы убедитесь, что у вас установлена версия Azure CLI 2.6.0 или более поздняя, в противном случае вы не сможете создать учетную запись Data Lake.

az --version
Verifying Azure CLI Version Installed

4. Теперь выполните команду ниже, чтобы войти в систему Azure под своей учетной записью Azure.

В этом руководстве используется метод авторизации Azure Active Directory (Azure AD). Этот метод является рекомендуемым, так как он проще и обеспечивает большую безопасность, чем использование служебного принципала.

az login

Вы увидите код и URL-адрес, появляющиеся в окне терминала ниже. Запишите URL-адрес, так как вам понадобится он для аутентификации Azure с использованием Azure AD на следующем этапе.

Log in to Azure using your Azure account

5. Аутентификация с использованием Azure AD следующим образом:

  • Перейдите по URL-адресу, который вы отметили на четвертом шаге, в вашем браузере.
  • Войдите, используя учетные данные вашей учетной записи Azure и код, который вы отметили на четвертом шаге.
Authenticating Azure using Azure AD

6. Затем щелкните “Продолжить”, чтобы завершить процесс аутентификации.

Logging in to Azure

7. Выполните следующую команду az account list, чтобы перечислить подписки для вошедшей учетной записи.

Если ваша учетная запись связана с более чем одной подпиской Azure, вам может потребоваться выбрать и установить подписку, которую вы хотите использовать для своей учетной записи Azure Data Lake.

Запомните название подписки, которую вы хотите использовать для своей учетной записи Azure Data Lake. В этом руководстве используется подписка Azure subscription 1.

az account list
Getting the Subscription Name to Use for the Azure Data Lake Account

8. Теперь выполните следующую команду az account set и укажите имя вашей подписки. Эта команда не предоставляет вывод, но устанавливает подписку для использования в вашей учетной записи Azure Data Lake.

az account set --subscription 'Azure subscription 1'

9. Запустите следующую команду az group create, чтобы создать группу ресурсов. Выберите уникальное имя для вашей группы ресурсов, но в этом руководстве выбрано имя ataadatalakecli и установите параметр –location в westus.

az group create --location westus --resource-group ataadatalakecli
Creating a Resource Group

10. После создания группы ресурсов выполните нижеприведенную команду az storage account create и передайте значения для следующих параметров, чтобы создать учетную запись хранилища:

  • --name – имя вашей учетной записи Data Lake (ataaazuredatalakecli).
  • --resource-group – имя вашей группы ресурсов (ataadatalakecli).
  • --location – местоположение вашей учетной записи Data Lake (westus).
  • --sku – SKU хранилища для вашей учетной записи Data Lake (Standard_LRS).
  • --kind – тип учетной записи Data Lake, которую нужно создать (StorageV2).
  • --enable-hierarchical-namespace true - Включает иерархическое пространство имен для вашей учетной записи, которое необходимо для использования Data Lake Storage Gen2.
az storage account create  --name ataaazuredatalakecli --resource-group ataadatalakecli --location westus --sku Standard_LRS  --kind StorageV2 --enable-hierarchical-namespace true

Обратите внимание, что StorageV1 теперь устарел, и вам следует использовать StorageV2 для всех новых учетных записей Data Lake. Существующие учетные записи StorageV1 все еще могут быть использованы в течение некоторого времени, но в конечном итоге будут перенесены на StorageV2. Поэтому настоятельно рекомендуется перенести ваши данные на учетные записи StorageV2.

Creating a Storage Account

11. Теперь перейдите к вашей группе ресурсов в портале Azure, и вы увидите только что созданные ресурсы, как показано ниже.

Нажмите на гиперссылку вашей группы ресурсов, чтобы перейти на страницу обзора группы ресурсов (шаг 12).

Viewing the Resource Groups

12. Наконец, щелкните на вашем хранилище из списка, чтобы получить доступ к его обзорной странице.

Accessing Storage Account Info

Вот и все! Теперь у вас есть активное хранилище.

Viewing the Storage Account’s Overview

Загрузка данных в хранилище Data Lake

Вы только что создали учетную запись Lake Storage Gen2, но она пока пуста. Почему бы не загрузить ваши данные? Вы можете загрузить и проверить ваши данные, используя портал Azure и Azure CLI, но сначала вам нужно создать контейнер.

1. На панели инструментов вашего хранилища нажмите “Контейнер” в разделе “Хранение данных” (левая панель), а затем нажмите “Создать контейнер”, как показано ниже, чтобы создать новый контейнер.

В Azure контейнер – это файловая система для хранения ваших данных.

Creating a Container

2. Затем настройте новый контейнер следующим образом:

  • Укажите имя для вашего контейнера, но для этого руководства выберите “azuredatalakecotainer”.
  • Выберите приватный (без анонимного доступа) уровень доступа.
  • Нажмите на кнопку Создать внизу, чтобы создать контейнер.
Creating a Container

3. Щелкните на имя вашего контейнера из списка, как показано ниже, чтобы открыть его. Обратите внимание, что ваш контейнер в настоящее время пустой.

Opening the Container

4. Затем нажмите на кнопку Загрузить вверху, чтобы загрузить файлы или папки в ваш контейнер.

Initializing Uploading Files or Folders

5. В разделе Загрузить блоб нажмите на кнопку загрузки папки, найдите ваши файлы или папки и нажмите Загрузить, чтобы загрузить их.

Вы можете выбрать несколько файлов и папок для загрузки одновременно.

Locating Files to Upload

Вы увидите статус каждой загрузки файла/папки, как показано ниже.

Viewing Upload Progress

После завершения загрузки вы увидите список файлов в вашем контейнере.

Verifying Uploaded Files in Azure Portal

Кроме того, выполните команду az storage ниже, чтобы перечислить все загруженные файлы в вашем контейнере. Замените имя контейнера (azuredatalakecotainer) и имя учетной записи (ataaazuredatalakecli) на свои собственные.

az storage fs file list -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

Ниже приведен вывод, подтверждающий успешную загрузку файлов в вашу учетную запись Azure Data Lake Storage Gen2 и их метаданные.

Listing Uploaded Files in Container via Azure CLI

6. Выполните следующую команду, чтобы создать новый каталог с именем my-data-lake-directory в вашем контейнере (azuredatalakecotainer).

az storage fs directory create -n my-data-lake-directory -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

7. Наконец, перейдите обратно в свой контейнер в портале Azure, и вы увидите новосозданную директорию в списке, как показано ниже.

Оттуда вы можете загружать больше новых файлов и папок в новосозданную директорию, следуя шагам с тремя по пять.

Verifying Newly-created Directory

Заключение

Помимо того, что это экономично, так как вы платите только за используемое хранилище, Azure Data использует Azure Active Directory для аутентификации и авторизации. Безопасность ваших данных важна в любом случае. И в этом руководстве вы узнали, как создать учетную запись Azure Data Lake Storage Gen2, используя портал Azure и интерфейс командной строки.

С Azure Data Lake вы можете загружать файлы и проверять их, не занимаясь сложной обработкой рабочих нагрузок аналитики больших данных.

На этом этапе вы можете безопасно хранить все свои данные в одном месте и начать анализировать их с использованием инструментов и сервисов, которые предлагает Azure. Почему бы не начать использовать службу Data Lake Analytics и начать выполнять запросы и визуализировать ваши данные?

Source:
https://adamtheautomator.com/azure-data-lake/