Вам скорее всего потребуется где-то хранить данные в качестве администратора или разработчика, и не просто какие-то данные, а огромные объемы данных. Куда обратиться? Облако – ваш самый практичный вариант, и к счастью, Azure Data Lake может помочь вам с беззаботным хранением данных.
Azure Data Lake позволяет выполнять все виды обработки и аналитики на различных платформах и языках со сверхбыстрой скоростью. И в этом руководстве вы узнаете, как использовать Azure Data Lake для хранения и анализа данных.
Эффективно и безопасно храните свои данные в одном месте с Azure Data Lake уже сегодня!
Предварительные условия
Это руководство будет демонстрацией на практике. Если вы хотите следовать за нами, убедитесь, что у вас есть учетная запись Azure с активной подпиской – если у вас еще нет такой, подойдет бесплатная пробная версия.
Создание озера данных через портал Azure
Azure Data Lake – это облачный сервис хранения данных, оптимизированный для анализа больших данных и имеющий высокую масштабируемость. Вы можете начать с небольших масштабов и расширяться по мере роста ваших потребностей. Но как создать хранилище?
Сделайте быстрый обзор портала Azure и создайте учетную запись Azure Data Lake.
1. Откройте ваш любимый веб-браузер и перейдите на портал Azure.
2. Затем предоставьте свои учетные данные, нажмите кнопку Войти и войдите в свою учетную запись Azure.
После входа ваш браузер перенаправляется на портал Azure (шаг третий).

3. На портале Azure нажмите “Создать ресурс”, что откроет список доступных ресурсов Azure.
Вы увидите страницу ниже при первом входе или если у вас нет развернутых ресурсов в вашей подписке.

4. Ищите “storage account” в строке поиска вверху страницы и выберите “Storage account”. Это перенаправит ваш браузер на страницу обзора ресурса Storage account.
Строка поиска позволяет быстро находить ресурсы, которые вы хотите создать, вместо прокрутки через рекомендованные. Но в этом руководстве вы создаете учетную запись Azure Data Lake.
Azure Data Lake построен поверх Azure Storage. Так что тип ресурса, который вам нужно создать, – это учетная запись хранилища.

5. Теперь нажмите “Создать”, что перенаправит ваш браузер на страницу создания учетной записи хранилища (шаг шестой), где вы настроите свою учетную запись хранилища.

6. Настройте свою учетную запись хранилища, начиная с Детали проекта, как показано ниже:
- Выберите ваш Подписка – Если у вас есть несколько подписок, убедитесь, что вы выбираете ту, в которой вы хотите создать учетную запись хранилища. В этом руководстве используется Azure subscription 1, как показано ниже.
- Выберите свою группу ресурсов – Группы ресурсов – это способ логической группировки ресурсов Azure. Можно представить группы ресурсов как папки, в которых размещаются связанные ресурсы. Группы ресурсов позволяют управлять, контролировать и удалять ресурсы проще.
Если у вас еще нет группы ресурсов, нажмите на гиперссылку Создать новую, чтобы создать ее.

На той же странице настройте параметры экземпляра следующим образом:
- Укажите уникальное имя учетной записи хранилища – В этом учебнике выбрано имя ataazurestorage. Имя должно быть уникальным в пределах Azure и должно состоять из трех до 24 символов.
- Выберите регион, в котором вы хотите развернуть свою учетную запись хранилища – Регион, в котором будет физически находиться ваша учетная запись хранилища. Выберите регион, наиболее близкий к вам или вашим пользователям.
Например, если вы создаете учетную запись хранилища для веб-приложения, к которому будут обращаться пользователи из США, выберите регионы US East или US West.
- Оставьте все остальные настройки с значениями по умолчанию и нажмите на кнопку Далее: Дополнительно внизу страницы. На этом этапе у вас будет стандартная учетная запись блобового хранилища.

8. На вкладке “Дополнительно” установите флажок “Включить иерархическое пространство имен” в хранилище Data Lake Storage Gen2. Этот параметр преобразует вашу учетную запись хранилища блобов в учетную запись Data Lake и активирует все функции Data Lake, включая аналитику и хранилище.
Нажмите кнопку “Обзор + создание” (внизу слева), чтобы подтвердить ваши настройки, что может занять несколько минут.

9. После проверки нажмите кнопку “Создать”, чтобы завершить создание учетной записи хранилища.

После создания вашей учетной записи хранения вы увидите процесс развертывания, как показано ниже, что может занять несколько минут.

10. Наконец, нажмите кнопку “Перейти к ресурсу”, чтобы открыть вашу новосозданную учетную запись хранилища после развертывания. На этом этапе у вас уже есть учетная запись Azure Data Lake.


Создание Data Lake с использованием интерфейса командной строки (CLI)
Вы видели, что создание учетной записи Azure Data Lake через портал Azure работает нормально. Но что если вам хочется иметь повторяемый и автоматизированный способ создания учетных записей Data Lake? Портал Azure не является лучшим вариантом, но Azure CLI.
Azure CLI – это кросс-платформенный инструмент, который вы можете использовать для управления вашими ресурсами Azure и позволяет интегрироваться с вашим автоматизированным процессом CI/CD.
Командная строка Azure доступна для Windows, Linux, Azure Cloud Shell и macOS.
Для создания учетной записи Azure Data Lake через командную строку Azure:
1. На портале Azure нажмите кнопку Cloud Shell, как показано ниже, чтобы открыть Azure Cloud Shell.

2. Внизу портала Azure выберите тип оболочки: Bash или PowerShell, и оболочка откроется.

В вашей оболочке Azure Cloud Shell вы можете в любое время переключаться между оболочками Bash или PowerShell. Но для этого учебного пособия оставьте активной оболочку Bash.

3. Запустите следующую команду в вашем Azure Cloud Shell, чтобы проверить версию установленной командной строки Azure. Независимо от используемой платформы убедитесь, что у вас установлена версия Azure CLI 2.6.0 или более поздняя, в противном случае вы не сможете создать учетную запись Data Lake.

4. Теперь выполните команду ниже, чтобы войти в систему Azure под своей учетной записью Azure.
В этом руководстве используется метод авторизации Azure Active Directory (Azure AD). Этот метод является рекомендуемым, так как он проще и обеспечивает большую безопасность, чем использование служебного принципала.
Вы увидите код и URL-адрес, появляющиеся в окне терминала ниже. Запишите URL-адрес, так как вам понадобится он для аутентификации Azure с использованием Azure AD на следующем этапе.

5. Аутентификация с использованием Azure AD следующим образом:
- Перейдите по URL-адресу, который вы отметили на четвертом шаге, в вашем браузере.
- Войдите, используя учетные данные вашей учетной записи Azure и код, который вы отметили на четвертом шаге.

6. Затем щелкните “Продолжить”, чтобы завершить процесс аутентификации.

7. Выполните следующую команду az account list, чтобы перечислить подписки для вошедшей учетной записи.
Если ваша учетная запись связана с более чем одной подпиской Azure, вам может потребоваться выбрать и установить подписку, которую вы хотите использовать для своей учетной записи Azure Data Lake.
Запомните название подписки, которую вы хотите использовать для своей учетной записи Azure Data Lake. В этом руководстве используется подписка Azure subscription 1.

8. Теперь выполните следующую команду az account set и укажите имя вашей подписки. Эта команда не предоставляет вывод, но устанавливает подписку для использования в вашей учетной записи Azure Data Lake.
9. Запустите следующую команду az group create, чтобы создать группу ресурсов. Выберите уникальное имя для вашей группы ресурсов, но в этом руководстве выбрано имя ataadatalakecli и установите параметр –location в westus.

10. После создания группы ресурсов выполните нижеприведенную команду az storage account create и передайте значения для следующих параметров, чтобы создать учетную запись хранилища:
--name
– имя вашей учетной записи Data Lake (ataaazuredatalakecli
).
--resource-group
– имя вашей группы ресурсов (ataadatalakecli
).
--location
– местоположение вашей учетной записи Data Lake (westus
).
--sku
– SKU хранилища для вашей учетной записи Data Lake (Standard_LRS
).
--kind
– тип учетной записи Data Lake, которую нужно создать (StorageV2
).
--enable-hierarchical-namespace true - Включает иерархическое пространство имен для вашей учетной записи, которое необходимо для использования Data Lake Storage Gen2.
Обратите внимание, что StorageV1 теперь устарел, и вам следует использовать StorageV2 для всех новых учетных записей Data Lake. Существующие учетные записи StorageV1 все еще могут быть использованы в течение некоторого времени, но в конечном итоге будут перенесены на StorageV2. Поэтому настоятельно рекомендуется перенести ваши данные на учетные записи StorageV2.

11. Теперь перейдите к вашей группе ресурсов в портале Azure, и вы увидите только что созданные ресурсы, как показано ниже.
Нажмите на гиперссылку вашей группы ресурсов, чтобы перейти на страницу обзора группы ресурсов (шаг 12).

12. Наконец, щелкните на вашем хранилище из списка, чтобы получить доступ к его обзорной странице.

Вот и все! Теперь у вас есть активное хранилище.

Загрузка данных в хранилище Data Lake
Вы только что создали учетную запись Lake Storage Gen2, но она пока пуста. Почему бы не загрузить ваши данные? Вы можете загрузить и проверить ваши данные, используя портал Azure и Azure CLI, но сначала вам нужно создать контейнер.
1. На панели инструментов вашего хранилища нажмите “Контейнер” в разделе “Хранение данных” (левая панель), а затем нажмите “Создать контейнер”, как показано ниже, чтобы создать новый контейнер.
В Azure контейнер – это файловая система для хранения ваших данных.

2. Затем настройте новый контейнер следующим образом:
- Укажите имя для вашего контейнера, но для этого руководства выберите “azuredatalakecotainer”.
- Выберите приватный (без анонимного доступа) уровень доступа.
- Нажмите на кнопку Создать внизу, чтобы создать контейнер.

3. Щелкните на имя вашего контейнера из списка, как показано ниже, чтобы открыть его. Обратите внимание, что ваш контейнер в настоящее время пустой.

4. Затем нажмите на кнопку Загрузить вверху, чтобы загрузить файлы или папки в ваш контейнер.

5. В разделе Загрузить блоб нажмите на кнопку загрузки папки, найдите ваши файлы или папки и нажмите Загрузить, чтобы загрузить их.
Вы можете выбрать несколько файлов и папок для загрузки одновременно.

Вы увидите статус каждой загрузки файла/папки, как показано ниже.

После завершения загрузки вы увидите список файлов в вашем контейнере.

Кроме того, выполните команду az storage ниже, чтобы перечислить все загруженные файлы в вашем контейнере. Замените имя контейнера (azuredatalakecotainer) и имя учетной записи (ataaazuredatalakecli) на свои собственные.
Ниже приведен вывод, подтверждающий успешную загрузку файлов в вашу учетную запись Azure Data Lake Storage Gen2 и их метаданные.

6. Выполните следующую команду, чтобы создать новый каталог с именем my-data-lake-directory в вашем контейнере (azuredatalakecotainer).

7. Наконец, перейдите обратно в свой контейнер в портале Azure, и вы увидите новосозданную директорию в списке, как показано ниже.
Оттуда вы можете загружать больше новых файлов и папок в новосозданную директорию, следуя шагам с тремя по пять.

Заключение
Помимо того, что это экономично, так как вы платите только за используемое хранилище, Azure Data использует Azure Active Directory для аутентификации и авторизации. Безопасность ваших данных важна в любом случае. И в этом руководстве вы узнали, как создать учетную запись Azure Data Lake Storage Gen2, используя портал Azure и интерфейс командной строки.
С Azure Data Lake вы можете загружать файлы и проверять их, не занимаясь сложной обработкой рабочих нагрузок аналитики больших данных.
На этом этапе вы можете безопасно хранить все свои данные в одном месте и начать анализировать их с использованием инструментов и сервисов, которые предлагает Azure. Почему бы не начать использовать службу Data Lake Analytics и начать выполнять запросы и визуализировать ваши данные?