Azure Data Lake를 사용하여 저장 및 분석하는 방법

당신은 아마도 관리자나 개발자로서 대량의 데이터를 어딘가에 저장해야 할 것입니다. 어디로 가야 할까요? 클라우드는 가장 실용적인 옵션이며, 다행히도 Azure Data Lake는 걱정 없는 데이터 저장을 도와줄 수 있습니다.

Azure Data Lake를 사용하면 다양한 플랫폼과 언어에서 모든 유형의 처리와 분석을 빠른 속도로 수행할 수 있습니다. 이 튜토리얼에서는 Azure Data Lake를 사용하여 저장 및 분석하는 방법을 배우게 됩니다.

지금 Azure Data Lake를 사용하여 데이터를 효율적이고 안전하게 한 곳에 저장하세요!

사전 준비 사항

이 튜토리얼은 실습을 위한 데모입니다. 따라하려면 활성 구독이 있는 Azure 계정이 필요합니다. 아직 계정이 없다면 무료 평가판을 사용할 수 있습니다.

Azure 포털을 통해 데이터 레이크 만들기

Azure Data Lake는 대용량 데이터 분석을 최적화한 클라우드 기반 데이터 저장 서비스입니다. 작게 시작하여 필요에 따라 확장할 수 있습니다. 하지만 저장소를 어떻게 생성해야 할까요?

Azure 포털을 간단히 살펴보고 Azure Data Lake 계정을 생성해 보세요.

1. 좋아하는 웹 브라우저를 열고 Azure 포털로 이동하세요.

2. 다음으로 자격 증명을 제공하고, “로그인” 버튼을 클릭하고, Azure 계정에 로그인합니다.

로그인 후에는 브라우저가 Azure 포털로 리디렉션됩니다 (3단계).

Logging in to Azure Portal

3. Azure 포털에서 “리소스 만들기”를 클릭하여 사용 가능한 Azure 리소스 목록을 엽니다.

처음 로그인하거나 구독에 배포된 리소스가 없는 경우 아래의 페이지가 표시됩니다.

Creating a Resource

4. 페이지 상단의 검색 창에서 ‘스토리지 계정’을 검색하고, “스토리지 계정”을 선택합니다. 이렇게 하면 브라우저가 스토리지 계정 리소스 개요 페이지로 리디렉션됩니다.

검색 창을 사용하면 특성 리소스를 스크롤하는 대신 빠르게 만들고자 하는 리소스를 찾을 수 있습니다. 그러나 이 튜토리얼에서는 Azure Data Lake 계정을 만듭니다.

Azure Data Lake는 Azure 스토리지 위에 구축되었습니다. 따라서 새로운 Azure Data Lake 계정을 만들기 위해 스토리지 계정이 필요한 리소스 유형입니다.

Searching for Storage Account Resource

5. 이제 “만들기”를 클릭하면 브라우저가 스토리지 계정 만들기 페이지로 리디렉션되며 (6단계), 스토리지 계정을 구성할 수 있습니다.

Initializing Creating a Storage Account

6. 다음과 같이 스토리지 계정을 구성하십시오. 먼저 프로젝트 세부 정보를 선택합니다.

  • 구독을 선택합니다. – 여러 구독이 있는 경우, 스토리지 계정을 만들기를 원하는 구독을 선택하십시오. 이 튜토리얼에서는 아래와 같이 Azure 구독 1을 사용합니다.
  • 리소스 그룹 선택 – 리소스 그룹은 Azure 리소스를 논리적으로 그룹화하는 방법입니다. 리소스 그룹은 관련된 리소스를 배치하는 폴더로 생각할 수 있습니다. 리소스 그룹을 사용하면 리소스를 쉽게 관리, 모니터링 및 삭제할 수 있습니다.

아직 리소스 그룹이 없는 경우, 대신 새로 만들기 하이퍼링크를 클릭하여 하나를 생성하십시오.

Setting Project Details

7. 동일한 페이지에서 다음과 같이 인스턴스 세부 정보를 구성하십시오:

  • 고유한 스토리지 계정 이름을 입력하십시오 – 이 튜토리얼에서는 “ataazurestorage”로 선택했습니다. 이름은 Azure 내에서 고유해야 하며 3~24자 사이여야 합니다.
  • 스토리지 계정을 배포할 지역을 선택하십시오 – 지역은 스토리지 계정이 물리적으로 위치할 곳입니다. 가장 가까운 지역이나 사용자의 위치를 선택하십시오.

예를 들어, 미국에서 액세스하는 웹 애플리케이션에 대한 스토리지 계정을 생성하는 경우, 미국 동부 또는 미국 서부 지역을 선택하십시오.

  • 다른 설정은 모두 기본값으로 유지하고 페이지 하단의 “다음: 고급”을 클릭하십시오. 이 시점에서 표준 Blob 스토리지 계정이 생성됩니다.
Create a Storage Account

8. 고급 탭에서 데이터 레이크 스토리지 Gen2에서 계층적 네임스페이스 사용란에 체크합니다. 이 옵션은 Blob 스토리지 계정을 데이터 레이크 계정으로 변환하고 분석 및 저장소를 포함한 데이터 레이크의 모든 기능을 활성화합니다.

설정을 확인하고 생성 버튼(왼쪽 하단)을 클릭하여 설정을 유효화합니다. 이 작업은 몇 분 정도 소요될 수 있습니다.

Click on the Review + create button at the bottom to validate your settings.

유효화 후, 생성 버튼을 클릭하여 스토리지 계정 생성을 최종화합니다.

Creating the Storage Account

스토리지 계정이 생성되면 아래와 같이 배포 진행 상태가 표시되며, 몇 분 정도 소요될 수 있습니다.

Viewing Deployment in Progress

10. 마지막으로, 배포 후에 새로 생성된 스토리지 계정을 열려면 “리소스로 이동” 버튼을 클릭하세요. 이 시점에서 이미 Azure 데이터 레이크 계정을 보유하고 있습니다.

Accessing the Newly-created Storage Account
Viewing the New Azure Data Lake Account

CLI를 사용하여 데이터 레이크 생성

Azure Portal을 사용하여 Azure 데이터 레이크 계정을 생성하는 것이 잘 작동함을 알았습니다. 그러나 반복 가능하고 자동화된 방식으로 데이터 레이크 계정을 생성하려는 경우 Azure Portal은 가장 좋은 선택이 아니며, Azure CLI를 사용해야 합니다.

Azure CLI는 Azure 리소스를 관리하고 자동화된 CI/CD 프로세스에 통합할 수 있는 크로스 플랫폼 도구입니다.

Azure CLI는 Windows, Linux, Azure Cloud Shell 및 macOS에서 사용할 수 있습니다.

Azure CLI를 사용하여 Azure Data Lake 계정을 만드는 방법은 다음과 같습니다:

1. Azure Portal에서 아래와 같이 Azure Cloud Shell 버튼을 클릭하여 Azure Cloud Shell을 엽니다.

Opening the Azure Cloud Shell

2. Azure Portal 하단에서 쉘 유형으로 Bash 또는 PowerShell 중 하나를 선택하고 쉘이 열립니다.

Azure Portal

Azure Cloud Shell에서는 언제든지 쉘 유형을 Bash 또는 PowerShell로 변경할 수 있습니다. 그러나 이 튜토리얼에서는 Bash 쉘이 활성화된 상태를 유지하세요.

Viewing Azure Cloud Shell

3. Azure Cloud Shell에서 아래 명령을 실행하여 설치된 Azure CLI의 버전을 확인합니다. 사용 중인 플랫폼에 관계없이 Azure CLI 버전 2.6.0 이상이어야만 Data Lake 계정을 만들 수 있습니다.

az --version
Verifying Azure CLI Version Installed

4. 이제 아래 명령을 실행하여 Azure 계정으로 Azure에 로그인하세요.

이 튜토리얼에서는 Azure Active Directory (Azure AD) 인증 방법을 사용합니다. 이 방법은 서비스 프린시펄을 사용하는 것보다 더 쉽고 보안성이 높은 권한 부여 방식입니다.

az login

아래의 터미널 창에 코드와 URL이 표시됩니다. 다음 단계에서 Azure AD를 사용하여 Azure를 인증하는 데 필요한 URL을 메모해 두세요.

Log in to Azure using your Azure account

5. 다음과 같이 Azure AD를 사용하여 인증하세요:

  • 4단계에서 메모한 URL을 브라우저에서 엽니다.
  • Azure 계정 자격 증명과 4단계에서 메모한 코드를 사용하여 로그인합니다.
Authenticating Azure using Azure AD

6. 다음으로, 인증 프로세스를 완료하려면 계속 버튼을 클릭합니다.

Logging in to Azure

7. 아래의 az account list 명령을 실행하여 로그인한 계정의 구독을 목록으로 표시합니다.

계정이 하나 이상의 Azure 구독과 연결된 경우, 데이터 레이크 계정에 사용할 구독을 선택하고 설정해야 할 수도 있습니다.

Azure Data Lake 계정에 사용할 구독의 이름을 메모하세요. 이 튜토리얼에서 사용할 구독은 Azure 구독 1입니다.

az account list
Getting the Subscription Name to Use for the Azure Data Lake Account

8. 이제 다음과 같이 az account set 명령을 실행하고 구독의 이름을 지정하세요. 이 명령은 출력을 제공하지 않지만 Azure Data Lake 계정에 사용할 구독을 설정합니다.

az account set --subscription 'Azure subscription 1'

9. 리소스 그룹을 만들기 위해 다음 az group create 명령을 실행하십시오. 리소스 그룹에 고유한 이름을 선택하십시오. 이 튜토리얼에서는 ataadatalakecli 라는 이름을 선택하고 –location을 westus로 설정합니다.

az group create --location westus --resource-group ataadatalakecli
Creating a Resource Group

10. 리소스 그룹을 생성한 후에는 아래의 az storage account create 명령을 실행하고 다음 매개변수의 값을 전달하여 스토리지 계정을 생성하십시오:

  • --name – 데이터 레이크 계정 이름(ataaazuredatalakecli).
  • --resource-group – 리소스 그룹 이름(ataadatalakecli).
  • --location – 데이터 레이크 계정의 위치(westus).
  • --sku – 데이터 레이크 계정의 스토리지 SKU(Standard_LRS).
  • --kind – 생성할 데이터 레이크 계정의 유형(StorageV2).
  • --enable-hierarchical-namespace true – 계정의 계층적 네임스페이스를 사용하도록 설정합니다. 이는 Data Lake Storage Gen2를 사용하기 위해 필요합니다.
az storage account create  --name ataaazuredatalakecli --resource-group ataadatalakecli --location westus --sku Standard_LRS  --kind StorageV2 --enable-hierarchical-namespace true

StorageV1은 현재 사용이 중단되었으며, 새로 생성되는 데이터 레이크 계정에는 StorageV2를 사용해야 합니다. 기존의 StorageV1 계정은 일부 시간 동안 사용할 수 있지만, 결국 StorageV2로 마이그레이션될 것입니다. 따라서 데이터를 StorageV2 계정으로 마이그레이션하는 것이 강력히 권장됩니다.

Creating a Storage Account

11. 이제 Azure Portal에서 리소스 그룹으로 이동하면 아래와 같이 새로 만든 리소스가 표시됩니다.

리소스 그룹의 개요 페이지로 이동하려면 리소스 그룹의 하이퍼링크를 클릭하세요(단계 12).

Viewing the Resource Groups

12. 마지막으로 목록에서 저장소 계정을 클릭하여 개요 페이지에 액세스하세요.

Accessing Storage Account Info

그것으로 끝입니다! 이제 활성화된 저장소 계정이 있습니다.

Viewing the Storage Account’s Overview

데이터 레이크 저장소에 데이터 업로드하기

방금 레이크 저장소 Gen2 계정을 만들었지만 현재 비어 있습니다. 그러니 데이터를 업로드해 보는 것은 어떨까요? Azure Portal 및 Azure CLI를 사용하여 데이터를 업로드하고 확인할 수 있지만, 먼저 컨테이너를 생성해야 합니다.

1. 저장소 계정 대시보드에서 데이터 저장소(왼쪽 패널) 아래의 컨테이너를 클릭하고 새 컨테이너를 만들기 위해 아래에 표시된대로 컨테이너를 클릭하세요.

Azure에서 컨테이너는 데이터를 저장하는 파일 시스템입니다.

Creating a Container

2. 다음으로 다음과 같이 새로운 컨테이너를 구성하세요:

  • 컨테이너의 이름을 지정하십시오. 이 튜토리얼에서는 azuredatalakecotainer라는 이름을 선택합니다.
  • 하단에 있는 만들기를 클릭하여 컨테이너를 만드십시오.
Creating a Container

3. 아래 목록에서 컨테이너 이름을 클릭하여 엽니다. 현재 컨테이너가 비어있음을 유의하십시오.

Opening the Container

4. 이제 상단의 업로드 버튼을 클릭하여 파일이나 폴더를 컨테이너에 업로드하십시오.

Initializing Uploading Files or Folders

5. 블롭 업로드 블레이드에서 폴더 업로드 버튼을 클릭하고 파일이나 폴더를 찾아 업로드하려면 업로드를 클릭하십시오.

한 번에 여러 파일과 폴더를 선택하여 업로드할 수 있습니다.

Locating Files to Upload

각 파일/폴더 업로드의 상태를 다음과 같이 확인할 수 있습니다.

Viewing Upload Progress

업로드가 완료되면 파일이 컨테이너에 나열됩니다.

Verifying Uploaded Files in Azure Portal

또는 아래의 az storage 명령을 실행하여 컨테이너에 업로드된 모든 파일을 나열할 수 있습니다. 컨테이너 이름(azuredatalakecotainer)과 계정 이름(ataaazuredatalakecli)을 자신의 것으로 바꾸십시오.

az storage fs file list -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

다음 출력은 Azure Data Lake Storage Gen2 계정에 파일이 성공적으로 업로드되었음을 확인합니다.

Listing Uploaded Files in Container via Azure CLI

아래 명령을 실행하여 컨테이너(azuredatalakecotainer)에 my-data-lake-directory라는 새 디렉터리를 만드십시오.

az storage fs directory create -n my-data-lake-directory -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

7. 마지막으로, Azure Portal에서 컨테이너로 돌아가면 아래와 같이 새로 생성된 디렉토리가 목록에 표시됩니다.

거기에서 단계 세부 내용을 따라 새로 생성된 디렉토리에 더 많은 파일과 폴더를 업로드할 수 있습니다.

Verifying Newly-created Directory

결론

Azure Data는 사용한 스토리지에 대해서만 비용을 지불하므로 비용 효율적입니다. Azure Data는 인증 및 권한 부여를 위해 Azure Active Directory를 사용합니다. 데이터의 보안은 최우선 사항입니다. 이 튜토리얼에서는 Azure Portal 및 CLI를 사용하여 Azure Data Lake Storage Gen2 계정을 만드는 방법을 배웠습니다.

Azure Data Lake를 사용하면 복잡한 대규모 데이터 분석 워크로드를 처리하지 않고도 파일을 업로드하고 확인할 수 있습니다.

이 시점에서 모든 데이터를 안전하게 한 곳에 저장하고 Azure가 제공하는 도구와 서비스를 사용하여 데이터를 분석할 수 있습니다. 어째서 Data Lake Analytics 서비스를 시작하여 데이터를 쿼리하고 시각화하지 않을까요?

Source:
https://adamtheautomator.com/azure-data-lake/