Como usar o Azure Data Lake para Armazenamento e Análise

Você provavelmente precisará armazenar dados como administrador ou desenvolvedor, e não apenas qualquer dado, mas dados em grande escala. Para onde você se volta? A nuvem é sua opção mais prática, e felizmente, o Azure Data Lake pode ajudar no armazenamento de dados sem preocupações.

O Azure Data Lake permite que você realize todos os tipos de processamento e análises em diversas plataformas e linguagens em uma velocidade impressionante. E neste tutorial, você aprenderá como usar o Azure Data Lake para armazenamento e análise.

Armazene seus dados de maneira eficiente e segura em um só lugar com o Azure Data Lake hoje!

Pré-requisitos

Este tutorial será uma demonstração prática. Se você quiser acompanhar, certifique-se de ter uma conta no Azure com uma assinatura ativa. Se ainda não tiver uma, um teste gratuito será suficiente.

Criando um Data Lake pelo Portal do Azure

O Azure Data Lake é um serviço de armazenamento de dados baseado em nuvem otimizado para análise de big data e é altamente escalável. Você pode começar pequeno e expandir conforme suas necessidades aumentam. Mas como criar o armazenamento?

Faça um rápido tour pelo Portal do Azure e crie uma conta no Azure Data Lake.

1. Abra seu navegador da web favorito e acesse o Portal do Azure.

2. Em seguida, forneça suas credenciais, clique no botão Entrar e faça login na sua conta do Azure.

Depois de fazer login, seu navegador será redirecionado para o Portal do Azure (passo três).

Logging in to Azure Portal

3. No seu Portal do Azure, clique em Criar um recurso, o que abrirá a lista de recursos do Azure disponíveis.

Você verá a página abaixo quando fizer login pela primeira vez ou não tiver nenhum recurso implantado na sua assinatura.

Creating a Resource

4. Procure por ‘conta de armazenamento’ na barra de pesquisa no topo da página e selecione Conta de armazenamento. Fazendo isso, seu navegador será redirecionado para a página de visão geral do recurso Conta de armazenamento.

A barra de pesquisa permite que você encontre rapidamente os recursos que deseja criar, em vez de percorrer os recursos em destaque. Mas para este tutorial, você está criando uma conta de Data Lake do Azure.

O Data Lake do Azure é construído em cima do Armazenamento do Azure. Portanto, uma conta de armazenamento é o tipo de recurso que você precisa criar para uma nova conta de Data Lake do Azure.

Searching for Storage Account Resource

5. Agora, clique em Criar, o que redirecionará seu navegador para a página Criar uma conta de armazenamento (passo seis), onde você configurará sua conta de armazenamento.

Initializing Creating a Storage Account

6. Configure sua conta de armazenamento começando com os Detalhes do projeto da seguinte forma:

  • Selecione sua Assinatura – Se você tiver várias assinaturas, certifique-se de selecionar aquela onde prefere criar sua conta de armazenamento. Este tutorial usa Assinatura do Azure 1, como mostrado abaixo.
  • Selecione seu grupo de recursos – Grupos de recursos são uma forma de agrupar logicamente os recursos do Azure. Você pode pensar nos grupos de recursos como pastas onde você coloca recursos relacionados. Os grupos de recursos permitem que você gerencie, monitore e exclua recursos mais facilmente.

Se você ainda não tem um grupo de recursos, clique no hiperlink Criar novo para criar um.

Setting Project Details

7. Na mesma página, configure os detalhes da instância com o seguinte:

  • Fornecer um nome único para a conta de armazenamento – A escolha deste tutorial é ataazurestorage. O nome deve ser único dentro do Azure e deve ter entre três e 24 caracteres de comprimento.
  • Selecione a Região onde deseja implantar sua conta de armazenamento – A região é onde sua conta de armazenamento residirá fisicamente. Selecione a região mais próxima de você ou de seus usuários.

Por exemplo, se você está criando uma conta de armazenamento para uma aplicação da web que usuários dos EUA acessarão, selecione as regiões Leste dos EUA ou Oeste dos EUA.

  • Mantenha todas as outras configurações com valores padrão e clique em Avançar: Avançado na parte inferior da página. Neste ponto, você terá uma conta de armazenamento de blob padrão.
Create a Storage Account

8. Na guia Avançado, marque a caixa de seleção Habilitar namespace hierárquico no Armazenamento de Data Lake Gen2. Essa opção converte sua conta de armazenamento de blob em uma conta de Data Lake e habilita todas as funcionalidades de um Data Lake, incluindo Análises e Armazenamento.

Clique no botão Revisar + criar (canto inferior esquerdo) para validar suas configurações, o que pode levar alguns minutos para ser concluído.

Click on the Review + create button at the bottom to validate your settings.

9. Após a validação, clique no botão Criar para finalizar a criação da conta de armazenamento.

Creating the Storage Account

Depois que sua conta de armazenamento for criada, você verá a implantação em andamento, conforme mostrado abaixo, o que pode levar alguns minutos para ser concluído.

Viewing Deployment in Progress

10. Por fim, clique no botão Ir para recurso para abrir sua nova conta de armazenamento recém-criada após a implantação. Neste ponto, você já possui uma conta do Azure Data Lake.

Accessing the Newly-created Storage Account
Viewing the New Azure Data Lake Account

Criando um Data Lake Usando a CLI

Você viu que criar uma conta do Azure Data Lake usando o Portal do Azure funciona bem. Mas e se você quiser ter uma maneira repetível e automatizada de criar contas do Data Lake? O Portal do Azure não é a melhor opção, mas sim a CLI do Azure.

A CLI do Azure é uma ferramenta multiplataforma que você pode usar para gerenciar seus recursos do Azure e permite que você integre com seu processo de CI/CD automatizado.

O Azure CLI está disponível para Windows, Linux, Azure Cloud Shell e macOS.

Para criar uma conta do Azure Data Lake via Azure CLI:

1. No Portal do Azure, clique no botão Cloud Shell, conforme mostrado abaixo, para abrir o Azure Cloud Shell.

Opening the Azure Cloud Shell

2. Na parte inferior do Portal do Azure, escolha Bash ou PowerShell como o tipo de shell, e o shell será aberto.

Azure Portal

No Azure Cloud Shell, você pode alternar entre Bash e PowerShell conforme necessário. No entanto, para este tutorial, mantenha o shell Bash ativo.

Viewing Azure Cloud Shell

3. Execute o comando abaixo no Azure Cloud Shell para verificar a versão do Azure CLI instalada. Em qualquer plataforma que você esteja usando, certifique-se de ter a versão 2.6.0 ou posterior do Azure CLI, caso contrário, não será possível criar uma conta do Data Lake.

az --version
Verifying Azure CLI Version Installed

4. Agora, execute o comando abaixo para fazer login no Azure com sua conta do Azure.

Este tutorial utiliza o método de autorização do Azure Active Directory (Azure AD). Esse método é o tipo de autorização recomendado, pois é mais fácil e oferece mais segurança do que o uso de um principal de serviço.

az login

Você verá um código e um URL aparecerem na janela do terminal abaixo. Anote o URL, pois você precisará dele para autenticar o Azure usando o Azure AD na etapa seguinte.

Log in to Azure using your Azure account

5. Autentique usando o Azure AD com o seguinte:

  • Acesse o URL que você anotou na etapa quatro em seu navegador.
  • Faça login usando as credenciais da sua conta Azure e o código que você anotou na etapa quatro.
Authenticating Azure using Azure AD

6. Em seguida, clique em Continuar para completar o processo de autenticação.

Logging in to Azure

7. Execute o comando abaixo az account list para listar as assinaturas da conta conectada.

Se sua conta estiver associada a mais de uma assinatura Azure, você pode precisar selecionar e definir a assinatura que deseja usar para sua conta do Data Lake.

Observe o nome da assinatura a ser usada para sua conta do Azure Data Lake. Para este tutorial, a assinatura a ser usada é a assinatura Azure 1.

az account list
Getting the Subscription Name to Use for the Azure Data Lake Account

8. Agora, execute o seguinte comando az account set e especifique o nome da sua assinatura. Este comando não fornece uma saída, mas define a assinatura a ser usada para sua conta do Azure Data Lake.

az account set --subscription 'Azure subscription 1'

9. Execute o comando az group create a seguir para criar um grupo de recursos. Escolha um nome único para o seu grupo de recursos, mas a escolha deste tutorial é ataadatalakecli e um -location definido como westus.

az group create --location westus --resource-group ataadatalakecli
Creating a Resource Group

10. Após criar um grupo de recursos, execute o comando az storage account create abaixo e passe os valores para os seguintes parâmetros para criar uma conta de armazenamento:

  • --name – Nome da sua conta de Data Lake (ataaazuredatalakecli).
  • --resource-group – Nome do seu grupo de recursos (ataadatalakecli).
  • --location – Localização da sua conta de Data Lake (westus).
  • --sku – O SKU de armazenamento para sua conta de Data Lake (Standard_LRS).
  • --kind – O tipo de conta de Data Lake a ser criada (StorageV2).
  • --enable-hierarchical-namespace true - Ativa o espaço de nomes hierárquico para sua conta, que é necessário para usar o Data Lake Storage Gen2.
az storage account create  --name ataaazuredatalakecli --resource-group ataadatalakecli --location westus --sku Standard_LRS  --kind StorageV2 --enable-hierarchical-namespace true

Observe que o StorageV1 agora foi descontinuado, e você deve usar o StorageV2 para todas as contas de Data Lake recém-criadas. As contas existentes do StorageV1 ainda podem ser usadas por algum tempo, mas eventualmente serão migradas para o StorageV2. Portanto, é altamente recomendável migrar seus dados para contas do StorageV2.

Creating a Storage Account

11. Agora, navegue até o seu grupo de recursos no Portal Azure e você verá seus recursos recém-criados, conforme mostrado abaixo.

Clique no hiperlink do seu grupo de recursos para acessar a página de visão geral do grupo de recursos (passo 12).

Viewing the Resource Groups

12. Por fim, clique na sua conta de armazenamento na lista para acessar a página de visão geral.

Accessing Storage Account Info

Pronto! Agora você tem uma conta de armazenamento ativa.

Viewing the Storage Account’s Overview

Upload de Dados para o Armazenamento de Lake

Você acabou de criar sua conta de Lake Storage Gen2, mas ela está vazia no momento. Então, por que não carregar seus dados? Você pode fazer o upload e verificar seus dados usando o Portal Azure e o Azure CLI, mas primeiro, você deve criar um contêiner.

1. No painel de controle da sua conta de armazenamento, clique em Contêiner em Armazenamento de Dados (painel esquerdo) e clique em Contêiner, conforme mostrado abaixo, para criar um novo contêiner.

No Azure, um contêiner é um sistema de arquivos para armazenar seus dados.

Creating a Container

2. Em seguida, configure o novo contêiner com o seguinte:

  • Especifique um nome para o seu contêiner, mas a escolha deste tutorial é azuredatalakecotainer.
  • Clique em Criar na parte inferior para criar o recipiente.
Creating a Container

3. Clique no nome do seu recipiente na lista, conforme mostrado abaixo, para abri-lo. Observe que seu recipiente está atualmente vazio.

Opening the Container

4. Agora, clique no botão Enviar no topo para enviar arquivos ou pastas para o seu recipiente.

Initializing Uploading Files or Folders

5. Na lâmina Enviar blob, clique no botão de envio de pasta, localize seus arquivos ou pastas e clique em Enviar para enviá-los.

Você pode selecionar vários arquivos e pastas para enviar de uma vez.

Locating Files to Upload

Você verá o status de cada envio de arquivo/pasta como o exemplo abaixo.

Viewing Upload Progress

Assim que o envio for concluído, você verá os arquivos listados no seu recipiente.

Verifying Uploaded Files in Azure Portal

Alternativamente, execute o comando az storage abaixo para listar todos os arquivos enviados no seu recipiente. Substitua o nome do recipiente (azuredatalakecotainer) e o nome da conta (ataaazuredatalakecli) pelos seus próprios.

az storage fs file list -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

A saída abaixo verifica que os arquivos foram enviados com sucesso para sua conta de Armazenamento do Azure Data Lake Gen2 e seus metadados.

Listing Uploaded Files in Container via Azure CLI

6. Execute o comando abaixo para criar um novo diretório chamado my-data-lake-directory no seu recipiente (azuredatalakecotainer).

az storage fs directory create -n my-data-lake-directory -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

7. Finalmente, navegue de volta para o seu contêiner no Portal do Azure, e você verá o diretório recém-criado na lista, como mostrado abaixo.

A partir daí, você pode carregar mais arquivos e pastas para o diretório recém-criado seguindo os passos três a cinco.

Verifying Newly-created Directory

Conclusão

Além de ser econômico, pois você só pagará pelo armazenamento que utilizar, o Azure Data utiliza o Azure Active Directory para autenticação e autorização. Garantir a segurança dos seus dados é uma prioridade máxima de qualquer forma. E neste tutorial, você aprendeu como criar uma conta de Armazenamento Azure Data Lake Gen2 usando o Portal do Azure e a CLI.

Com o Azure Data Lake, você pode carregar arquivos e verificá-los sem realizar processamentos complicados de cargas de trabalho de análise de big data.

Neste ponto, você pode armazenar todos os seus dados com segurança em um só lugar e começar a analisá-los usando as ferramentas e serviços que o Azure oferece. Por que não começar o serviço de Análise do Data Lake e começar a fazer consultas e visualizar seus dados?

Source:
https://adamtheautomator.com/azure-data-lake/