Cómo utilizar Azure Data Lake para almacenamiento y análisis

Es probable que necesites almacenar datos como administrador o desarrollador, y no solo cualquier dato, sino datos masivos. ¿A dónde recurres? La nube es tu opción más práctica y, afortunadamente, Azure Data Lake puede ayudarte con el almacenamiento de datos sin preocupaciones.

Azure Data Lake te permite realizar todo tipo de procesamiento y análisis en diversas plataformas e idiomas a una velocidad increíble. Y en este tutorial, aprenderás a utilizar Azure Data Lake para el almacenamiento y análisis de datos.

¡Almacena eficientemente y de manera segura tus datos en un solo lugar con Azure Data Lake hoy mismo!

Requisitos previos

Este tutorial será una demostración práctica. Si deseas seguirlo, asegúrate de tener una cuenta de Azure con una suscripción activa. Si aún no tienes una, una prueba gratuita será suficiente.

Creación de un Data Lake a través del Portal de Azure

Azure Data Lake es un servicio de almacenamiento de datos basado en la nube optimizado para análisis de big data y altamente escalable. Puedes comenzar de forma pequeña y expandirte a medida que aumenten tus necesidades. Pero, ¿cómo creas el almacenamiento?

Realiza un breve recorrido por el Portal de Azure y crea una cuenta de Azure Data Lake.

1. Abre tu navegador web favorito y accede al Portal de Azure.

2. A continuación, proporcione sus credenciales, haga clic en el botón Iniciar sesión y acceda a su cuenta de Azure.

Después de iniciar sesión, su navegador se redirige al Portal de Azure (paso tres).

Logging in to Azure Portal

3. En su Portal de Azure, haga clic en Crear un recurso, lo que abre la lista de recursos de Azure disponibles.

Verá la página a continuación cuando inicie sesión por primera vez o no tenga ningún recurso implementado en su suscripción.

Creating a Resource

4. Busque ‘cuenta de almacenamiento’ en la barra de búsqueda en la parte superior de la página y seleccione Cuenta de almacenamiento. Al hacerlo, su navegador se redirige a la página de descripción general del recurso Cuenta de almacenamiento.

La barra de búsqueda le permite encontrar rápidamente los recursos que desea crear en lugar de desplazarse por los destacados. Pero para este tutorial, está creando una cuenta de Azure Data Lake.

Azure Data Lake se basa en Azure Storage. Entonces, una cuenta de almacenamiento es el tipo de recurso que necesita crear una nueva cuenta de Azure Data Lake.

Searching for Storage Account Resource

5. Ahora, haga clic en Crear, lo que redirige su navegador a la página Crear una cuenta de almacenamiento (paso seis), donde configurará su cuenta de almacenamiento.

Initializing Creating a Storage Account

6. Configure su cuenta de almacenamiento comenzando con los Detalles del proyecto de la siguiente manera:

  • Seleccione su Suscripción – Si tiene varias suscripciones, asegúrese de seleccionar aquella donde prefiera crear su cuenta de almacenamiento. Este tutorial utiliza la suscripción de Azure 1, como se muestra a continuación.
  • Selecciona tu grupo de recursos – Los grupos de recursos son una forma de agrupar lógicamente los recursos de Azure. Puedes pensar en los grupos de recursos como carpetas donde colocas recursos relacionados. Los grupos de recursos te permiten administrar, supervisar y eliminar recursos de manera más fácil.

Si aún no tienes un grupo de recursos, haz clic en el enlace Crear nuevo para crear uno.

Setting Project Details

7. En la misma página, configura los detalles de la instancia de la siguiente manera:

  • Proporciona un nombre único para la Cuenta de almacenamiento – La elección de este tutorial es ataazurestorage. El nombre debe ser único dentro de Azure y debe tener entre tres y 24 caracteres de longitud.
  • Selecciona la Región donde deseas implementar tu cuenta de almacenamiento – La región es donde residirá físicamente tu cuenta de almacenamiento. Selecciona la región más cercana a ti o a tus usuarios.

Por ejemplo, si estás creando una cuenta de almacenamiento para una aplicación web a la que accederán usuarios de EE. UU., selecciona las regiones Este o Oeste de EE. UU.

  • Mantén todas las demás configuraciones con los valores predeterminados y haz clic en Siguiente: Avanzado en la parte inferior de la página. En este punto, tendrás una cuenta de almacenamiento de blobs estándar.
Create a Storage Account

8. En la pestaña Avanzado, marque la casilla Habilitar espacio de nombres jerárquico en Data Lake Storage Gen2. Esta opción convierte su cuenta de almacenamiento de blobs en una cuenta de Data Lake y habilita todas las funcionalidades de un Data Lake, incluyendo Análisis y Almacenamiento.

Haga clic en el botón Revisar + crear (parte inferior izquierda) para validar sus configuraciones, lo cual puede tardar unos minutos en completarse.

Click on the Review + create button at the bottom to validate your settings.

9. Después de la validación, haga clic en el botón Crear para finalizar la creación de la cuenta de almacenamiento.

Creating the Storage Account

Una vez creada su cuenta de almacenamiento, verá la implementación en progreso, como se muestra a continuación, lo cual puede tardar unos minutos en completarse.

Viewing Deployment in Progress

10. Por último, haga clic en el botón Ir al recurso para abrir su cuenta de almacenamiento recién creada después de la implementación. En este punto, ya tiene una cuenta de Azure Data Lake.

Accessing the Newly-created Storage Account
Viewing the New Azure Data Lake Account

Creación de un Data Lake mediante la CLI

Ha visto que la creación de una cuenta de Azure Data Lake mediante el Portal de Azure funciona bien. Pero, ¿qué pasa si desea tener una forma repetible y automatizada de crear cuentas de Data Lake? El Portal de Azure no es la mejor opción, sino Azure CLI.

Azure CLI es una herramienta multiplataforma que puede utilizar para gestionar sus recursos de Azure y le permite integrarse con su proceso automatizado de CI/CD.

Azure CLI está disponible para Windows, Linux, Azure Cloud Shell y macOS.

Para crear una cuenta de Azure Data Lake a través de Azure CLI:

1. En el Portal de Azure, haz clic en el botón Cloud Shell, como se muestra a continuación, para abrir Azure Cloud Shell.

Opening the Azure Cloud Shell

2. En la parte inferior del Portal de Azure, selecciona Bash o PowerShell como tu tipo de shell y se abrirá el shell.

Azure Portal

En tu Azure Cloud Shell, puedes cambiar tu tipo de shell a voluntad a Bash o PowerShell. Pero para este tutorial, mantén activo el shell Bash.

Viewing Azure Cloud Shell

3. Ejecuta el siguiente comando en tu Azure Cloud Shell para verificar la versión de Azure CLI instalada. Independientemente de la plataforma que estés utilizando, asegúrate de tener Azure CLI versión 2.6.0 o posterior, o de lo contrario no podrás crear una cuenta de Data Lake.

az --version
Verifying Azure CLI Version Installed

4. Ahora, ejecuta el siguiente comando para iniciar sesión en Azure con tu cuenta de Azure.

Este tutorial utiliza el método de autorización de Azure Active Directory (Azure AD). Este método es el tipo de autorización recomendado ya que es más fácil y proporciona más seguridad que usar un principal de servicio.

az login

Verás un código y una URL aparecer en la ventana de la terminal a continuación. Anota la URL, ya que la necesitarás para autenticar Azure mediante Azure AD en el siguiente paso.

Log in to Azure using your Azure account

5. Autentícate usando Azure AD con lo siguiente:

  • Dirígete a la URL que anotaste en el paso cuatro en tu navegador.
  • Inicia sesión con las credenciales de tu cuenta de Azure y el código que anotaste en el paso cuatro.
Authenticating Azure using Azure AD

6. A continuación, haz clic en Continuar para completar el proceso de autenticación.

Logging in to Azure

7. Ejecuta el siguiente comando az account list para listar las suscripciones de la cuenta en la que has iniciado sesión.

Si tu cuenta está asociada con más de una suscripción de Azure, es posible que necesites seleccionar y establecer la suscripción que deseas usar para tu cuenta de Data Lake.

Observa el nombre de la suscripción que debes usar para tu cuenta de Azure Data Lake. En este tutorial, la suscripción a utilizar es la suscripción de Azure 1.

az account list
Getting the Subscription Name to Use for the Azure Data Lake Account

8. Ahora, ejecuta el siguiente comando az account set y especifica el nombre de tu suscripción. Este comando no proporciona una salida, pero establece la suscripción que se utilizará para tu cuenta de Azure Data Lake.

az account set --subscription 'Azure subscription 1'

9. Ejecute el siguiente comando az group create para crear un grupo de recursos. Elija un nombre único para su grupo de recursos, pero la opción de este tutorial es ataadatalakecli y un –location establecido en westus.

az group create --location westus --resource-group ataadatalakecli
Creating a Resource Group

10. Después de crear un grupo de recursos, ejecute el comando az storage account create a continuación y pase los valores de los siguientes parámetros para crear una cuenta de almacenamiento:

  • --name – Nombre de su cuenta de Data Lake (ataaazuredatalakecli).
  • --resource-group – Nombre de su grupo de recursos (ataadatalakecli).
  • --location – Ubicación de su cuenta de Data Lake (westus).
  • --sku – SKU de almacenamiento para su cuenta de Data Lake (Standard_LRS).
  • --kind – Tipo de cuenta de Data Lake a crear (StorageV2).
  • --enable-hierarchical-namespace true - Habilita el espacio de nombres jerárquico para su cuenta, lo cual es necesario para usar Data Lake Storage Gen2.
az storage account create  --name ataaazuredatalakecli --resource-group ataadatalakecli --location westus --sku Standard_LRS  --kind StorageV2 --enable-hierarchical-namespace true

Tenga en cuenta que StorageV1 ha sido desaprobado, y se recomienda encarecidamente utilizar StorageV2 para todas las cuentas de Data Lake recién creadas. Las cuentas existentes de StorageV1 aún pueden utilizarse durante algún tiempo, pero eventualmente se migrarán a StorageV2. Por lo tanto, se recomienda encarecidamente migrar sus datos a cuentas de StorageV2.

Creating a Storage Account

11. Ahora, navega a tu grupo de recursos en el Portal de Azure y verás tus recursos recién creados, como se muestra a continuación.

Haz clic en el hipervínculo de tu grupo de recursos para ir a la página de resumen del grupo de recursos (paso 12).

Viewing the Resource Groups

12. Finalmente, haz clic en tu cuenta de almacenamiento de la lista para acceder a su página de resumen.

Accessing Storage Account Info

¡Eso es todo! Ahora tienes una cuenta de almacenamiento activa.

Viewing the Storage Account’s Overview

Carga de datos en el Data Lake Storage

Acabas de crear tu cuenta de Lake Storage Gen2, pero actualmente está vacía. ¿Por qué no cargar tus datos? Puedes cargar y verificar tus datos utilizando el Portal de Azure y Azure CLI, pero primero debes crear un contenedor.

1. En el panel de control de tu cuenta de almacenamiento, haz clic en Contenedor bajo Almacenamiento de Datos (panel izquierdo) y haz clic en Contenedor, como se muestra a continuación, para crear un nuevo contenedor.

En Azure, un contenedor es un sistema de archivos para almacenar tus datos.

Creating a Container

2. A continuación, configura el nuevo contenedor con lo siguiente:

  • Especifica un nombre para tu contenedor, pero la elección de este tutorial es azuredatalakecotainer.
  • Haga clic en Crear en la parte inferior para crear el contenedor.
Creating a Container

3. Haga clic en el nombre de su contenedor de la lista, como se muestra a continuación, para abrirlo. Tenga en cuenta que su contenedor está vacío actualmente.

Opening the Container

4. Ahora, haga clic en el botón Cargar en la parte superior para cargar archivos o carpetas en su contenedor.

Initializing Uploading Files or Folders

5. En la pestaña Cargar blob, haga clic en el botón de carga de carpeta, localice sus archivos o carpetas y haga clic en Cargar para subirlos.

Puede seleccionar varios archivos y carpetas para cargar de una vez.

Locating Files to Upload

Verá el estado de cada carga de archivo/carpeta como se muestra a continuación.

Viewing Upload Progress

Una vez que se complete la carga, verá los archivos enumerados en su contenedor.

Verifying Uploaded Files in Azure Portal

Alternativamente, ejecute el comando az storage a continuación para listar todos los archivos cargados en su contenedor. Reemplace el nombre del contenedor (azuredatalakecotainer) y el nombre de la cuenta (ataaazuredatalakecli) con los suyos propios.

az storage fs file list -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

La salida a continuación verifica que los archivos se hayan cargado correctamente en su cuenta de Azure Data Lake Storage Gen2 y su metadatos.

Listing Uploaded Files in Container via Azure CLI

6. Ejecute el siguiente comando para crear un nuevo directorio llamado my-data-lake-directory en su contenedor (azuredatalakecotainer).

az storage fs directory create -n my-data-lake-directory -f azuredatalakecotainer --account-name ataaazuredatalakecli --auth-mode login

7. Por último, navega de regreso a tu contenedor en el Portal de Azure y verás el directorio recién creado en la lista, como se muestra a continuación.

Desde allí, puedes subir más archivos y carpetas al directorio recién creado siguiendo los pasos tres a cinco.

Verifying Newly-created Directory

Conclusión

Además de ser rentable, ya que solo pagarás por el almacenamiento que uses, Azure Data utiliza Azure Active Directory para autenticación y autorización. La seguridad de tus datos es una prioridad absoluta de todos modos. Y en este tutorial, has aprendido cómo crear una cuenta de Azure Data Lake Storage Gen2 utilizando el Portal de Azure y la CLI.

Con Azure Data Lake, puedes subir archivos y verificarlos sin tener que realizar un procesamiento complicado de cargas de trabajo de análisis de big data.

En este punto, ahora puedes almacenar de forma segura todos tus datos en un solo lugar y comenzar a analizar tus datos utilizando las herramientas y servicios que ofrece Azure. ¿Por qué no empezar con el servicio Data Lake Analytics y comenzar a consultar y visualizar tus datos?

Source:
https://adamtheautomator.com/azure-data-lake/