Es probable que necesites almacenar datos como administrador o desarrollador, y no solo cualquier dato, sino datos masivos. ¿A dónde recurres? La nube es tu opción más práctica y, afortunadamente, Azure Data Lake puede ayudarte con el almacenamiento de datos sin preocupaciones.
Azure Data Lake te permite realizar todo tipo de procesamiento y análisis en diversas plataformas e idiomas a una velocidad increíble. Y en este tutorial, aprenderás a utilizar Azure Data Lake para el almacenamiento y análisis de datos.
¡Almacena eficientemente y de manera segura tus datos en un solo lugar con Azure Data Lake hoy mismo!
Requisitos previos
Este tutorial será una demostración práctica. Si deseas seguirlo, asegúrate de tener una cuenta de Azure con una suscripción activa. Si aún no tienes una, una prueba gratuita será suficiente.
Creación de un Data Lake a través del Portal de Azure
Azure Data Lake es un servicio de almacenamiento de datos basado en la nube optimizado para análisis de big data y altamente escalable. Puedes comenzar de forma pequeña y expandirte a medida que aumenten tus necesidades. Pero, ¿cómo creas el almacenamiento?
Realiza un breve recorrido por el Portal de Azure y crea una cuenta de Azure Data Lake.
1. Abre tu navegador web favorito y accede al Portal de Azure.
2. A continuación, proporcione sus credenciales, haga clic en el botón Iniciar sesión y acceda a su cuenta de Azure.
Después de iniciar sesión, su navegador se redirige al Portal de Azure (paso tres).

3. En su Portal de Azure, haga clic en Crear un recurso, lo que abre la lista de recursos de Azure disponibles.
Verá la página a continuación cuando inicie sesión por primera vez o no tenga ningún recurso implementado en su suscripción.

4. Busque ‘cuenta de almacenamiento’ en la barra de búsqueda en la parte superior de la página y seleccione Cuenta de almacenamiento. Al hacerlo, su navegador se redirige a la página de descripción general del recurso Cuenta de almacenamiento.
La barra de búsqueda le permite encontrar rápidamente los recursos que desea crear en lugar de desplazarse por los destacados. Pero para este tutorial, está creando una cuenta de Azure Data Lake.
Azure Data Lake se basa en Azure Storage. Entonces, una cuenta de almacenamiento es el tipo de recurso que necesita crear una nueva cuenta de Azure Data Lake.

5. Ahora, haga clic en Crear, lo que redirige su navegador a la página Crear una cuenta de almacenamiento (paso seis), donde configurará su cuenta de almacenamiento.

6. Configure su cuenta de almacenamiento comenzando con los Detalles del proyecto de la siguiente manera:
- Seleccione su Suscripción – Si tiene varias suscripciones, asegúrese de seleccionar aquella donde prefiera crear su cuenta de almacenamiento. Este tutorial utiliza la suscripción de Azure 1, como se muestra a continuación.
- Selecciona tu grupo de recursos – Los grupos de recursos son una forma de agrupar lógicamente los recursos de Azure. Puedes pensar en los grupos de recursos como carpetas donde colocas recursos relacionados. Los grupos de recursos te permiten administrar, supervisar y eliminar recursos de manera más fácil.
Si aún no tienes un grupo de recursos, haz clic en el enlace Crear nuevo para crear uno.

7. En la misma página, configura los detalles de la instancia de la siguiente manera:
- Proporciona un nombre único para la Cuenta de almacenamiento – La elección de este tutorial es ataazurestorage. El nombre debe ser único dentro de Azure y debe tener entre tres y 24 caracteres de longitud.
- Selecciona la Región donde deseas implementar tu cuenta de almacenamiento – La región es donde residirá físicamente tu cuenta de almacenamiento. Selecciona la región más cercana a ti o a tus usuarios.
Por ejemplo, si estás creando una cuenta de almacenamiento para una aplicación web a la que accederán usuarios de EE. UU., selecciona las regiones Este o Oeste de EE. UU.
- Mantén todas las demás configuraciones con los valores predeterminados y haz clic en Siguiente: Avanzado en la parte inferior de la página. En este punto, tendrás una cuenta de almacenamiento de blobs estándar.

8. En la pestaña Avanzado, marque la casilla Habilitar espacio de nombres jerárquico en Data Lake Storage Gen2. Esta opción convierte su cuenta de almacenamiento de blobs en una cuenta de Data Lake y habilita todas las funcionalidades de un Data Lake, incluyendo Análisis y Almacenamiento.
Haga clic en el botón Revisar + crear (parte inferior izquierda) para validar sus configuraciones, lo cual puede tardar unos minutos en completarse.

9. Después de la validación, haga clic en el botón Crear para finalizar la creación de la cuenta de almacenamiento.

Una vez creada su cuenta de almacenamiento, verá la implementación en progreso, como se muestra a continuación, lo cual puede tardar unos minutos en completarse.

10. Por último, haga clic en el botón Ir al recurso para abrir su cuenta de almacenamiento recién creada después de la implementación. En este punto, ya tiene una cuenta de Azure Data Lake.


Creación de un Data Lake mediante la CLI
Ha visto que la creación de una cuenta de Azure Data Lake mediante el Portal de Azure funciona bien. Pero, ¿qué pasa si desea tener una forma repetible y automatizada de crear cuentas de Data Lake? El Portal de Azure no es la mejor opción, sino Azure CLI.
Azure CLI es una herramienta multiplataforma que puede utilizar para gestionar sus recursos de Azure y le permite integrarse con su proceso automatizado de CI/CD.
Azure CLI está disponible para Windows, Linux, Azure Cloud Shell y macOS.
Para crear una cuenta de Azure Data Lake a través de Azure CLI:
1. En el Portal de Azure, haz clic en el botón Cloud Shell, como se muestra a continuación, para abrir Azure Cloud Shell.

2. En la parte inferior del Portal de Azure, selecciona Bash o PowerShell como tu tipo de shell y se abrirá el shell.

En tu Azure Cloud Shell, puedes cambiar tu tipo de shell a voluntad a Bash o PowerShell. Pero para este tutorial, mantén activo el shell Bash.

3. Ejecuta el siguiente comando en tu Azure Cloud Shell para verificar la versión de Azure CLI instalada. Independientemente de la plataforma que estés utilizando, asegúrate de tener Azure CLI versión 2.6.0 o posterior, o de lo contrario no podrás crear una cuenta de Data Lake.

4. Ahora, ejecuta el siguiente comando para iniciar sesión en Azure con tu cuenta de Azure.
Este tutorial utiliza el método de autorización de Azure Active Directory (Azure AD). Este método es el tipo de autorización recomendado ya que es más fácil y proporciona más seguridad que usar un principal de servicio.
Verás un código y una URL aparecer en la ventana de la terminal a continuación. Anota la URL, ya que la necesitarás para autenticar Azure mediante Azure AD en el siguiente paso.

5. Autentícate usando Azure AD con lo siguiente:
- Dirígete a la URL que anotaste en el paso cuatro en tu navegador.
- Inicia sesión con las credenciales de tu cuenta de Azure y el código que anotaste en el paso cuatro.

6. A continuación, haz clic en Continuar para completar el proceso de autenticación.

7. Ejecuta el siguiente comando az account list para listar las suscripciones de la cuenta en la que has iniciado sesión.
Si tu cuenta está asociada con más de una suscripción de Azure, es posible que necesites seleccionar y establecer la suscripción que deseas usar para tu cuenta de Data Lake.
Observa el nombre de la suscripción que debes usar para tu cuenta de Azure Data Lake. En este tutorial, la suscripción a utilizar es la suscripción de Azure 1.

8. Ahora, ejecuta el siguiente comando az account set y especifica el nombre de tu suscripción. Este comando no proporciona una salida, pero establece la suscripción que se utilizará para tu cuenta de Azure Data Lake.
9. Ejecute el siguiente comando az group create para crear un grupo de recursos. Elija un nombre único para su grupo de recursos, pero la opción de este tutorial es ataadatalakecli y un –location establecido en westus.

10. Después de crear un grupo de recursos, ejecute el comando az storage account create a continuación y pase los valores de los siguientes parámetros para crear una cuenta de almacenamiento:
--name
– Nombre de su cuenta de Data Lake (ataaazuredatalakecli
).
--resource-group
– Nombre de su grupo de recursos (ataadatalakecli
).
--location
– Ubicación de su cuenta de Data Lake (westus
).
--sku
– SKU de almacenamiento para su cuenta de Data Lake (Standard_LRS
).
--kind
– Tipo de cuenta de Data Lake a crear (StorageV2
).
--enable-hierarchical-namespace true - Habilita el espacio de nombres jerárquico para su cuenta, lo cual es necesario para usar Data Lake Storage Gen2.
Tenga en cuenta que StorageV1 ha sido desaprobado, y se recomienda encarecidamente utilizar StorageV2 para todas las cuentas de Data Lake recién creadas. Las cuentas existentes de StorageV1 aún pueden utilizarse durante algún tiempo, pero eventualmente se migrarán a StorageV2. Por lo tanto, se recomienda encarecidamente migrar sus datos a cuentas de StorageV2.

11. Ahora, navega a tu grupo de recursos en el Portal de Azure y verás tus recursos recién creados, como se muestra a continuación.
Haz clic en el hipervínculo de tu grupo de recursos para ir a la página de resumen del grupo de recursos (paso 12).

12. Finalmente, haz clic en tu cuenta de almacenamiento de la lista para acceder a su página de resumen.

¡Eso es todo! Ahora tienes una cuenta de almacenamiento activa.

Carga de datos en el Data Lake Storage
Acabas de crear tu cuenta de Lake Storage Gen2, pero actualmente está vacía. ¿Por qué no cargar tus datos? Puedes cargar y verificar tus datos utilizando el Portal de Azure y Azure CLI, pero primero debes crear un contenedor.
1. En el panel de control de tu cuenta de almacenamiento, haz clic en Contenedor bajo Almacenamiento de Datos (panel izquierdo) y haz clic en Contenedor, como se muestra a continuación, para crear un nuevo contenedor.
En Azure, un contenedor es un sistema de archivos para almacenar tus datos.

2. A continuación, configura el nuevo contenedor con lo siguiente:
- Especifica un nombre para tu contenedor, pero la elección de este tutorial es azuredatalakecotainer.
- Seleccione Privado (sin acceso anónimo) para el nivel de acceso.
- Haga clic en Crear en la parte inferior para crear el contenedor.

3. Haga clic en el nombre de su contenedor de la lista, como se muestra a continuación, para abrirlo. Tenga en cuenta que su contenedor está vacío actualmente.

4. Ahora, haga clic en el botón Cargar en la parte superior para cargar archivos o carpetas en su contenedor.

5. En la pestaña Cargar blob, haga clic en el botón de carga de carpeta, localice sus archivos o carpetas y haga clic en Cargar para subirlos.
Puede seleccionar varios archivos y carpetas para cargar de una vez.

Verá el estado de cada carga de archivo/carpeta como se muestra a continuación.

Una vez que se complete la carga, verá los archivos enumerados en su contenedor.

Alternativamente, ejecute el comando az storage a continuación para listar todos los archivos cargados en su contenedor. Reemplace el nombre del contenedor (azuredatalakecotainer) y el nombre de la cuenta (ataaazuredatalakecli) con los suyos propios.
La salida a continuación verifica que los archivos se hayan cargado correctamente en su cuenta de Azure Data Lake Storage Gen2 y su metadatos.

6. Ejecute el siguiente comando para crear un nuevo directorio llamado my-data-lake-directory en su contenedor (azuredatalakecotainer).

7. Por último, navega de regreso a tu contenedor en el Portal de Azure y verás el directorio recién creado en la lista, como se muestra a continuación.
Desde allí, puedes subir más archivos y carpetas al directorio recién creado siguiendo los pasos tres a cinco.

Conclusión
Además de ser rentable, ya que solo pagarás por el almacenamiento que uses, Azure Data utiliza Azure Active Directory para autenticación y autorización. La seguridad de tus datos es una prioridad absoluta de todos modos. Y en este tutorial, has aprendido cómo crear una cuenta de Azure Data Lake Storage Gen2 utilizando el Portal de Azure y la CLI.
Con Azure Data Lake, puedes subir archivos y verificarlos sin tener que realizar un procesamiento complicado de cargas de trabajo de análisis de big data.
En este punto, ahora puedes almacenar de forma segura todos tus datos en un solo lugar y comenzar a analizar tus datos utilizando las herramientas y servicios que ofrece Azure. ¿Por qué no empezar con el servicio Data Lake Analytics y comenzar a consultar y visualizar tus datos?