您可能需要以管理员或开发人员身份存储数据,不仅仅是任何数据,而是海量数据。您会选择何处?云是您最实用的选择,幸运的是,Azure Data Lake可以帮助您轻松存储数据。
Azure Data Lake使您能够在各种平台和语言上以极快的速度执行各种处理和分析。在本教程中,您将学习如何使用Azure Data Lake进行存储和分析。
立即通过Azure Data Lake高效且安全地存储您的数据!
先决条件
本教程将进行实际操作演示。如果您想跟随进行,请确保您拥有一个具有活跃订阅的Azure账户 — 如果您还没有一个,一个免费试用就足够了。
通过Azure门户创建数据湖
Azure Data Lake是一种针对大数据分析进行优化的基于云的数据存储服务,具有高度可扩展性。您可以从小开始,随着需求增加而扩展。但是如何创建存储呢?
快速浏览Azure门户,并创建Azure Data Lake账户。
1. 打开您喜爱的网络浏览器,并导航至Azure门户。
2. 接下来,请提供您的凭据,单击“登录”按钮,并登录到您的 Azure 帐户。
登录后,您的浏览器将重定向到 Azure 门户(第三步)。

3. 在您的 Azure 门户上,单击“创建资源”,这将打开可用 Azure 资源的列表。
第一次登录或订阅中尚未部署任何资源时,您会看到以下页面。

4. 在页面顶部的搜索栏中搜索“存储帐户”,然后选择“存储帐户”。这样做会将您的浏览器重定向到存储帐户资源的概述页面。
搜索栏可让您快速找到要创建的资源,而不必浏览特色资源列表。但是,在本教程中,您将创建 Azure 数据湖帐户。
Azure 数据湖是建立在 Azure 存储之上的。因此,存储帐户是您需要创建新 Azure 数据湖帐户的资源类型。

5. 现在,单击“创建”,这将把您的浏览器重定向到创建存储帐户页面(第六步),在那里您将配置您的存储帐户。

6. 从以下内容开始配置您的存储帐户:项目详细信息:
- 选择您的订阅 – 如果您有多个订阅,请确保选择一个您希望创建存储帐户的订阅。本教程使用Azure 订阅 1,如下所示。
- 选择您的资源组 – 资源组是逻辑上将 Azure 资源分组的一种方式。您可以将资源组视为放置相关资源的文件夹。资源组可让您更轻松地管理、监视和删除资源。
如果您还没有资源组,请点击“创建新的”超链接以创建一个。

7. 在同一页上,使用以下方式配置实例详情:
- 提供一个唯一的存储账户名称 – 本教程选择的是ataazurestorage。该名称必须在 Azure 中是唯一的,并且必须在三到 24 个字符之间。
- 选择要部署存储账户的区域 – 区域是您的存储账户将实际驻留的地方。选择最接近您或您的用户的区域。
例如,如果您为美国用户访问的 Web 应用程序创建存储账户,请选择美国东部或美国西部地区。
- 保持所有其他设置为默认值,然后点击页面底部的“下一步:高级”。此时,您将拥有一个标准的 Blob 存储账户。

8. 在”高级”选项卡下,勾选数据湖存储 Gen2 中的启用分层命名空间复选框。此选项将将您的 Blob 存储帐户转换为数据湖帐户,并启用数据湖的所有功能,包括分析和存储。
单击“审核 + 创建”按钮(左下角)以验证您的设置,这可能需要几分钟时间才能完成。

9. 验证完成后,单击“创建”按钮以完成创建存储帐户的过程。

创建存储帐户后,您将看到正在进行的部署,如下所示,这可能需要几分钟时间才能完成。

10. 最后,单击“转到资源”按钮,在部署后打开新创建的存储帐户。此时,您已经拥有一个 Azure 数据湖帐户。


使用 CLI 创建数据湖
您已经看到使用 Azure 门户创建 Azure 数据湖帐户是可行的。但是,如果您希望有一种可重复和自动化的方式来创建数据湖帐户,Azure 门户并不是最佳选择,而是 Azure CLI。
Azure CLI 是一个跨平台工具,您可以使用它来管理 Azure 资源,并使其与自动化的 CI/CI 流程集成。
Azure CLI 可在 Windows、Linux、Azure 云 Shell 和 macOS 上使用。
通过 Azure CLI 创建 Azure 数据湖帐户:
1. 在 Azure 门户上,单击下面显示的云 Shell 按钮,以打开 Azure 云 Shell。

2. 在 Azure 门户底部,选择 Bash 或 PowerShell 作为您的 shell 类型,然后 shell 将打开。

在 Azure 云 Shell 上,您可以随时更改 shell 类型为 Bash 或 PowerShell。但是对于本教程,请保持 Bash shell 处于活动状态。

3. 在 Azure 云 Shell 上运行以下命令,以验证安装的 Azure CLI 的版本。无论您使用哪个平台,请确保您安装了 Azure CLI 版本 2.6.0 或更高版本,否则您将无法创建 Data Lake 帐户。

4. 现在,运行下面的命令以使用您的 Azure 帐户登录 Azure。
本教程使用 Azure Active Directory(Azure AD)授权方法。此方法是推荐的授权类型,因为它比使用服务主体更容易且提供更多安全性。
您将在下面的终端窗口中看到一个代码和一个URL。记下URL,因为您在接下来的步骤中需要用它来使用Azure AD进行身份验证。

5. 使用以下步骤使用Azure AD进行身份验证:
- 在浏览器中导航到您在第四步中记下的URL。
- 使用您的Azure帐户凭据和在第四步中记下的代码登录。

6. 接下来,单击“继续”以完成身份验证过程。

7. 运行以下az account list命令以列出已登录帐户的订阅。
如果您的帐户关联了多个Azure订阅,则您可能需要选择并设置要用于您的Data Lake帐户的订阅。
记下要用于您的Azure Data Lake帐户的订阅名称。对于本教程,要使用的订阅是Azure订阅1。

8. 现在,运行以下az account set命令,并指定您的订阅名称。此命令不会提供输出,但会设置用于您的Azure Data Lake帐户的订阅。
9. 运行以下命令 az group create 来创建一个资源组。为您的资源组选择一个唯一的名称,但本教程选择的名称是 ataadatalakecli 并且将 -location 设置为 westus。

10. 创建资源组后,运行下面的 az storage account create 命令,并传入以下参数的值来创建存储账户:
--name
– 您的数据湖账户名称 (ataaazuredatalakecli
)。
--resource-group
– 您的资源组名称 (ataadatalakecli
)。
--location
– 您的数据湖账户所在位置 (westus
)。
--sku
– 您的数据湖账户的存储 SKU (Standard_LRS
)。
--kind
– 要创建的数据湖账户类型 (StorageV2
)。
--enable-hierarchical-namespace true - 启用您的账户的分层命名空间,这是使用 Data Lake Storage Gen2 所必需的。
请注意,StorageV1 现已弃用,您应该为所有新创建的数据湖账户使用 StorageV2。现有的 StorageV1 账户仍然可以使用一段时间,但最终将迁移到 StorageV2。因此,强烈建议将您的数据迁移到 StorageV2 账户。

11. 现在,在 Azure 门户中,导航到您的资源组,您将看到您新创建的资源,如下所示。
点击您的资源组的超链接以导航到资源组的概述页面(步骤 12)。

12. 最后,从列表中点击您的存储帐户以访问其概述页面。

就是这样!您现在拥有一个活动的存储帐户。

上传数据到数据湖存储
您刚刚创建了您的 Lake Storage Gen2 帐户,但目前是空的。那为什么不上传您的数据呢?您可以使用 Azure 门户和 Azure CLI 上传和验证您的数据,但首先您必须创建一个容器。
1. 在您的存储帐户仪表板上,点击“数据存储”下的容器(左侧面板),然后点击容器,如下图所示,以创建一个新的容器。
在 Azure 中,容器是用于存储数据的文件系统。

2. 接下来,使用以下设置配置新容器:
- 为您的容器指定一个名称,但本教程选择的是 azuredatalakecotainer。
- 选择私有(无匿名访问)访问级别。
- 在底部单击创建以创建容器。

3. 点击列表中的容器名称,如下所示,打开它。请注意,您的容器目前是空的。

4. 现在,点击顶部的上传按钮,将文件或文件夹上传到您的容器。

5. 在上传 blob窗格中,点击文件夹上传按钮,找到您的文件或文件夹,然后点击上传以上传它们。
您可以一次选择多个文件和文件夹进行上传。

您将看到每个文件/文件夹上传的状态,如下所示。

上传完成后,您将在容器中看到列出的文件。

或者,运行下面的az storage命令以列出容器中所有已上传的文件。用您自己的容器名称(azuredatalakecotainer)和帐户名称(ataaazuredatalakecli)替换。
下面的输出验证了文件已成功上传到您的 Azure Data Lake 存储 Gen2 帐户以及它们的元数据。

运行以下命令在您的容器(azuredatalakecotainer)上创建一个名为 my-data-lake-directory 的新目录。

最后,导航回到 Azure 门户中的容器,您将在列表中看到新创建的目录,如下所示。
从那里,您可以按照第三到第五步的步骤,将更多新文件和文件夹上传到新创建的目录中。

结论
除了成本效益外,因为您只需支付所使用的存储空间,Azure Data 还使用 Azure Active Directory 进行身份验证和授权。保护您的数据无论如何都是首要任务。在本教程中,您已经学会如何使用 Azure 门户和 CLI 创建 Azure Data Lake Storage Gen2 帐户。
通过 Azure Data Lake,您可以上传文件并验证文件,而无需对大数据分析工作负载进行复杂处理。
此时,您现在可以安全地将所有数据存储在一个地方,并开始使用 Azure 提供的工具和服务分析您的数据。为什么不开始使用Data Lake Analytics服务,开始查询和可视化您的数据呢?