Tutorial AWS Glue para Iniciantes: Transforme Dados sem Esforço – techsyncer

Convertendo seus dados brutos em informações organizadas e acionáveis pode parecer complexo. Bem, não quando você tem uma solução rápida e eficiente. Não se preocupe! Este tutorial do AWS Glue para iniciantes está aqui para ajudar.

Neste tutorial, você aprenderá os passos cruciais de configuração e execução de transformações de dados com o AWS Glue.

Explore e simplifique a preparação de dados para análises baseadas em nuvem!

Pré-requisitos

Antes de trabalhar com o AWS Glue, certifique-se de ter uma conta ativa na Amazon Web Services (AWS) com faturamento ativado. Uma conta gratuita será suficiente para este tutorial.

Criando uma Função IAM para o AWS Glue

Antes de executar um trabalho de transformação, você deve criar uma função de Identidade e Acesso (IAM) que conceda permissão ao serviço AWS Glue. Esta função define que tipo de recursos o AWS Glue pode acessar em sua conta AWS.

Para criar a função IAM, siga as etapas abaixo:

1. Abra seu navegador da web preferido e faça login no Console de Gerenciamento da AWS.

2. Procure e selecione IAM na lista de resultados para acessar o console do IAM.

3. No console do IAM, navegue até Funções (painel esquerdo) e clique em Criar função (canto superior direito), redirecionando seu navegador para uma nova página dedicada à configuração da função.

4. Agora, configure as seguintes definições para a função:

Tipo de entidade confiável – Selecione Serviço da AWS para que um serviço da AWS confie na função. Fazendo isso permite que esse serviço assuma a função e aja em seu nome.

Caso de uso – Escolha Cola na seção Casos de uso para outros serviços da AWS, já que você criará a função do IAM especificamente para o AWS Glue, e clique em Avançar.

Selecting the trust entity type and use case

5. Procure e selecione as seguintes políticas e clique em Avançar.

Função do Serviço AWSGlue – Concede ao serviço AWS Glue as permissões necessárias para realizar suas operações.
AcessoTotalS3 – Concede acesso total aos recursos do S3, permitindo que o AWS Glue leia e escreva em buckets do S3.
O AWS Glue necessita de permissões extensas para ler e escrever em buckets do S3 para executar suas tarefas de extração, transformação e carregamento (ETL) de dados de forma eficaz.

? Ao conceder permissões excessivas desnecessárias, pode haver riscos de segurança.

6. Forneça um nome descritivo para a função (por exemplo, papel_cola) e uma descrição.

Providing a descriptive name and description for the role

7. Por fim, role para baixo, revise suas configurações e clique em Criar função (canto inferior direito) para finalizar a criação da função.

Reviewing the role settings and creating the role

Criando um Bucket S3 e Enviando um Arquivo de Exemplo

Agora que você possui uma função IAM para o AWS Glue, você precisa de um local para armazenar seus dados, especificamente, um bucket S3. Um bucket S3 fornece um local centralizado para armazenar os dados que o AWS Glue processará.

Neste exemplo, o AWS Glue usará o AWS S3 como um repositório de dados para várias operações, como extração de dados, transformação e carregamento (ETL).

Para criar um bucket S3 e enviar um arquivo de exemplo, siga estes passos:

1. Baixe um arquivo de dados de exemplo (por exemplo, conjunto de dados Every Politician) para sua máquina local. Este arquivo contém uma coleção não estruturada de registros para servir como entrada para o trabalho de transformação do AWS Glue.

2. Procure e selecione o serviço S3 para acessar o console do S3.

3. Clique em Criar um bucket para iniciar a criação de um novo bucket S3.

4. Agora, forneça um nome único para o seu bucket (ou seja, dadosdeexemplo54675) e selecione a região onde o bucket deve ser localizado.

A unique name lets you avoid conflicts with existing bucket names is crucial, while the region selection determines the physical location of your bucket’s data.

Providing a name and region for the bucket

5. Role para baixo, mantenha as outras opções como estão e clique em Criar bucket para criar o bucket.

6. Uma vez criado, clique no hiperlink para o bucket S3 recém-criado para navegar até o bucket.

7. Clique em Enviar e localize o arquivo de exemplo que deseja enviar.

8. Por último, mantenha outras configurações como estão e clique em Enviar para enviar o arquivo de exemplo para o novo bucket criado.

Se bem-sucedido, você verá o arquivo recém-enviado em seu bucket, conforme mostrado abaixo.

Verifying the newly-uploaded file exists in the bucket

Criando um Crawler do Glue para Escanear e Catalogar Dados

Você acabou de enviar dados de exemplo para o seu bucket S3, mas como está atualmente desestruturado, você precisa de uma maneira de ler os dados e construir um catálogo de metadados. Como? Criando um crawler do Glue que escaneia e cataloga automaticamente os dados.

Para criar um crawler do Glue, siga as etapas abaixo:

1. Navegue até o console do AWS Glue via o Console de Gerenciamento da AWS, conforme mostrado abaixo.

2. Em seguida, navegue até Crawler (painel esquerdo) e clique em Adicionar crawler (canto superior direito) para iniciar a criação de um novo crawler do Glue.

3. Forneça um nome descritivo (ou seja, glue_crawler) e uma descrição para o crawler, mantenha outras configurações como estão, e clique em Avançar.

Setting the crawler name and description

4. Agora, clique em Adicionar uma fonte de dados em Fontes de dados para iniciar a adição de uma nova fonte de dados ao crawler.

5. Na janela pop-up, configure a fonte de dados da seguinte maneira:

Fonte de dados – Selecione S3 já que seus dados estão no seu bucket S3.
Caminho do S3 – Clique em Procurar no S3 e escolha o bucket que contém seus dados de exemplo enviados (sampledata54675).
Mantenha as outras configurações como estão e clique em Adicionar uma fonte de dados do S3 para adicionar os dados de exemplo ao crawler.

6. Uma vez configurado, verifique a fonte de dados, conforme mostrado abaixo, e clique em Próximo para continuar.

7. Na próxima tela, selecione a função IAM que você criou anteriormente (glue_role), mantenha as outras configurações como estão e clique em Próximo.

8. Em saída e agendamento, clique em Adicionar banco de dados para iniciar a adição de um novo banco de dados para armazenar os dados processados e metadados gerados pelo seu crawler Glue. Essa ação abre uma nova guia do navegador, onde você configurará os detalhes do seu banco de dados (passo oito).

Este banco de dados fornece uma representação estruturada dos dados para consulta e análise.

9. Na nova guia do navegador, forneça um nome descritivo para o banco de dados (ou seja, glue_database) e clique em Criar banco de dados para criar o banco de dados.

10. Volte para a guia do navegador anterior, selecione o banco de dados recém-criado (glue_database) no menu suspenso, mantenha as outras configurações como estão e clique em Próximo.

Setting a target database (glue_database)

11. Por fim, revise suas configurações na tela final para garantir que estejam corretas e clique em Criar crawler (canto inferior direito) para criar o novo crawler.

Se tudo correr bem, você verá uma tela confirmando a criação bem-sucedida do crawler. Não feche esta tela ainda; você executará este crawler na próxima seção.

Executando o Rastreador Glue para Construir um Catálogo de Metadados

Com um novo rastreador à sua disposição, executar o rastreador é essencial para iniciar o processo de digitalização e catalogação. Seu rastreador glue construirá um catálogo de metadados que fornece uma representação estruturada dos seus dados para fins de consulta e análise.

Para executar seu rastreador glue recém-criado:

1. Na página de detalhes do rastreador, clique em Executar rastreador na aba Execuções do Rastreador para iniciar a execução do rastreador.

Uma vez que o rastreador comece a funcionar, você verá seu status e progresso na página de detalhes do rastreador.

Dependendo do tamanho e complexidade dos seus dados, o rastreador pode levar algum tempo para completar sua execução. Você pode atualizar periodicamente a página para ver o status atualizado do rastreador.

Uma vez que o rastreador tenha completado sua execução, o status muda para Concluído, conforme mostrado abaixo. Neste ponto, você pode prosseguir com a consulta dos seus dados.

2. Em seguida, navegue até Banco de Dados (painel esquerdo), e clique no seu banco de dados para acessar suas propriedades e tabelas.

3. Finalmente, clique no nome do seu balde (sampledata54675), agora uma tabela, para visualizar seus dados armazenados.

Accessing the bucket that has transformed into a table

Se bem-sucedido, você verá informações semelhantes abaixo. Esta informação confirma que os dados foram transformados com sucesso na tabela do banco de dados, fornecendo detalhes valiosos.

Viewing transformed data from the bucket to a table

Consultando Dados Catalogados via AWS Athena

Agora que seus dados estão disponíveis no AWS Glue Data Catalog, você pode usar várias ferramentas para consultar e analisar seus dados. Uma dessas ferramentas é o AWS Athena, um serviço de consulta interativa que permite analisar dados na nuvem usando SQL padrão.

Para consultar os dados usando o AWS Athena, siga as etapas abaixo:

1. Procure e acesse o console do Athena.

2. Selecione o banco de dados onde seus dados estão catalogados na seção Dados da seguinte forma:

Fonte de dados – Selecione AwsDataCatalog para indicar que você deseja consultar os dados catalogados no AWS Glue.
Banco de dados – Selecione o banco de dados apropriado no campo de seleção (ou seja, glue_database).

? Se você não visualizar o banco de dados desejado no campo de seleção, verifique se o rastreador concluiu sua execução e catalogou os dados.

Selecting the appropriate database for querying data

3. Por fim, preencha e execute a seguinte consulta no editor de consultas à direita.

Esta consulta retorna as primeiras 10 linhas da tabela sampledata54675 no banco de dados glue_database. Sinta-se à vontade para modificar a consulta para atender aos seus requisitos específicos.

SELECT *
FROM "glue_database"."sampledata54675"
LIMIT 10;

Se a consulta for bem-sucedida, você verá os resultados no painel Resultado, conforme mostrado abaixo. Os resultados contêm informações sobre os registros armazenados na tabela com base na sua consulta SQL.

Tomar nota dos nomes das colunas, tipos de dados e valores retornados no conjunto de resultados. Essas informações ajudam a entender a estrutura e o conteúdo dos dados consultados.

Conclusão

Neste tutorial, você aprendeu o básico do uso do AWS Glue para criar um Crawler do Glue, catalogar seus dados e consultar dados usando o AWS Athena. A preparação e análise de dados são essenciais para qualquer aplicativo orientado por dados. E ferramentas como o AWS Glue oferecem uma maneira rápida de extrair, transformar e carregar (ETL) dados de várias fontes para uma tabela de banco de dados.

Com o AWS Glue, você agora pode gerenciar e organizar dados rapidamente, permitindo que você se concentre mais na análise e obtenção de insights de seus dados. Mas o que você viu é apenas a ponta do iceberg. Explore a ampla gama de capacidades e funcionalidades que o AWS Glue pode oferecer!

Por que não aproveitar as conexões do AWS Glue para integrar perfeitamente com outros serviços da AWS, como Amazon RDS ou Amazon Redshift? Essa integração permite que você construa pipelines ETL complexos e alcance capacidades ainda maiores de análise de dados.