Azure Synapse: 단계별 초보자 가이드

Enterprise 정보 시스템의 발전에 대한 실제 도전은 다양한 источников에서 얻는 大数据(large volumes of data)를 활용하여 결정 지시 정보(actionable insights)로 변환하는 것입니다. 데이터 수집만큼 데이터를 관리, 분석하고 대량으로 활용하는 가장 효율적인 방법을 찾는 것입니다.

기업들이 이러한 도전에 대한 솔루션을 search하며, 여러 플랫폼이 앞서고 있습니다. 2024년에는 Databricks, Azure Synapse, Google BigQuery, Snowflake이 산업에서 가장 좋은 선택肢로 나타났습니다.

Azure Synapse Analytics는 다른 기업과 차이를 가지고 있는 dat Integration, big data analytics, Enterprise data warehousing을 통합한 한 솔루션을 제공하여 자신의 위에 있습니다.

이번 블로그에서는 Azure Synapse가 2024년 기업들이 데이터 operaion을 스트림라인하기 위한 어느 정도의 매력이 있는 이유와, 어떻게 어느 정도의 기업의 错綜複雑한 数据分析 도전을 해결하는 것이 가능한지를 다룰 것입니다.

Azure Synapse란 무엇인가요?

Azure Synapse는 마이크로소프트에서 제공하는 強力한 엔드투엔드 분석 서비스로, 데이터 통합, 대 dataset 분석, 데이터 warehousing을 單独의 유연한 플랫폼에 통합시키고 있다.

传统的인 분석 서비스와 differ 하며, 다양한 phasse의 데이터 처리를 위해 다양한 도구를 사용해야 하는 경우, Azure Synapse는 이러한 기능을 모두 함께 가져와, 기관이 데이터 workflow를 简素화할 수 있도록 하고 있다.

Azure Synapse Analytics 아키텍처 도agram. Image source: Microsoft Learn

大数据셋을 입력하는 것, 분석을 위한 데이터 준비, 또는 複雑한 쿼리를 실행하는 것 등, Azure Synapse는 모든 과정을 简素화하는 통일된 경험을 제공한다.

Azure Synapse의 주요 강점 중 하나는 유연성이다. 사용자는 자신의 조건에 따라 데이터에 대한 쿼리를 수행할 수 있으며, 사용자에게 의도한 쿼리를 수행하기 위해 서버 없이 인stant query 또는 더 強대 dataset의 처리를 위한 전용 자원을 선택할 수 있다. 이러한 적응성은 기업이 고성능 사례에 대한 纵向 scaling하거나 demanding task에 대한 용비Optimizing cost에 따라 데이터 analytics environment를 custoimizing할 수 있는 것을 Permit하고 있다.

Azure Synapse는 Azure 서비스와 함께 기능을 통합하고 있으며, Power BI와 Azure Machine Learning과 같은 다른 Azure 서비스를 통합하여 데이터 analytics에 대한 종합적인 접근 방식을 가능하고 데이터 团队간의 협력을 촉진시키고 있다.

Microsoft Azure 및 클라우드 컴퓨팅의 성능과 기업이 데이터 분석, 데이터 과학 및 엔지니어링 워크로드를 개선하는 데 어떻게 도움이 되는지 알아보고 싶다면 Datacamp에서 이 놀라운 무료 Azure 소개 과정을 확인하세요.

Azure Synapse의 기능

  • 통합된 환경: Azure Synapse는 데이터 통합, 데이터 웨어하우징 및 빅 데이터 분석을 위한 통합 플랫폼을 제공하여 사용자가 원활하고 효율적으로 데이터 작업을 할 수 있도록 지원합니다.
  • 서버리스 및 프로비저닝된 컴퓨팅: Azure Synapse는 서버리스 및 프로비저닝된 컴퓨팅 옵션을 제공하여 사용자가 워크로드에 가장 적합한 리소스를 선택할 수 있도록 합니다.
  • 파워 BI 및 Azure 기계 학습과의 통합: Azure Synapse는 Power BI 및 Azure 기계 학습과 원활하게 통합되어 사용자가 데이터 시각화를 만들고 고급 분석 기능을 쉽게 활용할 수 있습니다.
  • 첨단 보안 및 규정 준수: Azure Synapse는 포괄적인 보안 및 규정 준수 기능을 통해 데이터를 보호하고 조직이 규정 요구 사항을 충족할 수 있도록 지원합니다.
  • Azure Data Lake Storage와의 원활한 통합: Azure Synapse와 Azure Data Lake Storage의 긴밀한 통합을 통해 사용자는 데이터 레이크에 저장된 데이터에 쉽게 액세스하고 분석할 수 있습니다.

Azure Synapse 사용의 이점

Azure Synapse Analytics의 일부 이점은 다음과 같습니다.

  • 스케일ability과 靈活성:Azure Synapse의 수요에 따라 스케일 인有能力는 사용자가 业务적 요구에 따라 他们的 計算과 저장 자원을 빠르게 조절할 수 있게 하며 도와줍니다.
  • 통합된 분석 플랫폼:데이터 통합, 데이터 warehousing, 그리고 大数据 분석을 결합하여 Azure Synapse는 모두 한 곳에서 일관성있고 간단한 분석 솔루션을 제공합니다.
  • 생산성 향상Azure Synapse의 통합 도구와 无缝한 사용자 经验이 사용자를 자신의 데이터 기반 任务에서 더 productive하고 효율적으로 도울 수 있습니다.
  • 용비율Azure Synapse의 수요에 따라 확장과 基于用量 计费 모델은 조직을 이용하여 비용을 최적화하고 전체 数据分析 支出을 줄이는 것을 도울 수 있습니다.
  • 종합적인 보안과 合规性Azure Synapse의 강한 보안 기능과 合规性 인증은 데이터가 보호되고 조직이 규制적 요구를 만족하는 것을 보장합니다.

시작하고자 하는 云 여행을 Azure 기본 인증로 켈로우 시작하세요. DataCamp의 전문가 기반 트랙을 통해 Microsoft AZ-900 시험을 준비하세요. DataCamp과 Microsoft의 合伙으로 시험 수수료의 50% 할인을 받을 수 있습니다!

Azure Synapse의 사용 사례

Azure Synapse는 다양한 데이터 분석 사용 사례에 적용할 수 있는 다양한 플랫폼으로, 데이터의 전성능력을 unlocking하고자 하는 기업들에게 강력한 도구입니다.

一些 가장 일반적인 사용 사례는 다음과 같습니다:

사용 사례

기술 정보

데이터 웨어하우스 및 ETL 프로세스

Azure Synapse는 다양한 소스의 데이터를 중앙ized 데이터 웨어하우스로 통합시키며, umannageable 수준의 데이터를 효율적으로 구조化하고 사용 가능한 형태로 변경할 수 있는 강력한 ETL 기능을 제공합니다. 이 중앙ized 데이터 저장소는 기업 보고서의 기반이 되며, 결정자들이 일관성과 신뢰성이 있는 데이터에 대한 assess 수준의 데이터를 제공합니다.

실시간 数据分析

Azure Synapse는 기관에게 생성 시 실시간 데이터 처리를 지원하며, live event monitoring, 이상 감지, 또는 현재 정보에 따라 现场 决策를 하는 등의 중요한 기능을 제공합니다.

예측 분석 및 기계 leaning

Azure Machine Learning과 organic 하게 통합되어 있으므로 Azure Synapse는 기업들이 高级别的 예측 분석을 수행할 수 있습니다. 조직은 이력 데이터와 기계 leaning 모델을 결합하여 趋向을 예측하고 결과를 예측하며 자료에 기반한 결정을 더욱 정확하게 하는 것이 가능합니다.

사업자 지능 보고

Azure Synapse는 Power BI와 integration되어 있어, 풍부하고 Interactive한 数据分析 및 보고서를 생성할 수 있습니다. 이 整合은 기업들이 원리 데이터를 魅惑적인 대시보드와 보고서로 전환하여 동작 가능한 인사이트를 제공하는 것을 도울 수 있습니다.

Azure Synapse와 Databricks比较

Azure Synapse와 Databricks는 强力的な 대량 数据分析 및 분석 platforms 입니다. 그러나 다른 영역에서 뛰어나는 것입니다.

  • Azure Synapse는 이전에 언급한 것 一样이 all-in-one 솔루션입니다. 데이터 통합, warehousing, 그리고 대량 数据分析을 통합시키고 있습니다. 다양한 작업 負荷를 처리해야 하는 기관에게는 이상적인 솔루션입니다. 구조 数据分析에서 대량 数据分析까지가 있습니다.
  • Databricks, Apache Spark에 기반한 협업 데이터 과학, 데이터 엔지니어링, 그리고 머신 leaning에 专业化합니다. 대规模以上 데이터 처리와 모델 배포를 위한 강력한 기능을 보유하며, 데이터 团队에 대한 협업 환경을 제공합니다.

차이와 관련

 

Azure Synapse

Databricks

Platform focus

데이터 통합, 仓储, 그리고 대数据分析을 모두 Integration, 仓储, 그리고 대数据分析을 모두 결합한 일停产 솔루션. 일停产 솔루션을 위한 이상적입니다.

Apache Spark-based 대数据分析 처리와 기계 leaning을 중심으로 주목. 공동 데이터 과학, 工程的, 및 모델 배포에 강한 성능입니다.

데이터 저장 인tegration

Azure Data Lake와 Blob Storage와 멀티 无缝 integration.

Azure Data Lake와 Amazon S3과 같은 云 저장 서비스와 강력한 integration.

SQL 지원

데이터 웨어하ousing 을 위한 ネイティブ SQL 지원

Apache Spark SQL을 사용하며 大数据 시나리오에 대응하여 최적화되었습니다.

Ecosystem integration

다른 Azure 서비스와 tight integration.

开源 Apache Spark ecosystem와 더 가까이의 對齐합니다.

비교 가능한 데이터 과학 및 AI 서비스를 AWS, Azure 및 GCP 클라우드에서 더 알고 싶다면, Datacamp에서 제공하는 무료 AWS, Azure, and GCP Service Comparison for Data Science & AI 가이드를 확인해 보세요.

Azure Synapse에 대한 포괄적인 개요를 마친 후, 직접 실습해 봅시다!

Azure Synapse 설정

Azure Synapse를 시작하려면 활성화된 Azure 계정이 필요합니다. 계정이 설정되면 새 Synapse 작업 영역을 생성하고 데이터 소스 및 연결을 구성할 수 있습니다. 

1. Azure 무료 체험 시작

Azure를 처음 사용하는 경우, 첫 번째 단계는 구독을 생성하는 것입니다. “Azure 무료 체험 시작” 아래에 있는 “시작” 버튼을 클릭하세요.

가입 과정에서 전화번호를 사용하여 계정을 확인하고, 신용카드 정보를 제공하여 인증 절차를 거쳐야 합니다.

Azure 무료 체험 시작.

2. 사전 요구 사항: Data Lake Storage Gen2 생성

Azure Synapse를 진행하기 전에 데이터를 저장하고 관리하기 위해 Data Lake Storage Gen2 계정을 생성해야 합니다.

Azure 포털로 이동하여 “리소스 생성”을 선택하는 것으로 시작하세요. “저장소 계정”을 선택하고 리소스 그룹, 저장소 계정 이름, 지역과 같은 필수 세부 정보를 입력하세요.

Azure Blob Storage 또는 Azure Data Lake Storage Gen2를 기본 서비스로 선택하고, 성능과 이冗余을 사용 사례에 따라 구성하세요.

Azure 스토리지 계정을 생성합니다.

세부 정보를 입력한 후 ‘리뷰 + 생성’ ボタン을 클릭하여 스토리지 계정을 배포합니다. 스토리지 배포가 완료되기 전에는 几分钟이 소요될 수 있습니다.

스토리지 계정 배포 중입니다.

배포가 완료되면, 새 Data Lake Storage Gen2 계정은 스토리지 계정 섹션에 列出되며 Azure Synapse와 함께 사용할 준비가 되ます.

Azure에서 활성 저장 계정

3. Synapse 작업 공간 생성

Azure Synapse 작업 공간은 Azure Synapse 내에서 데이터 통합, 분석, 저장 需要的 모든 리소스와 서비스를 설정, 조직, 관리할 수 있는 기반적인 환경입니다. 이곳은 Synapse 프로젝트에서 다양한 도구와 데이터 자산에 대한 구성과 アクセス의 중앙 허브로 활동합니다.

“Synapse 작업 공간 생성” tab을 클릭하여 Azure Synapse 작업 공간을 생성합니다.

Synapse 작업 공간 생성 중입니다.

次の 단계에서는 Azure Synapse 작업 공간을 생성하기 위해 폼을 채워야 합니다.

시작하기 위해 您的 구독과 리소스 그룹을 선택하고, 작업 스 pace의 이름을 입력하고 적절한 지역을 선택하세요.

Synapse workspace 생성 – 세부 정보 입력.

“Create” button을 클릭하기 전에 마지막 탭의 세부 정보를 复查하세요.

Synapse workspace 유효성 검사.

Azure Synapse workspace가 배포되기 전에 数분이 소요 될 수 있습니다.

Azure Synapse Analytics 배포 중.

Azure Synapse Analytics 작업 공간 “datacamp”이 생성되었습니다.

작업 공간이 배포되면 이름을 클릭하여 엽니다.

4. Synapse Studio 열기

Azure Synapse Studio는 Azure Synapse 작업 공간을 관리하고 상호 작용할 수 있는 웹 기반 인터페이스입니다. 데이터 통합, 빅 데이터 분석 및 데이터 웨어하우징 작업을 한 곳에서 수행할 수 있는 통합 작업 공간을 제공합니다.

Synapse Studio는 데이터 파이프라인, SQL 스크립트, Spark 작업 등을 서로 다른 도구나 환경을 전환하지 않고도 신속하게 개발, 관리 및 모니터링할 수 있게 해주기 때문에 필수적입니다.

Synapse Studio.

데이터셋 가져오기

Synapse Studio에서는 여러 种의 데이터 источников에서 데이터를 가져올 수 있습니다. Synapse 작업 공간과 연결된 Gen2 스토리지 계정 (위의 2단계를 보세요)에서, SQL 서버 데이터베이스에서 또는 외부 소스에서 데이터를 가져올 수 있습니다.

이 튜토리얼 context>For this tutorial, we will use one of the sample datasets, “Bing COVID-19 Data,” available in the Synapse Gallery.

데이터를 가져오려면, 좌측 ナビゲーション 메뉴에 있는 “Dataset” 를 클릭하고 “+” sigh>“Gallery.”

Synapse Studio의 Dataset Gallery.

dataset>You can review the metadata and sample rows from the data before clicking the “Add dataset” button to import this data.

Synapse Studio에서 datasets를 复查합니다.

이mport가 성공적으로 실행되면 “Data” 아래에 datasets를 볼 수 있습니다.

Synapse Studio의 Data tab

쿼리 쓰기와 실행

Azure Synapse Studio는 쿼리 쓰기와 실행을 위한 사용자 friedly interface를 제공합니다. SQL을 사용하여 간단한 데이터 가져오기에서 복잡한 분석 任务까지 여러 가지 데이터 분석 任务을 실행할 수 있습니다.

Synapse Studio는 쿼리를 저장하고 관리할 수 있고, 쿼리의 결과를 보기와 처리할 수 있습니다.

이 dataset을 SQL 스크립트를 사용하거나 Notebook을 생성하여 분석할 수 있습니다. Notebook에서는 이 dataset을 Spark DataFrame으로 로드하여 Spark을 사용하여 数据分析 및 조작할 수 있습니다.

이 dataset上에 SQL 쿼리를 실행하려면, dataset 이름 옆의 세 점을 클릭하세요.

SQL로 Synapse Studio에서 数据分析.

“Select TOP 100 rows”를 클릭하면 SQL 编辑기를 띄어 SQL 쿼리를 쓸 수 있는 编辑기로 열릴 것입니다. 쿼리를 실행하여 결과를 보기 위해서입니다.

Synapse Studio의 SQL 编辑기.

表 视图를 보고자 하고자 하면 “Results” 아래 “Chart”를 클릭하십시오.

Synapse Studio에서 쿼리 결과를 그래프로 보는 것.

SQL 스크립트를 생성하거나 수정할 때, 초기에 草案として 저장됩니다. 스크립트를 发布하려면 상단의 “发布” 按钮을 클릭하여 latest version이 작업 공간에 저장되도록 이 changes를 보장합니다.

Synapse Studio에서 SQL 스크립트를 发布하는 것은 스크립트를 Synapse 작업 공간에 저장하는 것을 意味하며, 将来의 사용, 협업, 및 버전 관리를 위해 사용할 수 있습니다.

예: 세계 전체 COVID-19 확진 사례의 일일 증가 분석

이 자료에 대해 SQL 쿼리를 실행하여 세계 전체 COVID-19 확진 사례의 일일 증가를 분석하는 것을 시도합니다.

쿼리는 “Bing COVID-19 데이터셋”から 데이터를 가져와, 현재 날의 확진 사례와 전날의 수를 比較하여 매일 신규 사례의 수를 계산하고, 결과를 날짜로 정렬합니다.

Synapse Studio SQL 에디터에서 SQL 쿼리.

노트북에서 数据分析

Synapse Studio에서는 노트북을 사용하여 数据分析할 수 있습니다. 노트북은 코드를 실행하고, 결과를 시각화하고, 数据分析를 行う 인터랙티브 환경을 제공합니다.

Synapse Studio의 노트북은 PySpark을 포함하여 다양한 언어를 지원합니다. PySpark은 대량의 数据分析에 특ial히 강력합니다.

Synapse Studio에서 Notebook을 실행하려면, Apache Spark 풀에 依存关系 설정하십시오. Apache Spark 풀은 large dataset을 効率的하게 처리하기 위해 필요한 분산 计算机 자원을 제공합니다.

Apache Spark 풀은 자동으로 할당되어 您的 Spark 作业을 실행하는 计算机 노드의 모음입니다. Spark 풀을 이미 갖추지 않았다면, Synapse Studio의 ” pools 관리” 部分로 이동하여 pools를 생성할 수 있습니다. 여기서 노드의 수, 其 크기, 以及其他 설정을 지정할 수 있습니다.

Spark 풀을 설정하고 Notebook에 依存关系 추가한 후, Notebook 내에서 코드 셀을 실행할 수 있습니다. 이렇게 하면, 다음 스크린샷에서 보여지는 것처럼 데이터를 로드, 조작, 以及 분석할 수 있습니다.

이러한 구성은 Azure Synapse 내에서 Spark의 完全한 능력을 대용량 数据分析에 적용할 수 있도록 하여くれます.

Synapse Studio에서 노트북을 사용하여 데이터를 분석합니다.

Azure Synapse와 다른 Azure 서비스와의 통합

Azure Synapse는 다른 Azure 서비스와 无缝으로 통합되어 있어서, 자신의 데이터 분석 솔루션을 종합적으로 구성할 수 있습니다.

주요 통합 사항에 대해 알아보겠습니다.

  • Azure Data Factory:Azure Data Factory를 사용하여 복雑한 데이터 workflow를 조작하고 ETL(Extract, Transform, Load) 또는 ELT(Extract, Load, Transform) 프로세스를 자동화할 수 있습니다. Azure Synapse를 Data Factory와 통합하면 쉽게 다양한 소스의 데이터를 Synapse 작업 공간으로 이동하고 변경할 수 있으며, 데이터를 분석에 任何时候 준비시키는 것을 Ensure 할 수 있습니다.
  • 파워 BI: Azure Synapse는 파워 BI와 sleek하게 integrate 되는 것이 mkpossible하며, 고급 数据分析 그림과 인터랙티브 대시보드를 만들 수 있습니다. 이 통합은 기업이 초기 数据分析을 洞悉 가능한, 시각적으로 魅惑적인 보고서로 변경할 수 있는 것을 사업에서 团队成员間에서 공유하여 데이터 기반 결정 사업을 자리 잡기 및 ビジネス 지능 향상을 도울 수 있습니다.
  • Azure Machine Learning: Azure Synapse의 데이터 처리 능력과 Azure Machine Learning을 결합하여 고급 예측 분석 기능을 실현할 수 있습니다. 이 통합은 Synapse 환경 내에서 直接的으로 기계 leaning 모델을 트레이닝, 배포, 관리하는 것을 허용하며, 더 精確한 예측과 지능형 데이터-기반 전략을 사용할 수 있게 해줍니다.
  • Azure Databricks: 협업型 数据分析과 機械学습에 집중하는 조직에 Azure Synapse와 Azure Databricks를 통합하면 強力한 솔루션을 제공합니다. 이 통합은 데이터 과학자, 엔지니어, 분석가가 无缝으로 협업하여 데이터 큐브를 構築하고 확장하고, 모델을 開発하고, 통합, 협업型 환경에서 先进的 数据分析을 수행할 수 있게 해줍니다.

Azure Synapse 사용 가이드

Azure Synapse를 최대한 활용하기 위해서는, 다음과 같은 ベスト 惯例을 따는 것이 중요합니다:

  • 데이터 저장 형식 최적화: Parquet 또는 ORC와 같은 적절한 데이터 저장 형식을 선택하는 것은 최적의 쿼리 성능과 효율적인 데이터 처리를 보장하는 데 매우 중요합니다. 이러한 형식은 빅 데이터 분석을 위해 설계되었으며, 컬럼형 저장과 압축을 지원하여 쿼리 실행 시간과 저장 비용을 크게 줄일 수 있습니다.
  • 컴퓨팅 자원 효율적으로 관리: 컴퓨팅 자원을 효율적으로 관리하는 것은 성능과 비용 효율성의 균형을 맞추는 데 중요합니다. 작업량에 따라 자원을 확장하거나 축소하고, 적절한 경우 서버리스 옵션을 사용함으로써 사용하지 않는 컴퓨팅 파워에 대한 과도한 지출을 방지하면서도 성능 요구 사항을 충족할 수 있습니다.
  • 안정성 가장 우선 실천:Azure Synapse를 사용할 때는 안정성을 가장 우선地位에 두는 것이 중요합니다. 민감한 정보를 보호하기 위해 데이터 암호화, roll-based access control, 네트워크 격리 등의 강력한 안정성 조치를 구현해야 합니다.
  • 작업 負荷 모니터링 및 문제 해결:Azure Synapse의 작업 負荷를 지속적으로 모니터링하여 가장 적절한 성능을 유지하고 operatioin을 영향을 미칠 수 있는 가능한 문제를 전에 식별하는 것이 중요합니다. 자동으로 모니터링되는 도구를 사용하여 자원 사용, 쿼리 성능 및 데이터 파이프라인 효율성을 추적하고 이상을 자신이 예방적으로 수정하여 중단을 최소화하십시오.

결론

Azure Synapse Analytics는 자료를 전潜力을 atomic하게 적용하고자 하는 기관들의 강력하고 다양한 솔루션입니다. 자료 통합, 대용량 자료 분석, 기업 자료 仓储을 하나의 completely 包容性的 플랫폼에서 통합시키는 것으로 Azure Synapse는 사업에게 자료 operations를 스트리밍하고 이전보다 precedented 효율로 가치 있는 인사이트를 추출할 수 있는 apperatus를 보장합니다.

플랫폼의 유연성, 확장성, 다른 Azure 서비스와 无缝한 통합은 실시간 분석에서 複雑한 머신 러닝 프로젝트까지의 다양한 자료 기반 업무를 완전히 지원합니다. 자료가 Volume와 중요성에 grow하면서 Azure Synapse는 자료 중심의 세계에서 경쟁력을 유지하기 위한 기관들의 중요한 도구가 되는 것입니다.

Azure Synapse 을 채택하면 기업은 현재의 데이터 프로세스를 최적화하고 데이터 분석에서 未来의 革新을 예정할 수 있습니다. 우리가 앞으로 가는 데에서, 데이터를 활동적인 인사이트로 快速하고 有效地 변화시키는 能力가 성공적인 기업의 ключ 차이 발견자가 될 것입니다. Azure Synapse는 이 도전을 직면하기 위해 필요한 健壮한 기반을 제공합니다. 기업은 새로운 기회를 열고 데이터의 힘을 통해 성장을 촉진할 수 있습니다.

데이터 과학 career를 자신의 힘으로 인 empowering하고자 하시나요? 2024에서 가장 좋은 Azure 인증을 Datacamp에서 확인하세요.

Source:
https://www.datacamp.com/tutorial/azure-synapse