아파치 플링크와 아파치 파이몬이 데이터 스트리밍에 미치는 영향

아파치 파이몬은 지속적으로 흐르는 데이터와 잘 작동하도록 설계되었으며, 이는 금융 시장, 전자 상거래 사이트 및 사물 인터넷 기기와 같은 현대 시스템의 전형적인 특징입니다. 이는 특히 스트리밍 데이터와 같은 지속적으로 데이터를 분석하거나 데이터베이스 업데이트 또는 삭제와 같은 시간이 지남에 따라 변경되는 시스템에서 대량의 데이터를 효과적으로 관리하기 위한 데이터 저장 시스템입니다. 

간단히 말해서, 아파치 파이몬은 우리 데이터에 대한 정교한 사서와 유사하게 작동합니다. 우리가 대규모 온라인 비즈니스나 작은 웹사이트를 운영하더라도, 모든 것을 정리하고 필요에 따라 업데이트하며 항상 사용할 수 있도록 보장합니다. 아파치 파이몬 생태계의 중요한 구성 요소인 아파치 플링크는 실시간 스트림 처리 프레임워크로 그 기능을 크게 확장합니다. 아파치 파이몬과 아파치 플링크가 얼마나 효과적으로 함께 작동하는지 알아봅시다.

실시간 데이터 스트림 처리

아파치 파이몬은 레이크 아키텍처에 실시간 스트리밍 업데이트를 통합하여 레이크 형식을 로그 구조화 병합 트리 (LSM 트리)와 창의적으로 결합합니다. LSM 트리는 데이터를 많이 처리하는 시스템에서 데이터를 관리하고 조직하는 창의적인 방법으로, 예를 들어 데이터베이스나 저장 시스템과 같이 많은 쓰기 및 업데이트를 처리하는 시스템에 적합합니다. 반면에, Flink는 스트리밍 데이터를 개선하거나 향상시키기 위해 도착하는 데이터 스트림(예: 트랜잭션, 사용자 작업 또는 센서 읽기)을 실시간으로 수정, 보강 또는 재구성하는 강력한 엔진 역할을 합니다. 그 후에 이 데이터를 파이몬에 저장하고 새롭게 고쳐 수 있어서 데이터를 분석이나 보고서 작성과 같은 추가 사용을 위해 즉시 접근할 수 있도록 보장합니다. 이 통합을 통해 빠르게 변화하는 환경에서도 최신 데이터 세트를 유지할 수 있습니다.

일관성 있고 신뢰할 수 있는 데이터 저장

실시간 데이터 시스템에서 데이터 일관성을 유지하는 것, 즉 누락, 중복 또는 모순된 레코드를 방지하는 것은 주요 문제 중 하나입니다. 이를 극복하기 위해 Flink와 파이몬은 다음과 같이 협력합니다:

Flink가 이벤트를 처리한 후에 필터, 집계 또는 변환을 추가합니다. 파이몬은 업데이트, 삭제 또는 지연된 이벤트가 발생해도 결과의 저장에서 일관성을 보장합니다. 예를 들어, 재고가 항상 정확하도록 보장하기 위해 Flink는 온라인 쇼핑 플랫폼에서 주문 업데이트를 처리하고 이를 파이몬에 공급할 수 있습니다.

스트리밍 워크로드에서 트랜잭션 지원

데이터 무결성을 보장하기 위해, Paimon은ACID 트랜잭션(원자성, 일관성, 고립성, 영속성)을 지원합니다. 이 트랜잭션 모델과 Flink는 밀접하게 통합되어 있으며, Paimon으로 데이터를 쓰면 전체 작업이 성공하거나 아무 것도 기록되지 않도록 보장하여 일부 또는 손상된 데이터를 피할 수 있습니다. 모든 데이터가 정확히 한 번만 처리되고 저장되도록 보장하며, 실패가 발생해도 각 데이터 조각이 정확히 한 번 처리되고 저장됩니다. 이 트랜잭션적 시너지에서 Flink와 Paimon은 매우 신뢰성이 높아야 하는 시스템에 대한 강력한 옵션이 됩니다.

실시간 분석 및 쿼리

Paimon은 실시간 및 과거 데이터에 대한 분석 쿼리를 최적화했습니다. Flink와 함께, 스트리밍 데이터는 처리되고 Paimon에 저장된 후 즉시 쿼리할 수 있습니다. Paimon은 데이터를 구성 및 색인화하여 쿼리가 빠르게 처리되도록 하며, 이는 과거 또는 현재 데이터를 대상으로 하는 경우에도 해당합니다. 이 통합을 통해 기업은 Paimon의 저장소에서 직접 이상 탐지, 라이브 대시보드 생성 또는 고객 인사이트 도출과 같은 실시간 분석을 수행할 수 있습니다.

스트리밍 및 배치 지원 한 곳에서

플링크는 배치 및 스트리밍 데이터 워크로드를 처리하기 위해 동일한 엔진을 사용하여 유명합니다. 파이몬은 두 유형의 워크로드에 최적화된 형식으로 데이터를 저장하여 이를 보완합니다. Flink의 능력을 활용하여 히스토리컬 및 스트리밍 데이터를 심사없이 함께 처리함으로써, Flink-Paimon 조합은 과거 및 현재 상호작용을 결합한 고객 행동 분석과 같이 데이터 처리에 통합된 접근이 필요한 시스템에 이상적입니다.

효율적인 데이터 압축 및 진화

시간이 지남에 따라 스트리밍 데이터의 저장 구조는 단편화와 비효율성으로 이어질 수 있습니다. Flink와 Paimon은 이를 해결하기 위해 함께 작용하며, Paimon은 데이터를 로그 구조 병합 트리(LSM Trees)로 구성하여 업데이트와 삭제를 효율적으로 처리합니다. 반면에 Flink는 주기적으로 데이터를 압축하고 병합하여 저장 공간을 깨끗하게 유지하고 조회를 빠르게 유지합니다. 예를 들어, 소셜 미디어 플랫폼은 저장 공간의 비효율성 없이 고용량의 사용자 활동 로그를 관리할 수 있습니다.

실시간 사기 탐지는 사용 사례의 한 예입니다.

금융 애플리케이션에서 실시간 사기 탐지는 중요합니다. 수신 거래는 의심스러운 추세를 식별하거나 의심스러운 패턴을 표시한 후 Apache Flink에 의해 처리되어 Paimon으로 전달됩니다. Paimon은 이러한 표시된 거래를 저장하여 즉각적인 검토 및 장기 분석에 활용됩니다. 분석가들은 사기 패턴을 조사하고 Flink의 처리 논리를 조정하기 위해 Paimon의 데이터를 조회할 수 있습니다. 이는 Paimon과 Flink가 협력하여 지능적이고 실시간 시스템을 구축하는 방법을 보여줍니다.

참고: – Paimon은 현재 Flink 1.20, 1.19, 1.18, 1.17, 1.16, 1.15를 지원하며 현재 두 가지 유형의 jar를 제공합니다. 데이터 읽기/쓰기를 위한 번들 된 jar와 수동 압축과 같은 작업을 위한 액션 jar입니다. Flink의 다운로드 및 빠른 시작은 여기(https://paimon.apache.org/docs/master/flink/quick-start/)에서 확인할 수 있습니다.

핵심 포인트

Apache Flink는 Apache Paimon의 중요한 구성 요소이며, Paimon의 강력한 일관성 및 저장 기능을 향상시키는 실시간 처리 능력을 제공합니다. 두 가지는 빠르게 변화하는 데이터를 처리, 처리 및 평가하기 위한 강력한 생태계를 만들어 조직이 즉각적으로 결정을 내리고 효율성과 데이터의 무결성을 유지하면서 통찰을 얻을 수 있도록 지원합니다.

이 글을 즐겁게 읽으셨기를 바랍니다. 만약 이 기사가 가치 있었다면 좋아요와 공유를 고려해 주시기 바랍니다.

Source:
https://dzone.com/articles/apache-flink-apache-paimon-transform-data-streaming