Hadoop
-
Hadoop migreren naar de cloud: 2X opslagcapaciteit en minder operationele kosten
Yimian is een toonaangevend leverancier van AI-gestuurde gegevensanalyse, gespecialiseerd in digitale handelsgegevens. We bieden realtime inzichten op het gebied van bedrijfsstrategie, productontwikkeling en digitale handelsoperaties. Veel van onze klanten zijn industrieleden op het gebied van persoonlijke verzorging, make-up, F&B, huisdieren en auto, zoals Procter and Gamble, Unilever en Mars. Onze oorspronkelijke technologiearchitectuur was een big data-cluster dat werd gebouwd met behulp van CDH (Cloudera Distributed Hadoop) in een eigen datacenter. Naarmate ons bedrijf groeide, nam het gegevensvolume explosief toe. Om…
-
Hoe te gebruiken Veranderingsgegevensvastlegging met Apache Kafka en ScyllaDB
In deze praktische workshop van ScyllaDB University leer je hoe je de ScyllaDB CDC source connector kunt gebruiken om gebeurtenissen van rij-niveauwijzigingen in de tabellen van een ScyllaDB-cluster te pushen naar een Kafka-server. Wat Is ScyllaDB CDC? Ter herhaling, Change Data Capture (CDC) is een functie die je niet alleen in staat stelt om de huidige staat van een database-tabel te ondervragen, maar ook de geschiedenis van alle wijzigingen die aan de tabel zijn aangebracht. CDC is productieklaar (GA) vanaf…
-
Van Hadoop naar de Cloud: Waarom en Hoe Uit elkaar Halen van Opslag en Berekening in Big Data Platformen
De komst van het Apache Hadoop Distributed File System (HDFS) revolutioneerde de opslag, verwerking en analyse van gegevens voor bedrijven, waardoor de groei van big data versnelde en transformatieve veranderingen in de industrie teweegbracht. Aanvankelijk integreerde Hadoop opslag en berekening, maar de opkomst van cloud computing leidde tot een scheiding van deze componenten. Object storage kwam op als een alternatief voor HDFS, maar had beperkingen. Om deze beperkingen aan te vullen, biedt JuiceFS, een open-source, high-performance geclusterde bestandssysteem, kostenefficiënte oplossingen…
-
Het bouwen van een datakolom voor traditionele industrieën
Dit is een deel van de digitale transformatie van een groot vastgoedbedrijf. Voor het oog van geheimhouding, ga ik geen bedrijfsgegevens onthullen, maar je krijgt een gedetailleerd overzicht van onze databank en onze optimalisatiestrategieën. Laten we nu beginnen. Architectuur Logisch gezien kan onze data-architectuur in vier delen worden opgedeeld. Data-integratie: Dit wordt ondersteund door Flink CDC, DataX en de Multi-Catalog-functie van Apache Doris. Data-beheer: We gebruiken Apache Dolphinscheduler voor het levenscyclusbeheer van scripts, bevoegdheden in multi-tenantbeheer en data-kwaliteitsbewaking. Waarschuwingen: We…
-
Aan de slag met Trino en Alluxio in vijf minuten
Trino is een open-source gedistribueerde SQL-query-engine ontworpen om grote gegevenssets te onderzoeken die zijn verspreid over één of meer heterogene gegevensbronnen. Trino is ontworpen om gegevensopslag, ETL en interactieve analyses aan te pakken door grote hoeveelheden gegevens te verwerken en rapporten te produceren. Alluxio is een open-source databiorchestratieplatform voor grootschalige analyses en AI. Alluxio bevindt zich tussen berekeningsframeworks zoals Trino en Apache Spark en verschillende opslagsystemen zoals Amazon S3, Google Cloud Storage, HDFS en MinIO. Dit is een handleiding voor…
-
Stateful Stream Processing met Memphis en Apache Spark
Amazon Simple Storage Service (S3) is een zeer schaalbare, duurzame en beveiligde objectopslagdienst aangeboden door Amazon Web Services (AWS). S3 stelt bedrijven in staat om elke hoeveelheid gegevens vanaf elke plek op het web op te slaan en op te vragen door gebruik te maken van zijn enterprise-niveau diensten. S3 is ontworpen om zeer interoperabel te zijn en integreert soepel met andere Amazon Web Services (AWS) en externe tools en technologieën om gegevens die in Amazon S3 worden opgeslagen te…