关于 Apache Spark 的所有你需要知道的

教程

Hadoop

Apache Spark 是一个通用且快速的集群计算框架，是基于广泛数据处理平台的开源技术。此外，它展示了开发 API，使数据工作者能够实现流处理、机器学习（ML）和 SQL 工作负载。它还需要对数据集的重复访问。

Spark 可以执行流处理和批处理。就上下文而言，流处理处理数据流，而批处理意味着在一个批次中处理先前收集的任务。

此外，它的构建方式使其能够与所有大数据工具集成。例如，Spark 可以轻松访问任何 Hadoop 数据源并在任何 Hadoop 集群上运行。Spark 将 Hadoop MapReduce 扩展到下一个层次。这还包括流处理和迭代查询。

关于 Spark 技术的另一个基本信念是，它是 Hadoop 的扩展，尽管这并不正确。Spark 独立于 Hadoop，因为它拥有自己的集群管理框架。它仅将 Hadoop 用于存储目的。Spark 在内存模式下比 Hadoop 快 100 倍，在磁盘模式下快 10 倍。

尽管 Spark 只有一个关键元素，但它具有内存集群计算能力。它还加快了应用程序的处理速度。

基本上，Spark为用户提供了高级API，例如Scala、Java、Python和R。因此，Spark是用Scala编写的，仍然提供了丰富的Java、Scala、Python和R API。这意味着它是运行Spark应用程序的设备。

Apache Spark编程要素

在本文中，我们将讨论Apache Spark编程的要素。Spark保证了更快的数据处理和快速的开发，这仅仅是由于其要素才可能实现的。所有这些Spark要素解决了在使用Hadoop MapReduce时出现的问题。

因此，让我们讨论每个Spark要素。

Spark核心

Spark核心是Spark编程的主要要素。基本上，它为Spark软件提供了性能平台，并提供了一个通用平台，以帮助各种应用程序。

Spark SQL

接下来，它使用户能够运行SQL或HQL查询。在这里，我们可以通过使用Spark SQL来处理结构化和半结构化数据。它可以在现有环境中运行未修改的查询，速度提高了100倍。

Spark Streaming

一般来说，在所有实时流处理中，Spark Streaming使数据分析程序更加强大智能。实时流也会转换为在Spark核心上执行的微批处理。

Spark MLlib

MLlib，或机器学习库，提供了高效性和高端算法。此外，它是数据研究人员最炙手可热的选择。由于它能够进行内存数据处理，因此极大地提高了迭代计算的性能。

Spark GraphX

通常，Spark GraphX是基于Spark的图算法引擎，能够在重要程度上处理图数据。

SparkR

基本上，是从R中使用Spark。这是一个提供轻量级前端的R捆绑包。此外，它允许数据研究人员分析大型数据集。此外，它还可以从R shell直观地对其运行任务。

Apache Spark中RDD的作用

Apache Spark的重要特性是RDD。RDD，或弹性分布式数据集，是Spark编程中的基本数据部分。基本上，它是跨集群节点的分布式元素集合。它还执行相等的操作，并具有不变性，即使它可以通过更改现有的Spark RDD 生成新的RDD。

如何创建Spark RDD

有三种重要的方法来构建Apache Spark RDD：

并行化技术。我们可以通过在驱动程序应用程序中调用并行化方法来创建并行化集合。
外部数据集技术。可以通过应用文本文件策略创建Spark RDD。因此，该技术获取文件URL并将其作为一系列行进行处理。
现有RDDs技术。此外，我们可以通过对现有RDD应用转换过程，在Spark技术中创建新的RDD。

Apache Spark的特性和功能

Apache Spark有几个特性：

高速数据处理

Spark提供更高的数据处理速度。在内存中大约快100倍，在磁盘上快10倍。但是，这仅通过减少磁盘上的读写次数来实现。

极其动态

基本上，可以在Spark中构建并行应用，因为Spark中有80个高级操作符可用。

内存处理

更高的处理速度得益于内存处理。这提高了处理速度。

可重用性

我们可以轻松重用Spark代码进行批处理，或将其与流数据关联以处理历史数据。此外，它可以在流级别运行临时命令。

Spark故障支持

Spark提供内部故障的适应能力。通过Spark的RDD核心抽象可以实现这一点。为了处理批处理中的任何工作节点故障，创建了Spark RDD。因此，数据丢失减少到零。

实时数据流

我们可以在Spark框架中执行实时流处理。本质上，Hadoop不支持实时处理，但它可以处理已经存在的数据。随后，借助Spark Streaming，我们可以轻松解决这个问题。

本质上是惰性的

我们在Spark RDD中所做的所有更改都是惰性的。这就是说，它不会立即提供结果。而是从当前的RDD构建出另一个RDD。这样一来，就提高了框架的效率。

支持多种技术

Spark支持多种语言，如R、Java、Python和Scala。因此，它表现出动态性。此外，它还克服了Hadoop的限制，因为它将在Java中生成应用程序。

与Hadoop的集成

如我们所知，Spark是灵活的，因此它可以独立运行，并且也可以在Hadoop YARN集群管理器上运行。实际上，它甚至可以读取现有的Hadoop数据。

Spark的GraphX

在Spark中，作为图或并行计算的一个功能，我们有一个强大的工具，称为GraphX。通常，它通过一系列图构建器和算法简化图分析任务。

可靠且具成本效益

对于Hadoop中的大数据问题，在复制期间需要大量存储和巨大的数据空间。因此，Spark编程成为一种经济实惠的解决方案。

使用Apache Spark的好处

Apache Spark已经重新定义了大数据的概念。此外，它是一个极其活跃的大数据应用程序，重塑了大数据市场。这个开源平台提供的吸引力远超过任何其他独家解决方案。Spark的独特优势使其成为一个极具吸引力的大数据框架。

Spark拥有巨大的优势，可以为全球各地基于大数据的企业做出贡献。让我们讨论一下它的一些优势。

速度

在谈论大数据时，处理速度始终非常重要。由于其速度快，Spark非常受数据科学家的青睐。Spark可以在单个时间内管理超过8000个节点的各种PB级集群数据。

易用性

Spark提供了易于使用的API，可用于处理大型数据集。此外，它提供了80多个高端操作符，可以简化开发并行应用程序的过程。

高级分析

Spark不仅支持’MAP’或’reduce’。此外，它还支持机器学习、数据流、图算法、SQL查询等。

动态性

通过Spark，您可以轻松创建并行应用程序。Spark为您提供了80多个高端操作符。

多语言

Spark框架支持多种编程语言，如Java、Python、Scala等。

强大

由于具有低延迟的内存中数据处理技能，Spark可以处理各种分析测试。此外，它还具有用于图分析算法的优秀库，包括机器学习（ML）。

大数据的扩展访问

Spark框架为大数据和开发开辟了许多可能性。最近，IBM组织的一项调查表示将培训超过100万名数据技术人员和数据科学家学习Spark。

对Apache Spark开发人员的需求

Spark可以在多种方面帮助您和您的业务。组织对Spark工程师的需求量很大，提供有吸引力的福利并提供灵活的工作时间来聘请专业人士。根据PayScale的数据，从事Spark工作的数据工程师的平均工资为100,362美元。

开源技术

Spark最有用的一点是它背后有一个庞大的开源技术支持。

现在，让我们了解Spark的用例。这将为我们展示更多有关Spark用途的有用见解。

Apache Spark用例

Apache Spark有各种以业务为中心的用例。让我们详细讨论一下：

金融

许多银行正在利用Spark。基本上，它允许访问和识别银行业中的许多参数，如社交媒体资料、电子邮件、论坛、电话录音等。因此，它还有助于为一些领域做出正确的决策。

电子商务

基本上，它协助处理有关实时交易的数据。此外，这些数据正在传递给流聚类算法。

媒体和娱乐

我们使用Spark来区分设计与实时游戏场合。它还允许对收获有价值的商业机会作出反应。

旅行

一般来说，旅行项目正积极利用Spark。此外，它还通过增强个性化推荐，帮助客户规划理想的旅行。

结论

现在，我们已经看到了Apache Spark的每一个元素，包括Apache Spark编程是什么及其定义、历史、为什么需要它、元素、RDD、特性、流处理、限制和用例。

Source:
https://dzone.com/articles/apache-spark-all-you-need-to-know