SparkSQL和Hive有什么异同? 环球微动态
2023-03-07 16:51:01 哔哩哔哩

SparkSQL和Hive的异同

Hive和Spark 均是:“分布式SQL计算引擎”


【资料图】

均是构建大规模结构化数据计算的绝佳利器,同时SparkSQL拥有更好的性能。

目前,企业中使用Hive仍旧居多,但SparkSQL将会在很近的未来替代Hive成为分布式SQL计算市场的顶级

SparkSQL的数据抽象

回顾Pandas和SparkSQL的数据抽象

Pandas - DataFrame

· 二维表数据结构

· 单机(本地)集合

SparkCore - RDD

· 无标准数据结构,存储什么数据均可

· 分布式集合(分区)

SparkSQL - DataFrame

· 二维表数据结构

· 分布式集合(分区)

SparkSQL 其实有3类数据抽象对象

· SchemaRDD对象(已废弃)

· DataSet对象:可用于Java、Scala语言

· DataFrame对象:可用于Java、Scala、Python、R

我们以Python开发SparkSQL,主要使用的就是DataFrame对象作为核心数据结构

在SparkSQL当中,Spark为我们提供了两个操作SparkSQL的抽象,分别是DataFrame和DataSet。也就是说我们操作SparkSQL一般都是使用DataFrame或者DataSet来实现的。

RDD(Spark1.0)  ==>  DataFrame(1.3)   ==>  DataSet(1.6)

相关新闻: