时间:2021-05-22
弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是Apache Spark的核心。
在pyspark中获取和处理RDD数据集的方法如下:
1. 首先是导入库和环境配置(本测试在linux的pycharm上完成)
import osfrom pyspark import SparkContext, SparkConffrom pyspark.sql.session import SparkSessionos.environ["PYSPARK_PYTHON"]="/usr/bin/python3"conf = SparkConf().setAppName('test_rdd')sc = SparkContext('local', 'test', conf=conf)spark = SparkSession(sc)2. 然后,提供hdfs分区数据的路径或者分区表名
txt_File = r"hdfs://host:port/apps/hive/warehouse/数据库名.db/表名/分区名/part-m-00029.deflate" # part-m-00029.deflate
# txt_File = r"hdfs://host:port/apps/hive/warehouse/数据库名.db/表名" # hive table
3. sc.textFile进行读取,得到RDD格式数据<还可以用 spark.sparkContext.parallelize(data) 来获取RDD数据>,参数中还可设置数据被划分的分区数
txt_ = sc.textFile(txt_File)
4. 基本操作:
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了JS获取并处理php数组的方法。分享给大家供大家参考,具体如下:$music=array();$music['tayler']=array();$
rdd的特点如下: 1、RDD是Spark提供的核心抽象,全称为ResillientDistributedDataset,即弹性分布式数据集。 2、RDD在
RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是
本文实例讲述了php获取textarea的值并处理回车换行的方法。分享给大家供大家参考。具体实现方法如下:一般来说,在html表单中textarea中我们按回车
这篇文章主要介绍了python操作openpyxl导出Excel设置单元格格式及合并处理代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的