Spark

  • 2020-10-25 10:09:45
  • Post By 高景洋
filter(func): 1、选出所有func返回值为true的元素,生成一个新的分布式数据集返回 如图: 示例代码: 实现 Rdd ,每个元素*2,并输出结果>5的数据 def my_filter(): data = [1,2,3,4,5] rdd1 =sc.parallelize(data) map_rdd = rdd1.map(lambda x:x*2) print(map_rdd.collect()) filter_rdd = map_rdd.filter(lambda x:x>5) print(filter_rdd.collect()) #链示实示方式 #sc.parallelize(data).map(lambda x:x*2).filter(lambda x:x>5).collect()
查看全文 | 浏览次数(2871)
  • 2020-10-25 09:49:47
  • Post By 高景洋
map(func): 1、将func作用到数据集的每一个元素上,生成一个新的数据集并返回 2、map操作,相当于将RDD中每个Partition,中的每一个数据,都作用上一个相同的操作 如图: 示例代码: 实现,将某个RDD中的数据+1。 def func_for_map(x): return x+1 def my_map3(): conf = SparkConf().setMaster(''local[5]'').setAppName(''sparkTest'') sc = SparkContext(conf=conf) a = sc.parallelize([1,2,3,4,5,6,7]) b = a.map(lambda x:func_for_map(x)) print(b.collect()) sc.stop() 结果输出:[2
查看全文 | 浏览次数(1069)
  • 2020-10-23 12:15:58
  • Post By 高景洋
一、安装Spark 的前置条件 1、Java Jdk 安装 2、Hadoop 安装 安装方式,见:mac OS hadoop伪分布安装教程 二、安装scala 1、执行命令:brew install scala,执行完成即可完成 scala 的安装 三、Spark 下载 下载地址:http://spark.apache.org/downloads.html 我们选择版本:spark-3.0.1-bin-hadoop3.2,因为安装的hadoop 版本为 3.2.1 四、安装Spark 1、解压 tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz 2、将目录移到 /usr/local/spark3.0.1 目录下 执行命令 sudo mv /Users/jasongao/Document
查看全文 | 浏览次数(1840)
  1. 1
  2. 2
  3. 3