• 2021/1/13 16:30:50
  • Post By 高景洋
pyspark中要给rdd增加一列新数据,请看下边的代码。 from pyspark.sql import Row def add_field(row,refresh_date): tmp = row.asDict() tmp[''RefreshDate''] = refresh_date tmp[''RandomKey''] = uuid.uuid1().hex return Row(**tmp) if __name__ == ''__main__'': rdd_data= hbase_rdd.map(lambd m:add_field(m[1],refresh_date)).collect()
查看全文 | 浏览次数(8)
  • 2020/12/18 20:00:22
  • Post By 高景洋
slowlog get 慢查询日志获取 分别为慢查询日志标识ID 发生时间戳 命令耗时 执行命令和参数 slowlog len 慢查询日志条数 slowlog reset 清理 slowlog-max-len 不会占用太大内存,线上可以1000以上 slowlog-log-slower-than 默认10毫秒,高流量1毫秒以上支撑OPS不到1000,高并发可以设置1毫秒以下
查看全文 | 浏览次数(54)
  • 2020/12/11 11:44:35
  • Post By 高景洋
from pyspark.sql.functions import lit,rand df = spark.read.csv(''file:///Users/jasongao/Documents/tmp/hbase-0.csv'',schema) # 原始DF df11 = df.withColumn(''RandomKey'',rand()) # 给df 增加 RandomKey 随机列,并生成新的DF df11.orderBy(df11[''RandomKey'']).show() # 按新增列正排序 输出显示 PS : 新增列时,优先使用 # from pyspark.sql.functions # 下的方法,尽量避免通过用户自定义函数实现列内容增加
查看全文 | 浏览次数(61)
  • 2020/12/6 1:06:25
  • Post By 高景洋
1、nginx 版本 : nginx-1.18.0 2、http 配置 server { listen 80; server_name www.XXXX.cn; if ($host = ''www.XXXX.cn'' ){ # 将带www的域名301到https rewrite ^/(.*)$ https://www.XXXX.cn/$1 permanent; } if ($host = '''' ){ # 将不带带www的域名301到https rewrite ^/(.*)$ https://www.XXXX.cn/$1 permanent; } #charset koi8-r; #access_log logs/host.access.log main; location / { proxy_pass http://127.0.0.1:808
查看全文 | 浏览次数(61)
  • 2020/12/6 0:05:27
  • Post By 高景洋
1、pip3 install uwsg 2、建立软链 ln -s /usr/local/python3/bin/uwsgi /usr/bin/uwsgi 3、其他~ -- 停止 uwsgi pkill -f -9 uwsgi
查看全文 | 浏览次数(74)
  • 2020/12/4 13:12:59
  • Post By 高景洋
1、Hbase中数据列并不是统一的 2、如果在列不统一的情况下,将数据通过spark从hbase读出后,直接转dataframe会报错 3、操作dataframe的方便性比操作rdd好很多,因此我们需要想办法,把字段不统一的rdd转换为dataframe 具体逻辑请看以下代码,亲测可用: from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession import json def deal_missing_dec(no_row_key_colnames): def deal_missing(x): result = {} for i in no_row_key_colnames: if i in x[1].keys():
查看全文 | 浏览次数(72)
  • 2020/12/3 16:12:13
  • Post By 高景洋
a = ''2020-10-13 16:58:40'' last_time = datetime.datetime.strptime(a,''%Y-%m-%d %H:%M:%S'') seconds_diff = (datetime.datetime.now()-last_time).total_seconds() minutes_diff = seconds_diff / 60
查看全文 | 浏览次数(72)
  • 2020/12/3 16:07:43
  • Post By 高景洋
from operator import itemgetter from itertools import groupby if __name__ == "__main__": d1={''name'':''zhangsan'',''age'':20,''country'':''China''} d2={''name'':''wangwu'',''age'':19,''country'':''USA''} d3={''name'':''lisi'',''age'':22,''country'':''JP''} d4={''name'':''zhaoliu'',''age'':22,''country'':''USA''} d5={''name'':''pengqi'',''age'':22,''country'':''USA''} d6
查看全文 | 浏览次数(74)
  • 2020/11/18 15:05:15
  • Post By 高景洋
查看全文 | 浏览次数(90)
  • 2020/11/13 15:33:10
  • Post By 高景洋
下边用示例代码,给大家做个演示,并针输出结果截图。 from pyspark import SparkContext,SparkConf from pyspark.sql.session import SparkSession from pyspark.sql.types import StructField, StructType, StringType if __name__ == ''__main__'': spark = SparkSession.builder.master("local").appName("SparkOnHive").getOrCreate()#.enableHiveSupport() schema = StructType([ # true代表不为空 StructField("WebsiteID", StringType()
查看全文 | 浏览次数(114)
相关文章
友情链接
支付宝打赏(内容对您有帮助的话)
微信交流
知乎编程经验网 - 在工作中总结编程的经验! 备案/许可证编号:鲁ICP备11020152号
QQ:120217215 联系电话:15192695151