• 2021/3/26 23:46:19
  • Post By 高景洋
git提交下载代码速度特别慢的原因是它的ip经常变化。 我们要如何处理呢? 1、获取github地址 https://github.com.ipaddress.com/#ipinfo 2、获取global.ssl.fastly地址 https://fastly.net.ipaddress.com/github.global.ssl.fastly.net#ipinfo 3、修改本地Host 140.82.113.3 github.com 199.232.69.194 github.global.ssl.fastly.net 4、清理本地dns缓存 (Mac 下),会提示输入密码,输入即可 sudo dscacheutil -flushcache 5、提交拉取,变得嗖嗖的~
查看全文 | 浏览次数(82)
  • 2021/2/2 14:30:23
  • Post By 高景洋
# 提交方式(测试) # spark-submit --master local[2] --num-executors 2 --executor-memory 1G --jars ./spark-examples_2.11-1.6.0-typesafe-001.jar /home/hadoop/script/test_hbase_dataframe.py # 打包 # zip -r collect_py.zip * # ---------------提交方式(正式) : 适用于Python3.7 和 Spark2.3+------------------- # spark-submit \ # --name hbase_scan \ # --py-files /home/hadoop/collect_py/collect_py.zip \ #
查看全文 | 浏览次数(156)
  • 2021/1/29 18:37:25
  • Post By 高景洋
首先,我们要了解几个spark的内置时间比较函数: current_date:获取当前日期,示例:2021-1-29 date_sub:在指定日期上减N天,返回值是一个dataframe Row ,所以这个函数是在过滤时,对dataframe列进行操作 date_add:在指定日期上加N天 ,注意点同date_sub 下边的示例,功能为: 过滤出 UpdatedDate 是昨天的数据,且小于今天的日期 说明: 1、今天是 2021-1-29号,则取出 2021-1-28 - 2021-1-29 之间的数据 2、用WebsiteID 作为汇总字段,进行count操作 3、返回结果为 dataframe from pyspark.sql.functions import to_timestamp,current_date,date_sub
查看全文 | 浏览次数(116)
  • 2021/1/29 18:27:52
  • Post By 高景洋
直接上代码: from pyspark import SparkContext,SparkConf conf = SparkConf() sc = SparkContext(conf=conf) list_url_group_data = ListUrlDA().select_list_url_count_group_by_websiteid(list_schedule_website_id) #从mysql读出来的数据 类型 List list_url_rdd = sc.parallelize(list_url_group_data) # 将List转换为rdd spark = SparkSession.builder.master("local").appName("SparkMysql").getOrCreate() schem
查看全文 | 浏览次数(104)
  • 2021/1/28 11:38:26
  • Post By 高景洋
业务需求: 1、通过pyspark将hbase中的数据拉出 2、通过pyspark按UpdatedDate 、EnteredDate、DeletedDate ,根据WebsiteID字段汇总数量 小白方法: 1、spark拉出hbase数据 2、rdd1 = hbase_result_rdd.map(''对日期字段进行处理'') df1 = rdd_to_df(rdd1) # 将rdd转换为dataframe df2 = df1.filter(df1[''UpdatedDate'']>datetime.datetime.today().date) # 理想中的样子 现实中的样子:各种日期类型转换问题报错,如:数据中的字段值为None \ 2021-01-22 18:47:48 \ 2021-01-22T18:47:48 大白方法: 1、
查看全文 | 浏览次数(130)
  • 2021/1/13 16:30:50
  • Post By 高景洋
pyspark中要给rdd增加一列新数据,请看下边的代码。 from pyspark.sql import Row def add_field(row,refresh_date): tmp = row.asDict() tmp[''RefreshDate''] = refresh_date tmp[''RandomKey''] = uuid.uuid1().hex return Row(**tmp) if __name__ == ''__main__'': rdd_data= hbase_rdd.map(lambd m:add_field(m[1],refresh_date)).collect()
查看全文 | 浏览次数(229)
  • 2020/12/18 20:00:22
  • Post By 高景洋
slowlog get 慢查询日志获取 分别为慢查询日志标识ID 发生时间戳 命令耗时 执行命令和参数 slowlog len 慢查询日志条数 slowlog reset 清理 slowlog-max-len 不会占用太大内存,线上可以1000以上 slowlog-log-slower-than 默认10毫秒,高流量1毫秒以上支撑OPS不到1000,高并发可以设置1毫秒以下
查看全文 | 浏览次数(197)
  • 2020/12/11 11:44:35
  • Post By 高景洋
from pyspark.sql.functions import lit,rand df = spark.read.csv(''file:///Users/jasongao/Documents/tmp/hbase-0.csv'',schema) # 原始DF df11 = df.withColumn(''RandomKey'',rand()) # 给df 增加 RandomKey 随机列,并生成新的DF df11.orderBy(df11[''RandomKey'']).show() # 按新增列正排序 输出显示 PS : 新增列时,优先使用 # from pyspark.sql.functions # 下的方法,尽量避免通过用户自定义函数实现列内容增加
查看全文 | 浏览次数(226)
  • 2020/12/6 1:06:25
  • Post By 高景洋
1、nginx 版本 : nginx-1.18.0 2、http 配置 server { listen 80; server_name www.XXXX.cn; if ($host = ''www.XXXX.cn'' ){ # 将带www的域名301到https rewrite ^/(.*)$ https://www.XXXX.cn/$1 permanent; } if ($host = '''' ){ # 将不带带www的域名301到https rewrite ^/(.*)$ https://www.XXXX.cn/$1 permanent; } #charset koi8-r; #access_log logs/host.access.log main; location / { proxy_pass http://127.0.0.1:808
查看全文 | 浏览次数(211)
  • 2020/12/6 0:05:27
  • Post By 高景洋
1、pip3 install uwsg 2、建立软链 ln -s /usr/local/python3/bin/uwsgi /usr/bin/uwsgi 3、其他~ -- 停止 uwsgi pkill -f -9 uwsgi
查看全文 | 浏览次数(216)
相关文章
友情链接
支付宝打赏(内容对您有帮助的话)
微信交流
知乎编程经验网 - 在工作中总结编程的经验! 备案/许可证编号:鲁ICP备11020152号
QQ:120217215 联系电话:15192695151