pyspark怎样给rdd添加一列新数据

作者:高景洋 日期:2021/01/13 16:30 浏览次数:85

pyspark中要给rdd增加一列新数据,请看下边的代码。


from pyspark.sql import Row


def add_field(row,refresh_date):
    tmp = row.asDict()
    tmp['RefreshDate'] = refresh_date
    tmp['RandomKey'] = uuid.uuid1().hex
    return Row(**tmp)


if __name__ == '__main__':
   
    
     rdd_data= hbase_rdd.map(lambd m:add_field(m[1],refresh_date)).collect()
本文永久性链接:
<a href="http://www.zhihu.so/art171.aspx">pyspark怎样给rdd添加一列新数据</a>
相关文章
友情链接
支付宝打赏(内容对您有帮助的话)
微信交流
知乎编程经验网 - 在工作中总结编程的经验! 备案/许可证编号:鲁ICP备11020152号
QQ:120217215 联系电话:15192695151