共计 337 个字符,预计需要花费 1 分钟才能阅读完成。
之前在spark上面跑一个代码,但是输出的结果想拿出来分析顺便画个图表征,因此就想把数据保存到一个文件上面去,网上一搜一大堆保存到一个文件的方法,基本上都是互相抄袭,设置啥分区为一个,保存的名字为一个txt之类的介绍,真TM误人啊!
实际上spark在调用saveAsTextFile默认你传入的参数是路径,即使你写的是txt文件名也会变成一个路径
不信的话你可以在地址下查看
hadoop fs -ls -R path(你的地址)
你就会发现存在分区,并不是你想要的单个文件
在该语句之前加上repartition(1),即写作以下形式:
rdd.repartition(1).saveAsTextFile("out.txt")
上面这个代码还是会有分区的,直接把分区的文件get下来在导出吧!
正文完
请博主喝杯咖啡吧!