共计 444 个字符,预计需要花费 2 分钟才能阅读完成。
目前开发的版本的是spark1.6,因此很多最新的api无法使用,典型的就是读取csv文件无法跳过首行,现在给出我现在使用的方法,不过对于多文件可能会出现一定的错误
data = sc.textFile('path_to_data')
header = data.first() #extract header
data = data.filter(row => row != header) #filter out header
在spark 2.0以上可以通过以下代码实现,下面是scala实现:
#From Spark 2.0 onwards what you can do is use SparkSession to get this done as a one liner:
val spark = SparkSession.builder.config(conf).getOrCreate()
或者
val dataFrame = spark.read.format("CSV").option("header","true").load(csvfilePath)
正文完
请博主喝杯咖啡吧!