环境 scala 2.12.x spark 3.2 异常 使用 udf 处理dataframe 的时候会出现隐…
深夜水文一篇,这是n天前碰到的一个问题: Exception in thread “main” org.apa…
背景 一个 spark 任务执行碰到的问题,看起来是snappy包出现的问题,我自己手动指定的是1.1.7版本…
pivot 函数的功能是实现行列旋转,在 sql 里面也经常会遇到行列旋转,相应的操作大概就是对于行你可能需要…
消除重复的数据可以通过使用 distinct 和 dropDuplicates 两个方法,二者的区别在于,di…
Spark collect() 和 collectAsList() 是用于将 RDD/DataFrame/Da…
写这篇博文记录这个问题应该过去几天了,由于xx原因没办法完全导出详细错误日志信息贴出来,下面列出的是简要的报错…
在SparkwithColumnRenamed()中用于重命名一列或多个DataFrame列名。取决于Data…
Spark withColumn()是一个DataFrame函数,用于向DataFrame中添加新列,更改现有…
本文介绍常见的几种对spark dataframe 进行列名的修改方法 生成测试数据 val data = S…
情况: 需要合并多个DataFrame ,存在部分DataFrame 的 columns 比其他的要多的情况,…
这篇文章的由来是最近在做数据负采样方面的工作,看了些论文准备自己着手对样本直接操作,常规的使用工具就是Spar…
我们很高兴宣布Polynote的开源发布:一个新的多语言笔记本,具有一流的Scala支持,Apache Spa…
网上的资料一大堆都是很早以前版本的教程,干脆自己写一个最新版的。 此处有一定要强调,类似环境的安装一定要去官网…
最近隔壁的小伙伴跑模型出现了类似以下的错误,当然最主要的错误在下面的红色标识出来 client token: …
所谓偏函数(也叫部分函数)与完全函数对应,普通的方法都是完全函数,即 f(i:Int) = xxx 是将所有I…
初学scala,看着scala入门教程,看的越多,大括号还有小括号需要深入了解一下 如果你要调用的函数有两个或…