|
|
|
@ -559,3 +559,15 @@ spark.shuffle.io.retryWait 5s
|
|
|
|
这个参数的意思是每一次拉取文件的时间间隔,默认是5s。
|
|
|
|
这个参数的意思是每一次拉取文件的时间间隔,默认是5s。
|
|
|
|
|
|
|
|
|
|
|
|
针对以上情况,我们可以可以增大这两个参数的值,达到比较大的一个值,尽量保证第二个stage的task,一定能够拉取到上一个stage的输出文件。避免出现上述错误。
|
|
|
|
针对以上情况,我们可以可以增大这两个参数的值,达到比较大的一个值,尽量保证第二个stage的task,一定能够拉取到上一个stage的输出文件。避免出现上述错误。
|
|
|
|
|
|
|
|
### troubleshooting之解决各种序列化导致的报错
|
|
|
|
|
|
|
|
你会看到什么样的序列化导致的报错?
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
用client模式提交spark作业,观察本地打出的log,如果出现Serializable,Serialize等字段,报错的log,那就出现了序列化问题导致的错误。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
序列化报错注意的三个点:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1.算子函数中设置如果使用到自定义的类型,一定要序列化
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2.如果将自定义的类型,作为算子的元素类型,那么自定义的类型必须是可以序列化的
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3.不能在上述两种情况下,去使用一些第三方的不支持序列化的类型
|
|
|
|
|