Update README.md

main
Oeljeklaus 7 years ago committed by GitHub
parent 11cfdb35a4
commit 8ef9b85c22
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -559,3 +559,15 @@ spark.shuffle.io.retryWait 5s
这个参数的意思是每一次拉取文件的时间间隔默认是5s。 这个参数的意思是每一次拉取文件的时间间隔默认是5s。
针对以上情况我们可以可以增大这两个参数的值达到比较大的一个值尽量保证第二个stage的task一定能够拉取到上一个stage的输出文件。避免出现上述错误。 针对以上情况我们可以可以增大这两个参数的值达到比较大的一个值尽量保证第二个stage的task一定能够拉取到上一个stage的输出文件。避免出现上述错误。
### troubleshooting之解决各种序列化导致的报错
你会看到什么样的序列化导致的报错?
用client模式提交spark作业观察本地打出的log如果出现Serializable,Serialize等字段报错的log那就出现了序列化问题导致的错误。
序列化报错注意的三个点:
1.算子函数中设置如果使用到自定义的类型,一定要序列化
2.如果将自定义的类型,作为算子的元素类型,那么自定义的类型必须是可以序列化的
3.不能在上述两种情况下,去使用一些第三方的不支持序列化的类型

Loading…
Cancel
Save