Update README.md

7 years ago · 8ef9b85c22
parent 11cfdb35a4
commit 8ef9b85c22
1 changed files with 12 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -559,3 +559,15 @@ spark.shuffle.io.retryWait 5s
 这个参数的意思是每一次拉取文件的时间间隔，默认是5s。
 针对以上情况，我们可以可以增大这两个参数的值，达到比较大的一个值，尽量保证第二个stage的task，一定能够拉取到上一个stage的输出文件。避免出现上述错误。
 ### troubleshooting之解决各种序列化导致的报错
 你会看到什么样的序列化导致的报错？
 用client模式提交spark作业，观察本地打出的log，如果出现Serializable,Serialize等字段，报错的log，那就出现了序列化问题导致的错误。
 序列化报错注意的三个点:
 1.算子函数中设置如果使用到自定义的类型，一定要序列化
 2.如果将自定义的类型，作为算子的元素类型，那么自定义的类型必须是可以序列化的
 3.不能在上述两种情况下，去使用一些第三方的不支持序列化的类型