diff --git a/README.md b/README.md index 4a684d7..c844b6d 100644 --- a/README.md +++ b/README.md @@ -559,3 +559,15 @@ spark.shuffle.io.retryWait 5s 这个参数的意思是每一次拉取文件的时间间隔,默认是5s。 针对以上情况,我们可以可以增大这两个参数的值,达到比较大的一个值,尽量保证第二个stage的task,一定能够拉取到上一个stage的输出文件。避免出现上述错误。 +### troubleshooting之解决各种序列化导致的报错 +你会看到什么样的序列化导致的报错? + +用client模式提交spark作业,观察本地打出的log,如果出现Serializable,Serialize等字段,报错的log,那就出现了序列化问题导致的错误。 + +序列化报错注意的三个点: + +1.算子函数中设置如果使用到自定义的类型,一定要序列化 + +2.如果将自定义的类型,作为算子的元素类型,那么自定义的类型必须是可以序列化的 + +3.不能在上述两种情况下,去使用一些第三方的不支持序列化的类型