From 11cfdb35a40a6aca308706d12ce03cf86e8f8311 Mon Sep 17 00:00:00 2001 From: Oeljeklaus Date: Sat, 7 Jul 2018 20:56:09 +0800 Subject: [PATCH] Update README.md --- README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/README.md b/README.md index 7b476ac..4a684d7 100644 --- a/README.md +++ b/README.md @@ -547,3 +547,15 @@ spark作业,首先,第一要义,就是一定要让它跑起来,然后再 如果资源特别充分,可以尝试增加reduce端缓冲大小,这样就可以减少拉取次数,减少网络传输。 配置的参数,spark.reducer.maxSizeInflight +### troubleshooting之shuffle文件拉取失败 +有时候会出现一种情况,非常普遍;shuffle file cannot find,在spark的作业中,这是非常普遍,而且有时候,他会偶尔出现,但是重现提交task后, + +这种现象又不会出现,可以考虑是某一个executor在执行GC,但是下一个stage的executor需要拉去该task中的数据,这就导致了还现象的发生。 + +spark.shuffle.io.maxRetries 3 +这个参数表示shuffle文件拉取的时候,如果没有拉取到,最多或者重试几次,默认是3次。 + +spark.shuffle.io.retryWait 5s +这个参数的意思是每一次拉取文件的时间间隔,默认是5s。 + +针对以上情况,我们可以可以增大这两个参数的值,达到比较大的一个值,尽量保证第二个stage的task,一定能够拉取到上一个stage的输出文件。避免出现上述错误。