From 679728136de0e67f70662eaebf2e3b562f5958ea Mon Sep 17 00:00:00 2001 From: Oeljeklaus Date: Sat, 7 Jul 2018 21:40:35 +0800 Subject: [PATCH] Update README.md --- README.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 5cac65a..991e6f6 100644 --- a/README.md +++ b/README.md @@ -581,11 +581,11 @@ spark.shuffle.io.retryWait 5s 3.可以使用压缩算子提前性能。 ## 数据倾斜 ### 数据倾斜解决方案之原理以及现象分析 -1.数据倾斜的原理 +**1.数据倾斜的原理** spark进行shuffle时,由于数据分配不均匀,导致某个Task的数据过大,这个Task运行时间过长,这就是数据倾斜。 -2.数据倾斜的现象 +**2.数据倾斜的现象** spark数据倾斜,有两种表现: @@ -593,7 +593,7 @@ spark.shuffle.io.retryWait 5s 2.运行的时候,其他task执行造成,没有什么问题,但是有的task,就突然出现OOM,task failed,task lost反复执行几次都是某个task跑不通,最后挂掉。 -3.数据倾斜的产生原因与定位 +**3.数据倾斜的产生原因与定位** 根据log去定位,出现出现数据倾斜的原因,基本只可能因为出现了shuffle操作的在shuffle的过程中,出现了数据倾斜的问题。因为某个,或者某些key对应的数据,远高于其他key。