|
|
|
@ -581,11 +581,11 @@ spark.shuffle.io.retryWait 5s
|
|
|
|
|
3.可以使用压缩算子提前性能。
|
|
|
|
|
## 数据倾斜
|
|
|
|
|
### 数据倾斜解决方案之原理以及现象分析
|
|
|
|
|
1.数据倾斜的原理
|
|
|
|
|
**1.数据倾斜的原理**
|
|
|
|
|
|
|
|
|
|
spark进行shuffle时,由于数据分配不均匀,导致某个Task的数据过大,这个Task运行时间过长,这就是数据倾斜。
|
|
|
|
|
|
|
|
|
|
2.数据倾斜的现象
|
|
|
|
|
**2.数据倾斜的现象**
|
|
|
|
|
|
|
|
|
|
spark数据倾斜,有两种表现:
|
|
|
|
|
|
|
|
|
@ -593,7 +593,7 @@ spark.shuffle.io.retryWait 5s
|
|
|
|
|
|
|
|
|
|
2.运行的时候,其他task执行造成,没有什么问题,但是有的task,就突然出现OOM,task failed,task lost反复执行几次都是某个task跑不通,最后挂掉。
|
|
|
|
|
|
|
|
|
|
3.数据倾斜的产生原因与定位
|
|
|
|
|
**3.数据倾斜的产生原因与定位**
|
|
|
|
|
|
|
|
|
|
根据log去定位,出现出现数据倾斜的原因,基本只可能因为出现了shuffle操作的在shuffle的过程中,出现了数据倾斜的问题。因为某个,或者某些key对应的数据,远高于其他key。
|
|
|
|
|
|
|
|
|
|