Update README.md

main
Oeljeklaus 7 years ago committed by GitHub
parent 679728136d
commit fce397222a
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -600,3 +600,15 @@ spark.shuffle.io.retryWait 5s
1.在程序中找到产生shuffle得算子
2.看loglog一般会报你的哪一行代码导致OOM异常看看执行到第几个stage。
### 数据倾斜解决方案之聚合源数据
解决数据倾斜的方案:
1.聚合源数据
2.过滤导致倾斜的Key
聚合源数据的思路:
spark作业的数据来源通常是从hive表。对于spark作业的输入源头可以将同一key的数据进行拼接对于这种操作之后可能就没有shuffle操作了何来数据倾斜
如果没法对每一个key进行聚合出来一条数据。可以对于数据进行粗粒度的聚合比如根据时间或者地域进行聚合尽量去聚合减少每个key的数量也许聚合到比较粗的粒度后原来的数据减少了减轻了数据倾斜的现象和问题。

Loading…
Cancel
Save