Update README.md

main
Oeljeklaus 7 years ago committed by GitHub
parent fce397222a
commit bd313cbbc2
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -612,3 +612,11 @@ spark.shuffle.io.retryWait 5s
spark作业的数据来源通常是从hive表。对于spark作业的输入源头可以将同一key的数据进行拼接对于这种操作之后可能就没有shuffle操作了何来数据倾斜
如果没法对每一个key进行聚合出来一条数据。可以对于数据进行粗粒度的聚合比如根据时间或者地域进行聚合尽量去聚合减少每个key的数量也许聚合到比较粗的粒度后原来的数据减少了减轻了数据倾斜的现象和问题。
### 数据倾斜解决方案之提高shuffle操作reduce端的并行度
将reduce task的数量变多就可以让每个reduce task分配到更少的数据量这样的话也许就可以缓解或者甚至是解决数据倾斜的问题
提升shuffle reduce端并行度怎么操作
在调用的时候传入进入一个参数这个数字表示reduce端的并行度。
这个方案只是缓解了数据倾斜的问题。

Loading…
Cancel
Save