Update README.md

hxy
Oeljeklaus 8 years ago committed by GitHub
parent 66df44cb65
commit 47c6a172b1
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -478,3 +478,22 @@ spark.locality.wait.node
spark.locality.wait.rack
在SparkConf中设置即可
### JVM调优原理之降低cache操作的内存比
有哪些调优?
1.常规性能调优,分配资源,并行度
2.JVM调优JVM相关的参数通常情况下如果你的硬件配置基础的JVM的配置通常都不会造成太严重的性能问题。主要是在线上故障中JVM占很重要的地位。
3.shuffle调优spark在执行groupbykey,reducebykey等操作时shuffle环节很重要shuffle调优其实对spark作业的性能的影响相当高基本上shuffle的性能消耗占用整个spark的50及以上。
4.spark操作的调优gourpbykey,countbykey来重构有些算子性能是比其他算子的性能要高
Spark中堆内存又被划分成为两部分一块是专门用来给RDD的cache,persist进行数据缓存用的还有一块是用来算子运算的存放函数中自己创建的对象。
默认情况下给算子cache操作的内存占比是0.6也就是用于算子做算的只占有0.4。如果出现频道的GC如果cache操作很充足那么就可以调节一下占比降低
cache操作的内存占比大不了用persist操作选择将缓存的数据写入磁盘配合序列化方式减少算子缓存内存占比。
一句话让task执行算子函数有更多的内存可以是使用。可以使用参数spark.storage.memoryFraction进行调节默认是0.6。

Loading…
Cancel
Save