hive 处理小文件，减少地图数-数据库教程-爱易网页

hive 处理小文件，减少地图数

日期：2014-05-16　浏览次数：20657 次

hive 处理小文件，减少map数

1、hive.merge.mapfiles，True时会合并map输出。
2、hive.merge.mapredfiles，True时会合并reduce输出。
3、hive.merge.size.per.task，合并操作后的单个文件大小。
4、hive.merge.size.smallfiles.avgsize，当输出文件平均大小小于设定值时，启动合并操作。这一设定只有当hive.merge.mapfiles或hive.merge.mapredfiles设定为true时，才会对相应的操作有效。
5、mapred.reduce.tasks=30; 设置Reduce Task个数
6、hive.exec.compress.output=’false’; 设置数据不作压缩，要是压缩了我们拿出来的文件就只能通过HIVE-JDBC来解析
7、mapred.map.tasks=1200;
8、hive.optimize.skewjoin=true;这个是给join优化的 0.6官方版本好像有个bug悲哀啊
9、hive.groupby.skewindata=true;这个是给groupby优化的

优化案例一：

使用的生产Hive环境的几个参数配置如下：

dfs.block.size=268435456

hive.merge.mapredfiles=true

hive.merge.mapfiles=true

hive.merge.size.per.task=256000000

mapred.map.tasks=2

因为合并小文件默认为true，而dfs.block.size与hive.merge.size.per.task的搭配使得合并后的绝大部分文件都在300MB左右。

CASE 1：

现在我们假设有3个300MB大小的文件，那么goalsize = min(900MB/2,256MB) = 256MB (具体如何计算map数请参见http://blog.sina.com.cn/s/blog_6ff05a2c010178qd.html)

所以整个JOB会有6个map，其中

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

hive 处理小文件，减少地图数

相关资料更多>

推荐阅读更多>