Mapreduce WordCount学习-hadoop学习笔记

如题WordCount!

一、普通版本

1、TokenizerMapper.java

2、IntSumReducer.java

3、WordCount.java

二、提前聚合版

方法:设置Combiner函数,对map函数输出结构进行早期聚合以减少传输的数据量

Tip:

  • Conbine过程发生在map和reduce函数之间,将中间结果进行了一次合并
  • Hadoop不保证combiner是否被执行,可能会执行,可能不会执行,可能执行多次
  • Combiner并不是所有场景都适应,随意使用可能导致结果错误。适合Combiner场景有最大值、最小值、求和等

 

Print Friendly
赞 (0)
分享到:更多 ()

留言板 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址