《Hadoop MapReduce处理海量小文件：自定义InputFormat和RecordReader》的评论

作者：James

James — Sat, 12 Nov 2016 13:53:54 +0000

那如果是mapreduce 有一个文件夹的下得多个文档需要处理但是需要单独处理怎么办呢？意思是每读取一个文档做一次Mapreduce然后输出然后处理下一个文档

Yanjun — Tue, 02 Feb 2016 02:37:28 +0000

小文件大小，小于一个Block大小，那这个小文件就是一个Block。如果每个小文件大小都不相同，那么分块后大小自然不同了。

mapreduce中map方法一次读取整个文件-IT大道 — Mon, 25 Jan 2016 05:36:38 +0000

[…] 更多信息请参考 […]

谈超 — Thu, 07 Jan 2016 12:53:21 +0000

你好麻烦你能讲解一下
这些小文件上传的时候不是要分块的吗？但是每个小文件大小又不一样，你分块的大小可以随小文件的大小可改变吗？求教！方便的话能联系一下吗？我看了你的另外一篇文章也是讲解这个的。感觉讲的很好想请教你一下我的qq是2745270681 谢谢

Yanjun — Mon, 14 Sep 2015 06:44:45 +0000

这里说的是对小文件的处理，小文件大小一般可能应该远远小于64M。

阿门 — Sat, 12 Sep 2015 02:30:45 +0000

WholeFileInputFormat 为什么没有覆盖isSplitable（）方法呢，上面的代码使用的是默认的split策略，如果单个文件大于64mb 那么WholeSmallfilesMapper 类一次拿到的value就不是整个文件了吧，刚接触hadoop不久，不知道说的对不对？

Yanjun — Tue, 21 Jul 2015 02:45:35 +0000

每个InputSplit对应一个小文件，你可以直接读取到，Reduce输出后key是小文件名，value是该小文件的内容。

kbj — Thu, 16 Jul 2015 09:18:51 +0000

怎么读取每个小文件呢

Yanjun — Fri, 06 Dec 2013 12:02:30 +0000

你说的没问题，选择这种方式去处理，在一些特殊的场景中会比较合适（当然，有更好的方案我们肯定会选择好的）。比如，后续的计算非常复杂，使用这种方式做一个预处理，会为后面更复杂的计算节省空间或时间资源。确实，不推荐使用这种方式处理。

joqk — Fri, 06 Dec 2013 08:59:40 +0000

我觉得这么做有问题的。mapper与每一个split对应，即你每一个小文件都要交给一个mapper来处理，这样的话虽然达到了合成大文件的目的，但是你在合并过程中造成了大量的空间浪费和资源开销嘛