<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	
	>
<channel>
	<title>《Hadoop MapReduce处理海量小文件：自定义InputFormat和RecordReader》的评论</title>
	<atom:link href="http://shiyanjun.cn/archives/291.html/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn/archives/291.html</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 19 Feb 2025 08:08:30 +0000</lastBuildDate>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>作者：James</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-57952</link>
		<dc:creator><![CDATA[James]]></dc:creator>
		<pubDate>Sat, 12 Nov 2016 13:53:54 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-57952</guid>
		<description><![CDATA[那如果是mapreduce 有一个文件夹的下得多个文档需要处理 但是需要单独处理怎么办呢？ 意思是每读取一个文档做一次Mapreduce然后输出 然后处理下一个文档]]></description>
		<content:encoded><![CDATA[<p>那如果是mapreduce 有一个文件夹的下得多个文档需要处理 但是需要单独处理怎么办呢？ 意思是每读取一个文档做一次Mapreduce然后输出 然后处理下一个文档</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Yanjun</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-56894</link>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
		<pubDate>Tue, 02 Feb 2016 02:37:28 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-56894</guid>
		<description><![CDATA[小文件大小，小于一个Block大小，那这个小文件就是一个Block。如果每个小文件大小都不相同，那么分块后大小自然不同了。]]></description>
		<content:encoded><![CDATA[<p>小文件大小，小于一个Block大小，那这个小文件就是一个Block。如果每个小文件大小都不相同，那么分块后大小自然不同了。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：mapreduce中map方法一次读取整个文件-IT大道</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-56695</link>
		<dc:creator><![CDATA[mapreduce中map方法一次读取整个文件-IT大道]]></dc:creator>
		<pubDate>Mon, 25 Jan 2016 05:36:38 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-56695</guid>
		<description><![CDATA[[&#8230;] 更多信息请参考 [&#8230;]]]></description>
		<content:encoded><![CDATA[<p>[&#8230;] 更多信息请参考 [&#8230;]</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：谈超</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-56663</link>
		<dc:creator><![CDATA[谈超]]></dc:creator>
		<pubDate>Thu, 07 Jan 2016 12:53:21 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-56663</guid>
		<description><![CDATA[你好 麻烦你能讲解一下
这些小文件上传的时候不是要分块的吗？但是每个小文件大小又不一样，你分块的大小可以随小文件的大小可改变吗？求教！   方便的话能联系一下吗？我看了你的另外一篇文章也是讲解这个的。感觉讲的很好想请教你一下  我的qq是2745270681  谢谢]]></description>
		<content:encoded><![CDATA[<p>你好 麻烦你能讲解一下<br />
这些小文件上传的时候不是要分块的吗？但是每个小文件大小又不一样，你分块的大小可以随小文件的大小可改变吗？求教！   方便的话能联系一下吗？我看了你的另外一篇文章也是讲解这个的。感觉讲的很好想请教你一下  我的qq是2745270681  谢谢</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Yanjun</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-56091</link>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
		<pubDate>Mon, 14 Sep 2015 06:44:45 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-56091</guid>
		<description><![CDATA[这里说的是对小文件的处理，小文件大小一般可能应该远远小于64M。]]></description>
		<content:encoded><![CDATA[<p>这里说的是对小文件的处理，小文件大小一般可能应该远远小于64M。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：阿门</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-56068</link>
		<dc:creator><![CDATA[阿门]]></dc:creator>
		<pubDate>Sat, 12 Sep 2015 02:30:45 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-56068</guid>
		<description><![CDATA[WholeFileInputFormat 为什么没有覆盖isSplitable（）方法呢，上面的代码使用的是默认的split策略，如果单个文件大于64mb 那么WholeSmallfilesMapper 类一次拿到的value就不是整个文件了吧，刚接触hadoop不久，不知道说的对不对？]]></description>
		<content:encoded><![CDATA[<p>WholeFileInputFormat 为什么没有覆盖isSplitable（）方法呢，上面的代码使用的是默认的split策略，如果单个文件大于64mb 那么WholeSmallfilesMapper 类一次拿到的value就不是整个文件了吧，刚接触hadoop不久，不知道说的对不对？</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Yanjun</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-55451</link>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
		<pubDate>Tue, 21 Jul 2015 02:45:35 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-55451</guid>
		<description><![CDATA[每个InputSplit对应一个小文件，你可以直接读取到，Reduce输出后key是小文件名，value是该小文件的内容。]]></description>
		<content:encoded><![CDATA[<p>每个InputSplit对应一个小文件，你可以直接读取到，Reduce输出后key是小文件名，value是该小文件的内容。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：kbj</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-55375</link>
		<dc:creator><![CDATA[kbj]]></dc:creator>
		<pubDate>Thu, 16 Jul 2015 09:18:51 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-55375</guid>
		<description><![CDATA[怎么读取每个小文件呢]]></description>
		<content:encoded><![CDATA[<p>怎么读取每个小文件呢</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Yanjun</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-4245</link>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
		<pubDate>Fri, 06 Dec 2013 12:02:30 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-4245</guid>
		<description><![CDATA[你说的没问题，选择这种方式去处理，在一些特殊的场景中会比较合适（当然，有更好的方案我们肯定会选择好的）。比如，后续的计算非常复杂，使用这种方式做一个预处理，会为后面更复杂的计算节省空间或时间资源。确实，不推荐使用这种方式处理。]]></description>
		<content:encoded><![CDATA[<p>你说的没问题，选择这种方式去处理，在一些特殊的场景中会比较合适（当然，有更好的方案我们肯定会选择好的）。比如，后续的计算非常复杂，使用这种方式做一个预处理，会为后面更复杂的计算节省空间或时间资源。确实，不推荐使用这种方式处理。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：joqk</title>
		<link>http://shiyanjun.cn/archives/291.html#comment-4244</link>
		<dc:creator><![CDATA[joqk]]></dc:creator>
		<pubDate>Fri, 06 Dec 2013 08:59:40 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=291#comment-4244</guid>
		<description><![CDATA[我觉得这么做有问题的。mapper与每一个split对应，即你每一个小文件都要交给一个mapper来处理，这样的话虽然达到了合成大文件的目的，但是你在合并过程中造成了大量的空间浪费和资源开销嘛]]></description>
		<content:encoded><![CDATA[<p>我觉得这么做有问题的。mapper与每一个split对应，即你每一个小文件都要交给一个mapper来处理，这样的话虽然达到了合成大文件的目的，但是你在合并过程中造成了大量的空间浪费和资源开销嘛</p>
]]></content:encoded>
	</item>
</channel>
</rss>
