<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	
	>
<channel>
	<title>《HDFS 写文件过程分析》的评论</title>
	<atom:link href="http://shiyanjun.cn/archives/942.html/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn/archives/942.html</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 19 Feb 2025 08:08:30 +0000</lastBuildDate>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>作者：Co.9</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-65023</link>
		<dc:creator><![CDATA[Co.9]]></dc:creator>
		<pubDate>Thu, 06 Dec 2018 15:36:40 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-65023</guid>
		<description><![CDATA[博主你好，我在做一个zipOutputStream写入hdfs的流式写入，将FSDataOutputStream包在zipOutputStream中，想中间加缓冲流来着但是感觉FSDataOutputSream中有缓冲区，因此是不是可以不用加这个缓冲流？io.file.buffer.size和dfs.client-write-packet-size这两个参数，第一个是不是你说的内部缓冲区的大小？如果要加快写入的话参数应该怎样抉择呢。。]]></description>
		<content:encoded><![CDATA[<p>博主你好，我在做一个zipOutputStream写入hdfs的流式写入，将FSDataOutputStream包在zipOutputStream中，想中间加缓冲流来着但是感觉FSDataOutputSream中有缓冲区，因此是不是可以不用加这个缓冲流？io.file.buffer.size和dfs.client-write-packet-size这两个参数，第一个是不是你说的内部缓冲区的大小？如果要加快写入的话参数应该怎样抉择呢。。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：jaws</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-60307</link>
		<dc:creator><![CDATA[jaws]]></dc:creator>
		<pubDate>Wed, 20 Jun 2018 09:41:28 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-60307</guid>
		<description><![CDATA[想问一下当一个chunk不够512字节时, 是怎么算checksum的?
感谢!!]]></description>
		<content:encoded><![CDATA[<p>想问一下当一个chunk不够512字节时, 是怎么算checksum的?<br />
感谢!!</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Honhe</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-60030</link>
		<dc:creator><![CDATA[Honhe]]></dc:creator>
		<pubDate>Tue, 10 Apr 2018 02:07:04 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-60030</guid>
		<description><![CDATA[图画的赞，用什么工具画的]]></description>
		<content:encoded><![CDATA[<p>图画的赞，用什么工具画的</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：黄同学</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-59576</link>
		<dc:creator><![CDATA[黄同学]]></dc:creator>
		<pubDate>Thu, 07 Dec 2017 12:38:08 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-59576</guid>
		<description><![CDATA[博主你好，我有一个疑问就是，假设客户端为非集群上的机器，然后向集群写入数据的时候，在Pipeline中，上游的datanode在接收到每个packet的时候，是会等到管道中最后一个datanode验证了这个数据包的检验和，并且返回的ack表示正确的时候将数据写入到磁盘呢。还是怎么的？？？]]></description>
		<content:encoded><![CDATA[<p>博主你好，我有一个疑问就是，假设客户端为非集群上的机器，然后向集群写入数据的时候，在Pipeline中，上游的datanode在接收到每个packet的时候，是会等到管道中最后一个datanode验证了这个数据包的检验和，并且返回的ack表示正确的时候将数据写入到磁盘呢。还是怎么的？？？</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Sky</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-59083</link>
		<dc:creator><![CDATA[Sky]]></dc:creator>
		<pubDate>Thu, 03 Aug 2017 03:41:31 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-59083</guid>
		<description><![CDATA[好的，谢谢博主，我之前有点没说清楚。
我主要是在做一个Hadoop读写性能的对比试验。具体来说，主要是想对比Hadoop0.20.203原始版本跟Facebook二次开发的hdfs raid版本的读写性能差异。在《Hadoop 权威指南》一书上提到，对于hdfs的文件写入过程，客户端是调用DistributedFileSystem类中的create方法开始。在跟同学讨论时，同学说在hdfs raid那个版本中，对于hdfs的文件写入过程，是从调filterFileSystem类中的create方法开始，我也不确定，所以想向博主求证一下。
在明确了读写流程后，才可以修改下代码，加入一个时间的统计。]]></description>
		<content:encoded><![CDATA[<p>好的，谢谢博主，我之前有点没说清楚。<br />
我主要是在做一个Hadoop读写性能的对比试验。具体来说，主要是想对比Hadoop0.20.203原始版本跟Facebook二次开发的hdfs raid版本的读写性能差异。在《Hadoop 权威指南》一书上提到，对于hdfs的文件写入过程，客户端是调用DistributedFileSystem类中的create方法开始。在跟同学讨论时，同学说在hdfs raid那个版本中，对于hdfs的文件写入过程，是从调filterFileSystem类中的create方法开始，我也不确定，所以想向博主求证一下。<br />
在明确了读写流程后，才可以修改下代码，加入一个时间的统计。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Yanjun</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-59080</link>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
		<pubDate>Wed, 02 Aug 2017 11:08:22 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-59080</guid>
		<description><![CDATA[调用create方法是创建一个文件，并返回一个stream，调用stream的write方法开始写入文件。调用close，完成写文件。
读的过程也是类似的。]]></description>
		<content:encoded><![CDATA[<p>调用create方法是创建一个文件，并返回一个stream，调用stream的write方法开始写入文件。调用close，完成写文件。<br />
读的过程也是类似的。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Sky</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-59052</link>
		<dc:creator><![CDATA[Sky]]></dc:creator>
		<pubDate>Tue, 01 Aug 2017 11:47:35 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-59052</guid>
		<description><![CDATA[你好，我最近在做一个hdfs读写性能测试的实验，包括降级读的过程。Hadoop自带的测试工具无法测试出降级读的吞吐率，所以需要人工分析。
对于hdfs的文件写入过程，可以理解为从调用filterFileSystem类中的create方法开始，到调用该类中的close方法结束吗？
此外，对于hdfs的文件读取过程，可以理解为从调用DFSClient类中的open方法开始，到调用该类的close方法结束吗？]]></description>
		<content:encoded><![CDATA[<p>你好，我最近在做一个hdfs读写性能测试的实验，包括降级读的过程。Hadoop自带的测试工具无法测试出降级读的吞吐率，所以需要人工分析。<br />
对于hdfs的文件写入过程，可以理解为从调用filterFileSystem类中的create方法开始，到调用该类中的close方法结束吗？<br />
此外，对于hdfs的文件读取过程，可以理解为从调用DFSClient类中的open方法开始，到调用该类的close方法结束吗？</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：lpl</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-57124</link>
		<dc:creator><![CDATA[lpl]]></dc:creator>
		<pubDate>Fri, 26 Feb 2016 09:30:18 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-57124</guid>
		<description><![CDATA[我经验好像是会生成在配置文件中配置的路径下，比如/tmp/../blockId,就是实际上这个路径是你自己配置好了的，但是这个blockID应该不是那么容易得到的吧，或者说不一定是你想要的那个块的]]></description>
		<content:encoded><![CDATA[<p>我经验好像是会生成在配置文件中配置的路径下，比如/tmp/../blockId,就是实际上这个路径是你自己配置好了的，但是这个blockID应该不是那么容易得到的吧，或者说不一定是你想要的那个块的</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：guoguoguo</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-56651</link>
		<dc:creator><![CDATA[guoguoguo]]></dc:creator>
		<pubDate>Tue, 05 Jan 2016 14:05:31 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-56651</guid>
		<description><![CDATA[赞博主~

再请教博主一个问题，我在往hdfs里写文件的时候发现这样一个现象：

    当写文件的程序运行完成的时候，系统监控里依然能看到在写磁盘的操作，再过一会才会停止。此时程序已经执行完成，在hdfs里也能看到写入的文件，但写磁盘的操作仍在进行中。

这个现象总是出现的。

我猜测是虽然程序已经执行完成，在hdfs里也能看到写入的文件，但是还是有block的备份未被写完。
不知我的猜测是否成立呢]]></description>
		<content:encoded><![CDATA[<p>赞博主~</p>
<p>再请教博主一个问题，我在往hdfs里写文件的时候发现这样一个现象：</p>
<p>    当写文件的程序运行完成的时候，系统监控里依然能看到在写磁盘的操作，再过一会才会停止。此时程序已经执行完成，在hdfs里也能看到写入的文件，但写磁盘的操作仍在进行中。</p>
<p>这个现象总是出现的。</p>
<p>我猜测是虽然程序已经执行完成，在hdfs里也能看到写入的文件，但是还是有block的备份未被写完。<br />
不知我的猜测是否成立呢</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Sirius</title>
		<link>http://shiyanjun.cn/archives/942.html#comment-56092</link>
		<dc:creator><![CDATA[Sirius]]></dc:creator>
		<pubDate>Mon, 14 Sep 2015 07:45:43 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=942#comment-56092</guid>
		<description><![CDATA[谢谢回复。getFileBlockLocations方法好像只能查到文件所有的block处在那个哪个datanode上。我想如果能在程序里得到当前block的ID，加上我自定义的hadoop/data/ 目录，就能组成一个路径。怎么得到当前的blockId呢，我不太会写啊，谢谢您～]]></description>
		<content:encoded><![CDATA[<p>谢谢回复。getFileBlockLocations方法好像只能查到文件所有的block处在那个哪个datanode上。我想如果能在程序里得到当前block的ID，加上我自定义的hadoop/data/ 目录，就能组成一个路径。怎么得到当前的blockId呢，我不太会写啊，谢谢您～</p>
]]></content:encoded>
	</item>
</channel>
</rss>
