《HDFS 写文件过程分析》的评论

作者：Co.9

Co.9 — Thu, 06 Dec 2018 15:36:40 +0000

博主你好，我在做一个zipOutputStream写入hdfs的流式写入，将FSDataOutputStream包在zipOutputStream中，想中间加缓冲流来着但是感觉FSDataOutputSream中有缓冲区，因此是不是可以不用加这个缓冲流？io.file.buffer.size和dfs.client-write-packet-size这两个参数，第一个是不是你说的内部缓冲区的大小？如果要加快写入的话参数应该怎样抉择呢。。

作者：jaws

jaws — Wed, 20 Jun 2018 09:41:28 +0000

想问一下当一个chunk不够512字节时, 是怎么算checksum的?
感谢!!

作者：Honhe

Honhe — Tue, 10 Apr 2018 02:07:04 +0000

图画的赞，用什么工具画的

作者：黄同学

黄同学 — Thu, 07 Dec 2017 12:38:08 +0000

博主你好，我有一个疑问就是，假设客户端为非集群上的机器，然后向集群写入数据的时候，在Pipeline中，上游的datanode在接收到每个packet的时候，是会等到管道中最后一个datanode验证了这个数据包的检验和，并且返回的ack表示正确的时候将数据写入到磁盘呢。还是怎么的？？？

作者：Sky

Sky — Thu, 03 Aug 2017 03:41:31 +0000

好的，谢谢博主，我之前有点没说清楚。
我主要是在做一个Hadoop读写性能的对比试验。具体来说，主要是想对比Hadoop0.20.203原始版本跟Facebook二次开发的hdfs raid版本的读写性能差异。在《Hadoop 权威指南》一书上提到，对于hdfs的文件写入过程，客户端是调用DistributedFileSystem类中的create方法开始。在跟同学讨论时，同学说在hdfs raid那个版本中，对于hdfs的文件写入过程，是从调filterFileSystem类中的create方法开始，我也不确定，所以想向博主求证一下。
在明确了读写流程后，才可以修改下代码，加入一个时间的统计。

作者：Yanjun

Yanjun — Wed, 02 Aug 2017 11:08:22 +0000

调用create方法是创建一个文件，并返回一个stream，调用stream的write方法开始写入文件。调用close，完成写文件。
读的过程也是类似的。

作者：Sky

Sky — Tue, 01 Aug 2017 11:47:35 +0000

你好，我最近在做一个hdfs读写性能测试的实验，包括降级读的过程。Hadoop自带的测试工具无法测试出降级读的吞吐率，所以需要人工分析。
对于hdfs的文件写入过程，可以理解为从调用filterFileSystem类中的create方法开始，到调用该类中的close方法结束吗？
此外，对于hdfs的文件读取过程，可以理解为从调用DFSClient类中的open方法开始，到调用该类的close方法结束吗？

作者：lpl

lpl — Fri, 26 Feb 2016 09:30:18 +0000

我经验好像是会生成在配置文件中配置的路径下，比如/tmp/../blockId,就是实际上这个路径是你自己配置好了的，但是这个blockID应该不是那么容易得到的吧，或者说不一定是你想要的那个块的

作者：guoguoguo

guoguoguo — Tue, 05 Jan 2016 14:05:31 +0000

赞博主~

再请教博主一个问题，我在往hdfs里写文件的时候发现这样一个现象：

当写文件的程序运行完成的时候，系统监控里依然能看到在写磁盘的操作，再过一会才会停止。此时程序已经执行完成，在hdfs里也能看到写入的文件，但写磁盘的操作仍在进行中。

这个现象总是出现的。

我猜测是虽然程序已经执行完成，在hdfs里也能看到写入的文件，但是还是有block的备份未被写完。
不知我的猜测是否成立呢

作者：Sirius

Sirius — Mon, 14 Sep 2015 07:45:43 +0000

谢谢回复。getFileBlockLocations方法好像只能查到文件所有的block处在那个哪个datanode上。我想如果能在程序里得到当前block的ID，加上我自定义的hadoop/data/ 目录，就能组成一个路径。怎么得到当前的blockId呢，我不太会写啊，谢谢您～