好开发 » hadoop

大数据存储之分布式文件系统

lidasheng — Wed, 23 Sep 2015 02:29:13 +0000

使用一堆廉价的商用计算机支撑大规模数据处理。

GFSClient：应用程序的访问接口 Master（主控服务器）：管理节点，在逻辑上只有一个（还有一台“影子服务器“，在主控服务器失效时提供元数据，但并不是完整的热备服务器），保存系统的元[......]

lidasheng — Thu, 20 Aug 2015 06:56:25 +0000

"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。

对数据文件中的数据进行去重。数据文件中的每行都是一个数[......]

lidasheng — Tue, 18 Aug 2015 08:10:14 +0000

MapReduce整体流程图并行读取文本中的内容，然后进行MapReduce操作 Map过程：并行读取三行，对读取的单词进行map操作，每个词都以<key,value>形式生成 reduce操作是对map的结果进行排序，合并，最后得出词频[......]