1-MapReduce入门 1 MapReduce是什么2004年,谷歌发表了一篇名为《MapReduce》的论文,主要介绍了如何在分布式的存储系统上对数据进行高效率的计算。2005年,Nutch团队使用Java语言实现了这个技术,并命名为MapReduce。时至今日,MapReduce是Apache Hadoop的核心模块之一,是运行在HDFS上的分布式运算程序的编程框架,用于大规模数据集(大于1TB)的并行运算。其中的概 2024-06-15 Hadoop > MapReduce #Hadoop #MapReduce
YARN 1 简介1.1 MapReduce 1.x第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。 1.1.1 MapReduce 1.x的角色 Cli 2024-06-02 Hadoop > YARN #Hadoop #YARN
7-高级操作 1 磁盘监测在 HDFS 上所有的文件都是以 Block 的形式存在的,如果在 HDFS 上存储了海量的数据文件,就会对应有海量的 Block 的存在,而这些 Block 难免会因为种种原因而存在损坏的情况。有什么办法可以去发现哪些块出现了问题呢?可以使用 fsck 命令。 1.1 fsck的选项 选项 描述 -move 移动损坏的文件到 /lost+found 目录下 -dele 2024-06-02 Hadoop > HDFS #Hadoop #HDFS
6-IDE远程管理 1 本地环境配置1.1 Windows 解压到本地磁盘 配置环境变量 添加winutils.exe和hadoop.dll 1Hadoop本身对Windows的支持并不友好,如果需要完整使用,需要将winutils.exe和hadoop.dll两个文件移动到%HADOOP_HOME%\bin目录 修改hadoop-env.cmd 123@rem 这个是注释的内容@rem 设置 2024-06-02 Hadoop > HDFS #Hadoop #HDFS
5-数据流 1 读流程的详解123456读操作: - hdfs dfs -get /file02 ./file02 - hdfs dfs -copyToLocal /file02 ./file02 - FSDataInputStream fsis = fs.open("/input/a.txt"); - fsis.read(byte[] a) - fs.copyToLocal(p 2024-06-02 Hadoop > HDFS #Hadoop #HDFS
4-HDFS工作机制 1 开机启动NameNode过程1.1 非第一次启动集群的启动流程在启动namenode之前,内存里是没有任何有关于元数据的信息的。那么启动集群的过程是怎样的呢?下面来叙述一下: 1234567891011121314第一步: Namenode在启动时,会先加载name目录下最近的fsimage文件. 将fsimage里保存的元数据加载到内存当中,这样内存里就有了之前检查点里存储的所有元数据。但是 2024-06-02 Hadoop > HDFS #Hadoop #HDFS
3-Hadoop体系结构 1 体系结构解析HDFS采用的是master/slaves这种主从的结构模型来管理数据,这种结构模型主要由四个部分组成,分别是Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNameNode。真正的一个HDFS集群包括一个Namenode和若干数目的Datanode。 Namenode是一个中心服务器,负责管理文件系统的命名空间 (Namesp 2024-06-02 Hadoop > HDFS #Hadoop #HDFS
2-HDFS块的讲解 1 传统型分布式文件系统的缺点现在想象一下这种情况:有四个文件 0.5TB的file1,1.2TB的file2,50GB的file3,100GB的file4;有7个服务器,每个服务器上有10个1TB的硬盘。 在存储方式上,可以将这四个文件存储在同一个服务器上(当然大于1TB的文件需要切分),需要使用一个文件来记录这种存储的映射关系。用户是可以通过这种映射关系来找到节点硬盘相应的文件的。那么缺点也 2024-06-02 Hadoop > HDFS #Hadoop #HDFS
1-HDFS的shell操作 HDFS是一个分布式文件系统,我们可以使用一些命令来操作HDFS集群上的文件。 例如: 文件上传、下载、移动、拷贝等操作。 HDFS的Shell操作主命令都是 hdfs dfs,其他的操作直接向后拼接即可。 1 创建目录123456[-mkdir [-p] <path> ...] # 在分布式文件系统上创建目录 -p,多层级创建调用格式: hdfs dfs -mkdir (-p) 2024-06-02 Hadoop > HDFS #Hadoop #HDFS
Hadoop安装 1 本地模式1.1 介绍本地模式,即运行在单台机器上。没有分布式的思想,使用的是本地文件系统。使用本地模式主要是用于对MapReduce的程序的逻辑进行调试,确保程序的正确性。由于在本地模式下测试和调试MapReduce程序较为方便,因此,这种模式适合用在开发阶段。 1.2 平台软件说明 平台&软件 说明 宿主机操作系统 Windows / MacOS 虚拟机操作系统 Ce 2024-06-01 Hadoop #Hadoop