1-MapReduce入门

1-MapReduce入门

1 MapReduce是什么2004年，谷歌发表了一篇名为《MapReduce》的论文，主要介绍了如何在分布式的存储系统上对数据进行高效率的计算。2005年，Nutch团队使用Java语言实现了这个技术，并命名为MapReduce。时至今日，MapReduce是Apache Hadoop的核心模块之一，是运行在HDFS上的分布式运算程序的编程框架，用于大规模数据集（大于1TB）的并行运算。其中的概

2024-06-15

Hadoop > MapReduce

#Hadoop #MapReduce

YARN

YARN

1 简介1.1 MapReduce 1.x第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成。对应Hadoop版本为Hadoop 1.x和0.21.X，0.22.x。 1.1.1 MapReduce 1.x的角色 Cli

2024-06-02

Hadoop > YARN

#Hadoop #YARN

7-高级操作

7-高级操作

1 磁盘监测在 HDFS 上所有的文件都是以 Block 的形式存在的，如果在 HDFS 上存储了海量的数据文件，就会对应有海量的 Block 的存在，而这些 Block 难免会因为种种原因而存在损坏的情况。有什么办法可以去发现哪些块出现了问题呢？可以使用 fsck 命令。 1.1 fsck的选项选项描述 -move 移动损坏的文件到 /lost+found 目录下 -dele

2024-06-02

Hadoop > HDFS

#Hadoop #HDFS

6-IDE远程管理

6-IDE远程管理

1 本地环境配置1.1 Windows 解压到本地磁盘配置环境变量添加winutils.exe和hadoop.dll 1Hadoop本身对Windows的支持并不友好，如果需要完整使用，需要将winutils.exe和hadoop.dll两个文件移动到%HADOOP_HOME%\bin目录修改hadoop-env.cmd 123@rem 这个是注释的内容@rem 设置

2024-06-02

Hadoop > HDFS

#Hadoop #HDFS

5-数据流

5-数据流

1 读流程的详解123456读操作： - hdfs dfs -get /file02 ./file02 - hdfs dfs -copyToLocal /file02 ./file02 - FSDataInputStream fsis = fs.open("/input/a.txt"); - fsis.read(byte[] a) - fs.copyToLocal(p

2024-06-02

Hadoop > HDFS

#Hadoop #HDFS

4-HDFS工作机制

4-HDFS工作机制

1 开机启动NameNode过程1.1 非第一次启动集群的启动流程在启动namenode之前，内存里是没有任何有关于元数据的信息的。那么启动集群的过程是怎样的呢？下面来叙述一下： 1234567891011121314第一步： Namenode在启动时，会先加载name目录下最近的fsimage文件. 将fsimage里保存的元数据加载到内存当中，这样内存里就有了之前检查点里存储的所有元数据。但是

2024-06-02

Hadoop > HDFS

#Hadoop #HDFS

3-Hadoop体系结构

3-Hadoop体系结构

1 体系结构解析HDFS采用的是master/slaves这种主从的结构模型来管理数据，这种结构模型主要由四个部分组成，分别是Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNameNode。真正的一个HDFS集群包括一个Namenode和若干数目的Datanode。 Namenode是一个中心服务器，负责管理文件系统的命名空间 (Namesp

2024-06-02

Hadoop > HDFS

#Hadoop #HDFS

2-HDFS块的讲解

2-HDFS块的讲解

1 传统型分布式文件系统的缺点现在想象一下这种情况：有四个文件 0.5TB的file1，1.2TB的file2，50GB的file3，100GB的file4；有7个服务器，每个服务器上有10个1TB的硬盘。在存储方式上，可以将这四个文件存储在同一个服务器上（当然大于1TB的文件需要切分），需要使用一个文件来记录这种存储的映射关系。用户是可以通过这种映射关系来找到节点硬盘相应的文件的。那么缺点也

2024-06-02

Hadoop > HDFS

#Hadoop #HDFS

1-HDFS的shell操作

1-HDFS的shell操作

HDFS是一个分布式文件系统，我们可以使用一些命令来操作HDFS集群上的文件。例如: 文件上传、下载、移动、拷贝等操作。 HDFS的Shell操作主命令都是 hdfs dfs，其他的操作直接向后拼接即可。 1 创建目录123456[-mkdir [-p] <path> ...] # 在分布式文件系统上创建目录 -p,多层级创建调用格式: hdfs dfs -mkdir (-p)

2024-06-02

Hadoop > HDFS

#Hadoop #HDFS

Hadoop安装

Hadoop安装

1 本地模式1.1 介绍本地模式，即运行在单台机器上。没有分布式的思想，使用的是本地文件系统。使用本地模式主要是用于对MapReduce的程序的逻辑进行调试，确保程序的正确性。由于在本地模式下测试和调试MapReduce程序较为方便，因此，这种模式适合用在开发阶段。 1.2 平台软件说明平台&软件说明宿主机操作系统 Windows / MacOS 虚拟机操作系统 Ce

2024-06-01

Hadoop

#Hadoop