Francis
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
6-IDE远程管理

6-IDE远程管理

1 本地环境配置1.1 Windows 解压到本地磁盘 配置环境变量 添加winutils.exe和hadoop.dll 1Hadoop本身对Windows的支持并不友好,如果需要完整使用,需要将winutils.exe和hadoop.dll两个文件移动到%HADOOP_HOME%\bin目录 修改hadoop-env.cmd 123@rem 这个是注释的内容@rem 设置
2024-06-02
Hadoop > HDFS
#Hadoop #HDFS
5-数据流

5-数据流

1 读流程的详解123456读操作: - hdfs dfs -get /file02 ./file02 - hdfs dfs -copyToLocal /file02 ./file02 - FSDataInputStream fsis = fs.open("/input/a.txt"); - fsis.read(byte[] a) - fs.copyToLocal(p
2024-06-02
Hadoop > HDFS
#Hadoop #HDFS
4-HDFS工作机制

4-HDFS工作机制

1 开机启动NameNode过程1.1 非第一次启动集群的启动流程在启动namenode之前,内存里是没有任何有关于元数据的信息的。那么启动集群的过程是怎样的呢?下面来叙述一下: 1234567891011121314第一步: Namenode在启动时,会先加载name目录下最近的fsimage文件. 将fsimage里保存的元数据加载到内存当中,这样内存里就有了之前检查点里存储的所有元数据。但是
2024-06-02
Hadoop > HDFS
#Hadoop #HDFS
3-Hadoop体系结构

3-Hadoop体系结构

1 体系结构解析HDFS采用的是master/slaves这种主从的结构模型来管理数据,这种结构模型主要由四个部分组成,分别是Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNameNode。真正的一个HDFS集群包括一个Namenode和若干数目的Datanode。 Namenode是一个中心服务器,负责管理文件系统的命名空间 (Namesp
2024-06-02
Hadoop > HDFS
#Hadoop #HDFS
2-HDFS块的讲解

2-HDFS块的讲解

1 传统型分布式文件系统的缺点现在想象一下这种情况:有四个文件 0.5TB的file1,1.2TB的file2,50GB的file3,100GB的file4;有7个服务器,每个服务器上有10个1TB的硬盘。 在存储方式上,可以将这四个文件存储在同一个服务器上(当然大于1TB的文件需要切分),需要使用一个文件来记录这种存储的映射关系。用户是可以通过这种映射关系来找到节点硬盘相应的文件的。那么缺点也
2024-06-02
Hadoop > HDFS
#Hadoop #HDFS
1-HDFS的shell操作

1-HDFS的shell操作

HDFS是一个分布式文件系统,我们可以使用一些命令来操作HDFS集群上的文件。 例如: 文件上传、下载、移动、拷贝等操作。 HDFS的Shell操作主命令都是 hdfs dfs,其他的操作直接向后拼接即可。 1 创建目录123456[-mkdir [-p] <path> ...] # 在分布式文件系统上创建目录 -p,多层级创建调用格式: hdfs dfs -mkdir (-p)
2024-06-02
Hadoop > HDFS
#Hadoop #HDFS
Hadoop安装

Hadoop安装

1 本地模式1.1 介绍本地模式,即运行在单台机器上。没有分布式的思想,使用的是本地文件系统。使用本地模式主要是用于对MapReduce的程序的逻辑进行调试,确保程序的正确性。由于在本地模式下测试和调试MapReduce程序较为方便,因此,这种模式适合用在开发阶段。 1.2 平台软件说明 平台&软件 说明 宿主机操作系统 Windows / MacOS 虚拟机操作系统 Ce
2024-06-01
Hadoop
#Hadoop
Hadoop概述

Hadoop概述

1 为什么要用Hadoop现在是数据大爆炸的年代。在2020年,全球的数据总量达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。 1扩展:数据大小单位:Byte,KB,MB,GB,TB,PB,EB,ZB,YB,DB,NB 一些数据集的大小更远远超过了1TB,也就是说,数据的存储是一个要解决的问题。同时,硬盘技术也面临一个技术瓶颈,就是硬盘的传输
2024-06-01
Hadoop
#Hadoop
轮询和加权轮询算法

轮询和加权轮询算法

1 轮询算法概念:按照固定的顺序依次将请求分配给后端服务器 适用场景:适用于服务器处理能力接近,小规模的简单应用场景 代码实现:Next Page 优点:均衡性,简单易用,无状态 缺点:不考虑服务器实时负载;服务器性能差异,会导致服务热点或轻负载;当并发过多会负载服务器热点 实现思路:创建可用服务器列表,记录上一次选择的服务器,模拟请求分发 12345678910111213141516171
2023-12-09
算法 > 负载均衡算法
#算法
Paxos算法

Paxos算法

Basic Paxos相关概念在Paxos算法中,有三种角色: Proposer Acceptor Learners 在具体的实现中,一个进程可能同时充当多种角色。比如一个进程可能既是Proposer又是Acceptor又是Learner。 还有一个很重要的概念叫提案(Proposal)。最终要达成一致的value就在提案里。 注: 暂且认为『提案=value』,即提案只包含value。在我
2023-12-09
算法 > 一致性算法
#算法 #一致性算法
1234…15

搜索

Hexo Fluid