-
Ozone高可用搭建测试
前言 大数据对实时性数据要求越来越高,以往的拉姆达n+1的架构,在很多业务场景中已经不再适用。近几年湖仓一体被提上日程、其中数据湖为最重要的一环、譬如iceberg、hudi、delta lake诸多优秀的数据湖框架应用而生。数据湖可以做到近实时、延迟可以降低到分钟级别。 但是数据湖使用过程中小文件是系统最头疼的一个环节、众所周知小文件对于HDFS是最大的诟病。因此对象存储如雨后春笋一般大量涌现、先后有腾讯云对象存储、百度云对象存储、阿里云等等。这些均为云厂商、社区可扩展对象存储并...…
-
Hadoop源码分析-26-腾讯云COS对象存储整合Hadoop
前言 各大云厂商均开发了自己的云存储,比如亚马逊对象云存储,阿里云对象云存储,百度云对象存储。Hadoop为兼容外部存储,提供了存储接口.用户可以无缝的接入到Hadoop的设计存储中.譬如:后端真正的存储为云对象存储,但是用户输入的存储路径依然遵循HDFS API规范。本文以腾讯云对象存储为例,介绍其使用的方式。使用COS后端存储##### 配置COS为默认存储类 core-site.xml <property> <name>fs...…
-
Hadoop-Yarn-02-容量调度抢占原理和使用
前言 用户在使用Yarn资源时,一般情况我们都会把队列配置为弹性队列,如果资源空闲时,单用户单应用可以将整个集群的资源全部占用,如果没有开启抢占的情况下,这时有一个B任务提交,B任务只能等待 A任务执行完毕,才可以获取到资源运行。严重影响了SLA和用户体验。 上述的场景中,如果当B任务提交后,B任务可以将A任务的一部分资源抢占过来,B任务也可以运行,这样B任务不用一直等待。这就是Yarn的抢占功能。下面描述一下Yarn 容量调度器中抢占的使用和原理。Yarn资源抢占功能 前文的Y...…
-
Hadoop-Yarn-01-容量调度原理使用和配置
前言 Hadoop在近些年被越来越多的人认为Hadoop将死,其实并不然,Hadoop已经不仅仅代表HDFS、Yarn、MapReduce。他代表了整个大数据的生态圈,即使是HDFS由于元数据过大问题,越来越多的云平台推出了对象存储。但是Hadoop三剑客中的Yarn地位自始至终都是无法撼动的。Yarn作为Hadoop中非常关键的一部分,有很多新出现的非常火的计算框架譬如Spark、Flink、Xleaning.都提供了Spark on Yarn,Flink on Yarn。在Yarn上调...…
-
Hadoop源码分析-24-BlockPlacementStatus
前言 集群中存放Block通常的做法为当前节点存放一个块,然后重新找一个其他的机架存放数据,最后一个数据块存放到其他机架的不同的数据节点上.但是由于数据在恢复和重启节点难免出现数据不满足上述的存放规则,比如在滚动更新节点,或者多个机架同时出现问题.对于副本存放状态HDFS专门针对不同场景抽取了不同的副本放置状态.策略状态 默认的3副本放置策略状态 升级域3副本放置策略状态 机架组3副本放置策略状态 默认第一次放置策略状态 核心类结构 主要核心类如下...…
-
Hadoop源码分析-23-Fsck
前言 在集群出现数据块丢失,部分集群运维人员会盲目执行`hdfs fsck`命令去删除或者移动数据,如果对底层实现原理不是很了解,盲目执行该命令是非常非常危险的。本文笔者聊聊HDFS的查看状态和修复命令.加深一下读者和笔者对该命令的底层理解.基本操作 执行命令检查根目录的文件健康状态hdfs fsck /Connecting to namenode via http://hadoop-2-02:50070/fsck?ugi=hadoop&path=%2FFSCK started ...…
-
Hadoop源码分析-22-磁盘损坏DataNode进程退出
前言在运维大型HDFS中,磁盘损坏是很正常的一件事。DataNode默认若有一块磁盘损坏,DataNode进程直接退出,如果稍加对HDFS有了解的人都知道,DataNode进程退出后,该节点的副本将被重新复制。倘若集群中单台节点的存储的数 据量是100T的话,意味着单台节点100T数据需要复制。这对于集群的影响还是比较大的。因此我们在HDFS中可以修改当该节点的DataNode磁盘损坏个数为-1或者自定义磁盘个数,该节点的DataNode进程退出.配置部署 配置修改【-1代表只要有一个磁...…
-
Hadoop源码分析-21-HttpFS
前言HttpFs提供 了REST 风格的网关服务,可以支持所有的HDFS的操作,并且可以和 webhdfs进行交互.同时HttpFs可以和在不同版本的hadoop集群之间传输数据,避免了RPC的版本问题。优缺点 优点 可避开防火墙访问HDFS,充当服务的网关 可跨语言进行访问,由于是http访问的方式 webhdfs客户端可以使用HDFS已有的文件系统工具来访问HttpFS 内置安全访问机制,可以自定义身份认证插件,提供 了HDFS的访问用户代理 缺点 ...…
-
Hadoop源码分析-20-Checkpointer
前言 在HDFS非HA环境中,BackupNameNode[BNN]负责定期下载ActiveNameNode[ANN]fsedits和fsimage到本地将其合并,然后再重新上传回ANN. 在HDFS高可用环境中,StandbyNameNode[SNN]定期下载ANN fsedits和fsimage到本地然后将其合并,最后重新上传回ANN. Checkpinter扮演的这个角色,他会定期检查和合并HDFS元数据.checkpointer为一个线程类,用户可以指定Edit文件大小,以及合并的...…
-
Hadoop源码分析-19-OffineEditsViewer
前言 学习过HDFS都听说过Edits文件,Edits文件是元数据合并为Image之前的文件.该文件中涵盖了大量的操作码.以及事务ID等.元数据是集群的 非常非常重要的一部分. 假如集群出现了元数据Edits文件损坏.需要修复Edits文件或者要查看Edits文件内容,可以使用HDFS提供`hdfs oev`查看 和修复.本文谈谈edit文件的解析和反解析. 基本操作 把二进制文件转换为人可读的XML文件,-p采用xml处理器-i输入的二进制文件-o输出的文件hdfs oev -p ...…