-
HiveServer2基于MySQL认证
前言作为大数据离线计算重中之重,Hive在大数据领域占有绝对的一席之地.众所周知Hive的提供了两种对外的服务访问方式,譬如HiveCli,或者HiveServer2(beeline)方式访问,Hive官方已经弃用了HiveCli方式,建议采用HiveServer2访问方式.对于大数据安全一直是业界比较关心的话题,说到安全不得不提两个概念.一个是认证一个就是授权,在大数据认证方面kerberos应用非常广泛.他提供了Hadoop访问的认证服务.提到授权业界非常火的就是sentry和rang...…
-
NTP时间同步
前言笔者下文介绍一下ntp服务搭建过程.配置 修改时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 安装ntp服务 yum install ntpdate -y 第一次手动同步互联网时间 ntpdate time.nist.gov 出现如下认为同步成功time.nist.gov time.nuri.net 0.asia.pool.ntp.org 1.asia.pool.ntp...…
-
Maxwell实时采集MySQL-binlog
前言笔者所在的部门最近有需求要求把MySQL部分数据实时同步到Kafka中,结果调研采用了MaxWell,MaxWell性能比较高,但是唯一缺点为单点.下载&解压 下载 wget https://github.com/zendesk/maxwell/releases/download/v1.25.0/maxwell-1.25.0.tar.gz tar -zxvf maxwell-1.25.0.tar.gz mv maxwell-1.25.0.tar.gz /...…
-
Ozone-相关概念
前言 笔者这一段时间学习Ozone,翻译和总结一下Ozone的架构,方便读者对ozone有一个深入的了解.Ozone整体架构Ozone是一个分布式的,存在多个副本的对象存储系统,对于大数据(元数据)做了优化,目标是10亿级别以上的对象存储Ozone 对命名空间和block空间做了分离,OM管理命名空间,SCM管理块空间Ozone 包含 volumes,buckets,keys 一个volumes类似于一个主目录,只有管理员才可以创建Ozone 由很多的volumes组成,同时vo...…
-
Ozone-集群搭建&基本使用
前言 HDFS受元数据上限限制,NameNode锁粒度太大,尽管有联邦可以理论上解决该问题,但是联邦在使用的过程中,依然会有各种各样诡异的问题, 社区新出了一种方案,采用对象存储的方式存储数据即Ozone(HDDS),将Namenode做了拆分,这里肯定有人会问为什么不去改动namenode,目前 Hadoop源代码已经达到了惊人的几百万行代码,代码组件的耦合性非常高,即使是Hadoop PMC&Committer也很难下手. 在HDFS中,主要的角色分...…
-
Redis 数据导入和导出
前言 前一段时间部门的Redis数据需要迁移,由于数据规模不是很大.安装rvm1.安装rvm gpg2 –keyserver hkp://keys.gnupg.net –recv-keys D39DC0E3 curl -L get.rvm.io | bash -s stable find / -name rvm -print source /usr/local/rvm/scripts/rvm rvm install 2.3.3 rvm use 2...…
-
IDEA 优化
前言 笔者在开发中使用IDEA,会遇到一些优化的问题.记录如下.优化1.自动导入包 配置修改如下截图 编译优化 配置截图如下 打开后又恢复原样,重新修改配置如下 总结以上记录了笔者优化IDEA过程,简单明了.希望对读者起到帮助作用.…
-
NFS 安装
前言 由于笔者所在的公司旧服务器和新的服务器磁盘插槽不一样,为了在新的机器上使用旧的机器上的磁盘最终选择采用NFS挂载磁盘.安装1.目标挂载的服务器上安装nfs-utils(旧服务器) yum -y install nfs-utils 2.新建需要挂载的目录(新服务器) mkdir /data/volumes -pv 3.修改如下文件(旧服务器) vim /etc/exports /data/volumes 10.10.26.0/16(rw,...…
-
Nginx 配置优化
前言系统部署难免需要对nginx做一些配置优化,记录如下.优化Request Entity Too Large Ingress Nginx 普通nginx配置 client_max_body_size 20M; ingress nginx配置 apiVersion: extensions/v1beta1 kind: Ingress metadata: name: ingress-nginx namespace: saas-pro annotations: ...…
-
Spark 优化
前言数据平台部使用的是Spark2.3.1 on Yarn,以下总结以下开发中遇到的Spark调优问题.希望对读者可以起到一定的帮助作用优化并行度&资源调整 调整分区数量 spark.sql.shuffle.partitions 默认200 按文件大小和文件个数调整 调整并行度 –num-executors 一般数...…