-
Phoenix &Hbase
前言Hbase作为列式存储,严重依赖rowkey查询,一定程度限制了开发人员使用,Phoenix采用空间换时间的方式存放数据,采用SQL查询数据降低了开发人员开发的门槛.安装Phoenix拷贝相关jar包 备注:注意Hbase和Phoenix对应的关系 cp phoenix-4.14.3-HBase-1.3-server.jar /opt/hbase/lib cp phoenix-core-4.14.3-HBase-1.3.jar /opt/hbase/lib 修改hb...…
-
Kubernetes 记录
前言笔者在开发和运维部门的Kubernetes经常遇到一些需要处理的问题,整理如下,作为备忘,同时希望对读者可以起到一定帮助.常用的命令查看endpoint关系 kubectl get ep 删除被驱逐的pod kubectl get pods | grep Evicted | awk ‘{print $1}’ | xargs kubectl delete pod 创建https证书密文 kubectl create secret tls nginx-test –...…
-
Hive 配置与调优
前言 笔者在HQL开发中,难免需要优化一些配置,后期不定期更新,记录如下优化和解决方案1.Hive乱码 在元数据库中执行如下命令 alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;alter table P...…
-
Hadoop2.7.6 滚动升级Hadoop2.8.5
前言Hadoop2.7.6已经落后Hadoop主流版本好几个版本,目前主流的Hadoop版本为2.8.x,2.9.x,2.10.x,3.x.决定滚动升级数据平台部的Hadoop版本为2.8.5,采用零停机方式升级.笔者的Hadoop版本为2.7.6,需要注意Hadoop版本滚动升级最低版本为2.4.x.并且在升级的过程中,不要动JournalNode服务,如果升级JournalNode服务可能导致集群宕机.滚动升级NameNode备份元数据在Active NameNode执行如下命令 h...…
-
FastDFS 实践
前言 在数据平台事业部文件服务使用到fastDFS部署&配置1.部署请参考 https://blog.csdn.net/IT8421/article/details/89322296 配置文件配置文件如下,开启防盗链http.default_content_type = application/octet-streamhttp.mime_types_filename=mime.typeshttp.anti_steal.check_token=false#多久失效...…
-
Hadoop trouble-shooting
前言 在数据平台事业部运维Hadoop集群中,出现一些问题以及总结记录如下问题&解决方案1.HDFS扩容升级 问题描述:新增加机器,扩容HDFS,已经扩容完毕,之后运维部重新挂载磁盘,HDFS出现逻辑卷错误 问题分析:日志显示挂载磁盘错误,实际是写数据的目录权限不足 问题解决方案:修改挂载的磁盘的所属用户为hadoop,重新启动dataNode即可 2.HDFS 修复 问题描述:其他部门在yarn平台上跑spark 程序错误的生成了海量的不到1...…
-
Apache Geode 在新能源汽车实时监控实践
前言 大数据分为实时处理和离线处理,通常我们会采用`SparkStreaming`程序直连`Kafka`把数据写入到`Hbase`中,热更新`Hbase`,但作为列式存储的`Hbase`存在严重依赖rowkeys弊端,在设计表时需要考虑使用rowkeys提高查询速度,phoenix采用空间换时间方式可以架设在`Hbase`上,但`Phoenix`构建索引也需要消耗大量的时间,最终我们调研采用`Apache Geode`.`Apache Geode`为商业版`Gemfire`开源版,`G...…
-
JupyterHub &CDH
前言为搭建大数据python集群算法环境,在CDH中安装 python on spark,版本要求CDH5.7,aNAconda-3-6.2.0安装jupyterhub执行如下命令 bash Anaconda2-2018.12-Linux-x86_64.sh pip install jupyterhub notebook -i https://pypi.douban.com/simple/ //如果没有nodejs需要安装 npm install -g conf...…
-
HDFS2.7.6 &Ranger NPE
前言为了集成HDFS&Ranger,部门目前使用的Hadoop版本为2.7.6,Ranger1.2官方依赖建议使用的是2.7.1,在集成后,执行`hdfs dfs -ls /`出现NPE,笔者通过DEBUG源代码,寻找bug.开启debug模式查看日志在hadoop-daemon.sh 修改如下配置,重启HDFS,开启debug模式export HADOOP_ROOT_LOGGER=${HADOOP_ROOT_LOGGER:-"DEBUG,RFA"}执行hdfs dfs -ls /...…
-
Hbase 降低版本&集成Ranger
前言为了适应ranger1.2对应的hbase1.3.1版本,只能降低hbase1.4.2版本。根本原因在于hbase1.4.2 的协处理器和1.3.2 协处理器的差别很大。ranger无法兼容hbase,修改ranger源代码的工作量比较大,因此离线降低hbase版本和Phoenix版本,同时需要整合ranger1.2和降低后的hbase1.3.2版本。操作拷贝 HDFS 上/hbase目录下的数据备份hbase 用于回滚 hdfs dfs -cp /hbase /hbase-back...…