Hive安装之后,安装Hive过程中,出现的一些问题,以及解决方法。
问题列表如下:
序号 | 问题 |
1 | 为何我配置的是MySQL存储hive元数据,但总是存储到它自带的Derby数据库里? |
2 | 为何我的Hive总是以Local模式启动,而不能将作业提交到Hadoop集群上? |
3 | 为何Hive在执行过程中,会报异常Container [pid=1436,containerID=container_1406649013279_0001_01_000005] is running beyond virtual memory limits. Current usage: 88.0 MB of 1 GB physical memory used; 4.6 GB of 2.1 GB virtual memory used. Killing container,该如何解决 ? |
暂时就上面几个问题,下面散仙将分析并给出解决方法?
第一个问题比较简单,如果你明明配置了MySQL存储元数据,但启动过程中,并没生效,多半是因为在Hive-env.sh里面的HIVE_CONF_DIR这个路径没有配置正确。
第二个问题,总是Local模式启动,而不能提交到8088的Web界面上,多半是hadoop的配置文件里缺少了mapreduce.framework.name=yarn的属性。
解决方法有2种,第一种更改hadoop的mapred-site.xml文件,并添加如下属性,配置完后,分发各个节点,并重启生效.
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
第二种方式比较简单,直接在Hive的shell里面使用SET命令,临时给mapreduce.framework.name赋值,但仅在本次会话有效:
执行命令:
SET mapreduce.framework.name=yarn;
执行完毕后可使用SET -v:命令查看变更情况。
下面来看下第三个异常,截图如下:
什么意思呢,要解决这个异常,得熟悉yarn自身的虚拟内存管理规则,在Yarn平台中,CPU,内存,磁盘都被抽象成资源来自使用,管理资源的角色主要有Yarn Resource Manager (RM) 负责总的资源调度,然后每个节点上有Nodemanager 来监听守护资源,在具体到每一个应用上是通过Application Master (AM) container来给Map或Reduce任务来分配资源,具体的属性如下:
(1)yarn.nodemanager.resource.memory-mb
可分配的物理内存总量,默认是8*1024MB。
(2)yarn.nodemanager.vmem-pmem-ratio
每单位的物理内存总量对应的虚拟内存量,默认是2.1,表示每使用1MB的物理内存,最多可以使用2.1MB的虚拟内存总量。
第二个属性,比率的控制影响着虚拟内存的使用,当yarn计算出来的虚拟内存,比在mapred-site.xml里的mapreduce.map.memory.mb或mapreduce.reduce.memory.mb的2.1倍还要多时,就会发生上面截图中的异常,而默认的mapreduce.map.memory.mb或
mapreduce.reduce.memory.mb得初始大小为1024M,然后根据异常中的yarn自身根据运行环境推算出来的虚拟内存来做比较,发现比1024*2.1还要大,所以就会由NodeManage守护进程kill掉AM容器,从而导致整个MR作业运行失败,现在我们只需要调大这个比率即可,避免发生这种异常。具体调大多小,可根据具体情况来设置。
相关推荐
hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念、原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助。 此篇内容较多: 看完之后需要达到的目标 1.hive是什么 2.明白...
这是一个hive客户端,只要运行这个jar包即可安装,之后配置hive的参数导入jar即可连接
安装并设置HACS之后。 您只需要导航到HACS面板并选择集成。 这将显示并提供添加集成的选项,单击它,然后在显示的弹出窗口中搜索Hive。 一旦安装完成,请按照设置Hive集成。 男子气概 要手动安装H
安装方法:java -jar squirrel-sql-3.9.0-standard 里面的jar导入之后可以连接hive
Textpattern CMS的Hive管理端主题 附带的默认管理主题。 演示版 。 。 支持的网页浏览器 ...照顾好基本依赖项之后,就可以安装项目的依赖项了。 导航到项目的目录,然后运行依赖项管理器: $ cd textpattern
apache-tez-0.9.1-bin.tar的安装包和安装配置.zip 1、关于版本: hive-1.2.1+tez-0.9.1+hadoop-2.7.7 hive-2.3.6+tez-0.9.1+hadoop-2.7.1 两种搭配均试过可行,之前配置的时候觉得与版本有很大关系,试过之后发现...
大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境-附件资源
Greenplum是一个面向数据仓库应用的...进入大数据时代以后,Greenplum的性能在TB级别数据量的表现上非常优秀,单机性能相比Hadoop要快上好几倍;在功能和语法上,要比Hadoop上的SQL引擎Hive好用很多,普通用户更加容易上手
JDK安装完成以后,需要进行环境变量的配置,分别配置JAVA_HOME, Path,以及CLASSPATH这三个环境变量。 首先是配置JAVA_HOME变量:进入电脑桌面 我的电脑 属性 高级系统设置 环境变量 ,进入环境变量设置界面,如图2...
2、对大规模的数据在Hadoop平台上进行分析以后,可能需要将结果同步到关系数据库中作为业务的辅助数据, 这时候需要将Hadoop平台分析后的数据导出(export)到关系数据库。 大数据-sqoop全文共16页,当前为第6页。 ...
Sqoop从MySQL导数据到HDFS上,如果报错空指针异常,需要的jar包。...如果你用的是阿里云的EMR,安装完之后还报错的话,需求确认你的jar包中是否含有hive开头的两个jar包,他们有冲突。删掉就能成功。
数据存储之后,该如何通过运算快速转化成⼀致的格式,该如何快速运算出⾃⼰想要的结果? 对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很⼤,所以出现了Hive,Pig等将SQL转 ...
数据平台:Ansible角色角色描述这些Ansible角色安装和配置数据平台的组件: 数据输入服务器,具有用于数据摄取的Apache NiFi,用于事件模式验证的Confluent Schema Registry(以及Zookeeper和Kafka,用于存储模式)...
因为数据体量的原因,大数据集的开发调试工作较其他开发而言很不一样,在总结多次开发实践之后,将调试工作单独抽出来,以方便调试 在大数据工作没有任何规范,约束的日子里,调试和开发的代码可读性很差,这个框架...
如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员甚至能够猜出一些Spark采用的编程模型、部署模式等。当你通过一些途径知道了系统的原理之后,...
如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员甚至能够猜出一些Spark采用的编程模型、部署模式等。当你通过一些途径知道了系统的原理之后,...
Ambari⾃动化的安装部署配置管理Hadoop集群的。Zookeeper分布式协作服务,选管家等,专门做分布 式协调⼀致性⼯作。HBase实时性计算,分布式数据库。Flume⽇志采集,Sqoop数据库ETL(抽取、转换、加载),完成Hadoop...
⼤数据技术之Hadoop介绍 1.⼤数据概述 ⼤数据概述 ⼤数据是指⽆... ⾃2012年以来,术语"Hadoop"不仅仅是指以上介绍的基础模块,还包括基于Hadoop或者与Hadoop⼀起安装的附加软件包,诸如 Apache Pig, Apache Hive, Apa
选择需要创建的集群类型,Hadoop集群、Hbase集群、Hbase+Hive集群、Spark集群、strom集群、所以组件集群。 设置集群参数,节点数量(固定为5个)注:包含Master(1个)、slave(3个)、client(1个)。CPU权重 注:...