`
weitao1026
  • 浏览: 980134 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
阅读更多

Hive安装之后,安装Hive过程中,出现的一些问题,以及解决方法。

问题列表如下:

序号 问题
1 为何我配置的是MySQL存储hive元数据,但总是存储到它自带的Derby数据库里?
2 为何我的Hive总是以Local模式启动,而不能将作业提交到Hadoop集群上?
3 为何Hive在执行过程中,会报异常Container [pid=1436,containerID=container_1406649013279_0001_01_000005] is running beyond virtual memory limits. Current usage: 88.0 MB of 1 GB physical memory used; 4.6 GB of 2.1 GB virtual memory used. Killing container,该如何解决 ?
   


暂时就上面几个问题,下面散仙将分析并给出解决方法?

第一个问题比较简单,如果你明明配置了MySQL存储元数据,但启动过程中,并没生效,多半是因为在Hive-env.sh里面的HIVE_CONF_DIR这个路径没有配置正确。

第二个问题,总是Local模式启动,而不能提交到8088的Web界面上,多半是hadoop的配置文件里缺少了mapreduce.framework.name=yarn的属性。
解决方法有2种,第一种更改hadoop的mapred-site.xml文件,并添加如下属性,配置完后,分发各个节点,并重启生效.

Java代码 复制代码 收藏代码
  1. <property>    
  2.    <name>mapreduce.framework.name</name>    
  3.    <value>yarn</value>    
  4.   </property>    
  5.    
 <property>  
    <name>mapreduce.framework.name</name>  
    <value>yarn</value>  
   </property>  
  




第二种方式比较简单,直接在Hive的shell里面使用SET命令,临时给mapreduce.framework.name赋值,但仅在本次会话有效:
执行命令:
SET mapreduce.framework.name=yarn;
执行完毕后可使用SET -v:命令查看变更情况。


下面来看下第三个异常,截图如下:

什么意思呢,要解决这个异常,得熟悉yarn自身的虚拟内存管理规则,在Yarn平台中,CPU,内存,磁盘都被抽象成资源来自使用,管理资源的角色主要有Yarn Resource Manager (RM) 负责总的资源调度,然后每个节点上有Nodemanager 来监听守护资源,在具体到每一个应用上是通过Application Master (AM) container来给Map或Reduce任务来分配资源,具体的属性如下:
(1)yarn.nodemanager.resource.memory-mb
可分配的物理内存总量,默认是8*1024MB。
(2)yarn.nodemanager.vmem-pmem-ratio
每单位的物理内存总量对应的虚拟内存量,默认是2.1,表示每使用1MB的物理内存,最多可以使用2.1MB的虚拟内存总量。

第二个属性,比率的控制影响着虚拟内存的使用,当yarn计算出来的虚拟内存,比在mapred-site.xml里的mapreduce.map.memory.mb或mapreduce.reduce.memory.mb的2.1倍还要多时,就会发生上面截图中的异常,而默认的mapreduce.map.memory.mb或
mapreduce.reduce.memory.mb得初始大小为1024M,然后根据异常中的yarn自身根据运行环境推算出来的虚拟内存来做比较,发现比1024*2.1还要大,所以就会由NodeManage守护进程kill掉AM容器,从而导致整个MR作业运行失败,现在我们只需要调大这个比率即可,避免发生这种异常。具体调大多小,可根据具体情况来设置。

分享到:
评论

相关推荐

    hive学习资料大全 实战优化资源

    hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念、原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助。 此篇内容较多: 看完之后需要达到的目标 1.hive是什么 2.明白...

    hive客户端

    这是一个hive客户端,只要运行这个jar包即可安装,之后配置hive的参数导入jar即可连接

    HA-Hive-Custom-Component:家庭助理配置单元组件的自定义版本

    安装并设置HACS之后。 您只需要导航到HACS面板并选择集成。 这将显示并提供添加集成的选项,单击它,然后在显示的弹出窗口中搜索Hive。 一旦安装完成,请按照设置Hive集成。 男子气概 要手动安装H

    squirrel-sql-3.9.0-standard.jar for windows 包含hive所需jar

    安装方法:java -jar squirrel-sql-3.9.0-standard 里面的jar导入之后可以连接hive

    textpattern-hive-admin-theme:Textpattern CMS附带的默认Hive管理员主题

    Textpattern CMS的Hive管理端主题 附带的默认管理主题。 演示版 。 。 支持的网页浏览器 ...照顾好基本依赖项之后,就可以安装项目的依赖项了。 导航到项目的目录,然后运行依赖项管理器: $ cd textpattern

    apache-tez-0.9.1-bin.tar的安装包和安装配置

    apache-tez-0.9.1-bin.tar的安装包和安装配置.zip 1、关于版本: hive-1.2.1+tez-0.9.1+hadoop-2.7.7 hive-2.3.6+tez-0.9.1+hadoop-2.7.1 两种搭配均试过可行,之前配置的时候觉得与版本有很大关系,试过之后发现...

    大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境-附件资源

    大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境-附件资源

    greenplum详细安装.docx

    Greenplum是一个面向数据仓库应用的...进入大数据时代以后,Greenplum的性能在TB级别数据量的表现上非常优秀,单机性能相比Hadoop要快上好几倍;在功能和语法上,要比Hadoop上的SQL引擎Hive好用很多,普通用户更加容易上手

    实验一(搭建Android开发环境)-(含友情提醒).doc

    JDK安装完成以后,需要进行环境变量的配置,分别配置JAVA_HOME, Path,以及CLASSPATH这三个环境变量。 首先是配置JAVA_HOME变量:进入电脑桌面 我的电脑 属性 高级系统设置 环境变量 ,进入环境变量设置界面,如图2...

    大数据-sqoop.pptx

    2、对大规模的数据在Hadoop平台上进行分析以后,可能需要将结果同步到关系数据库中作为业务的辅助数据, 这时候需要将Hadoop平台分析后的数据导出(export)到关系数据库。 大数据-sqoop全文共16页,当前为第6页。 ...

    Sqoop空指针异常需要的jar包.rar

    Sqoop从MySQL导数据到HDFS上,如果报错空指针异常,需要的jar包。...如果你用的是阿里云的EMR,安装完之后还报错的话,需求确认你的jar包中是否含有hive开头的两个jar包,他们有冲突。删掉就能成功。

    大数据工程师学习计划.pdf

    数据存储之后,该如何通过运算快速转化成⼀致的格式,该如何快速运算出⾃⼰想要的结果? 对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很⼤,所以出现了Hive,Pig等将SQL转 ...

    dp-ansible-roles:Ansible角色和一个示例剧本,用于部署简单的数据平台

    数据平台:Ansible角色角色描述这些Ansible角色安装和配置数据平台的组件: 数据输入服务器,具有用于数据摄取的Apache NiFi,用于事件模式验证的Confluent Schema Registry(以及Zookeeper和Kafka,用于存储模式)...

    java8源码-treasurebox:嘿!这是宝箱!好好享受!

    因为数据体量的原因,大数据集的开发调试工作较其他开发而言很不一样,在总结多次开发实践之后,将调试工作单独抽出来,以方便调试 在大数据工作没有任何规范,约束的日子里,调试和开发的代码可读性很差,这个框架...

    spark 高级数据分析 高清 书签

    如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员甚至能够猜出一些Spark采用的编程模型、部署模式等。当你通过一些途径知道了系统的原理之后,...

    深入理解Spark 核心思想与源码分析

    如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员甚至能够猜出一些Spark采用的编程模型、部署模式等。当你通过一些途径知道了系统的原理之后,...

    大数据技术概述.pdf

    Ambari⾃动化的安装部署配置管理Hadoop集群的。Zookeeper分布式协作服务,选管家等,专门做分布 式协调⼀致性⼯作。HBase实时性计算,分布式数据库。Flume⽇志采集,Sqoop数据库ETL(抽取、转换、加载),完成Hadoop...

    大数据技术之Hadoop介绍.pdf

    ⼤数据技术之Hadoop介绍 1.⼤数据概述 ⼤数据概述 ⼤数据是指⽆... ⾃2012年以来,术语"Hadoop"不仅仅是指以上介绍的基础模块,还包括基于Hadoop或者与Hadoop⼀起安装的附加软件包,诸如 Apache Pig, Apache Hive, Apa

    大数据教育平台方案.docx

    选择需要创建的集群类型,Hadoop集群、Hbase集群、Hbase+Hive集群、Spark集群、strom集群、所以组件集群。 设置集群参数,节点数量(固定为5个)注:包含Master(1个)、slave(3个)、client(1个)。CPU权重 注:...

Global site tag (gtag.js) - Google Analytics