pig是什么

weitao1026

浏览: 998932 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie

pig是什么

1，Pig是什么？
Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一点和FaceBook开源的Hive（一个以SQL方式，操作hadoop的一个开源框架）一样简洁，清晰，易上手！

2，Pig用来干什么？
要回答这个问题，还得回归到雅虎当初使用Pig的目的：

1）吸收和分析用户的行为日志数据（点击流分析、搜索内容分析等），改进匹配和排名算法，以提高检索和广告业务的质量。
2）构建和更新search index。对于web-crawler抓取了的内容是一个流数据的形式，这包括去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。
3）处理半结构化数据订阅（data seeds）服务。包括：deduplcaitin（去冗余），geographic location resolution，以及 named entity recognition.

3， Pig在Hadoop生态系统中的地位

OK，下面回答正题，散仙最近在做的一个项目也是有关我们站搜索的关键词的点击率分析，我们的全站的日志数据，全部记录在Hadoop上，散仙初步要做的任务以及此任务的意义如下：

（1）找出来自我站搜索的数据
（2）分析关键词在某个时期内的搜索次数
（3）分析关键词在某个时期的点击次数
（4）通过这些数据，找出一些搜索无点击，搜索有点击，搜索点击少，和少搜索点击高等的一些边界关键词
（5）通过分析这些关键词，来评估我们站的搜索质量，给搜索方案的优化，以及改良提供一些参考依据
（6）使用Lucene或Solr索引存储分析后的数据，并提供灵活强大的检索方式

具体的使用Pig分析数据过程，散仙在这里就不细写了，感兴趣的朋友，可以在微信公众号的后台留言咨询，今天主要看下，Pig分析完的数据结果如何存储到Lucene索引里，至于为什么选择lucene系列的索引存储，而不选择数据库存储或直接存储在HDFS上，最大的原因还是在速度上，散仙前段时间分析的数据是直接存储在HDFS上，存HDFS上是很好，又能备份，还能容灾，但是！但是查询，读取，过滤，转换就非常麻烦了，速度慢的没法说，每次都得读取数据，然后使用JAVA程序计算出最终结果，然后给前端展示，即使数据量并不太大，但中间耗费了较多的时间数据的读取，传输和分析上，所以这次在分析关键词的转化率时，干脆就顺便研究下，如何使用Pig和Lucene，Solr或者ElasticSearch集成。

Pig或Hive本身能直接将各种格式的文件包括二进制，json，avro，以及bzip，gzip，lzo，snappy，orc等各种压缩格式存储在HDFS上或Hbase里，但是却不能直接将Lucene索引存储在HDFS上，至于为什么不能直接存储索引在HDFS上，这个与倒排索引的文件结构的组织方式有一定的关系，感兴趣的朋友可以在微信公众号上留言咨询，虽说不能直接存储在HDFS上，但是我们可以间接得通过他们的UDF函数来扩展Pig或Hive，使得他们支持索引存储，注意这里虽然实现了索引存储在HDFS上，但实质却是，在本地的临时目录先生成索引，然后又变相的拷贝到了HDFS上，算是一种折中的算式吧。在Pig里，需要定义两个UDF上来完成索引存储这件事，一个主要是创建索引，另一个是索引输出，在github上已有大牛实现了，我们需要做的工作：

（1）访问这个地址下载这个压缩包。
（2）提取出自己想要的部分，在eclipse工程中，修改定制适合自己环境的的代码（Lucene版本是否兼容？hadoop版本是否兼容？，Pig版本是否兼容？）。
（3）使用ant重新打包成jar
（4）在pig里，注册相关依赖的jar包，并使用索引存储

下面给出，散仙的测试的脚本：

Java代码

---注册依赖相关的包
REGISTER /home/search/nsconvent/spig/20150112/lucenepig/pigudf.jar;
REGISTER /home/search/nsconvent/spig/20150112/lucenepig/lucene-analyzers-common-4.10.2.jar;
REGISTER /home/search/nsconvent/spig/20150112/lucenepig/lucene-core-4.10.2.jar;
REGISTER /home/search/nsconvent/spig/20150112/lucenepig/lucene-queryparser-4.10.2.jar;
--声明别名引用（注意只能无参的引用，带参数的在反射时候，会出现异常）
DEFINE LuceneStore com.pig.support.lucene.LuceneStore;
--加载数据
a = load '/tmp/data/20150303/tt.txt' using PigStorage(',') as (lbl:chararray,desc:chararray,score:int); ;
--生成索引并存储在HDFS上，注意需要配置简单lucene索引方式（是否存储？是否索引？）
store a into '/tmp/data/20150303/luceneindex' using LuceneStore('store[true]:tokenize[true]');

---注册依赖相关的包
REGISTER  /home/search/nsconvent/spig/20150112/lucenepig/pigudf.jar; 
REGISTER  /home/search/nsconvent/spig/20150112/lucenepig/lucene-analyzers-common-4.10.2.jar; 
REGISTER  /home/search/nsconvent/spig/20150112/lucenepig/lucene-core-4.10.2.jar; 
REGISTER  /home/search/nsconvent/spig/20150112/lucenepig/lucene-queryparser-4.10.2.jar; 

--声明别名引用（注意只能无参的引用，带参数的在反射时候，会出现异常）
DEFINE  LuceneStore  com.pig.support.lucene.LuceneStore;
--加载数据
a = load '/tmp/data/20150303/tt.txt' using PigStorage(',')  as (lbl:chararray,desc:chararray,score:int);  ;
--生成索引并存储在HDFS上，注意需要配置简单lucene索引方式（是否存储？是否索引？）
store a into '/tmp/data/20150303/luceneindex' using LuceneStore('store[true]:tokenize[true]');

至此，我们已成功将索引存储在HDFS上，别高兴太宰，这仅仅是一个开始而已，在这里大家可能有疑问，存储在HDFS上的索引是否能够直接查询或访问呢？答案是肯定的，但不推荐大家直接读取HDFS上索引，即使了有了Hadoop的块缓存（Block Cache）提速，性能仍然是比较低的，除非你的集群机器不缺内存，否则，散仙还是建议大家直接把索引拷贝到本地磁盘再检索，这样做暂时比较麻烦，散仙在后面的文章里会介绍怎么把pig生成的结果集，直接以Http的方式存储到Solr或ElasticSearch里，这样以来就非常方便快捷了。

分享到：

redis是一个key-value存储系统 | pig是内置函数

2016-01-12 10:52
浏览 579
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

pig是什么

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

pig是什么

评论

发表评论

相关推荐

CDH与原生态hadoop之间的区别

Cloudera的CDH和Apache的Hadoop的区别

大数据、云计算系统高级架构师课程学习路线图

Oozie简介

清理ambari安装的hadoop集群

hawk大数据基础知识总结（2）

hawk大数据基础知识总结（1）

ambari是什么

数据仓库中的Inmon与Kimball架构之争

Hive的meta 数据支持以下三种存储方式

大数据要学习知识

Spark Streaming简介

pentaho套件

Impala：新一代开源大数据分析引擎

Weka是什么

解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎

Kettle的使用

clouder manager端口7180没有打开为什么

Impala与Hive的比较

Cloudera Manager、CDH零基础入门、线路指导

最近访客更多访客>>