Elasticsearch与hadoop比较 -

weitao1026

浏览: 994294 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Elasticsearch与hadoop比较

博客分类：

lucene/solr/nuth/elasticsearch/MG4J

elasticsearch-Hadoop中elasticsearch是数据源，hadoop作为执行引擎，也就是说数据存储其实还是由elasticsearch来掌管与hdfs无关，另外elasticsearch-hdfs已经停止更新，所以就不要再去尝试将elasticsearch中的index写到HDFS这档子事了。

在过去的几年的日志分析领域，开源搜索引擎Elasticsearch已经变得越来越流行。它与其开源的服务器端的日志收集产品Logstash，其开源可视化工具kibana一起组成了ELK分析组合。这个功能强大的组合正蓄势待发。

Elasticsearch是一个基于Lucene的分布式搜索服务器。它存储json格式的文档数据，有基于RESTful的操作接口。利用Elasticsearch可以方便的在任何Web应用中集成搜索应用。另外它更有出色的聚合功能（aggregation），能轻松的对数据进行统计分析，这一点上Elasticsearch已经超越了其最初的纯搜索引擎的角色，但是如果真正用它来做为复杂的数据分析工具，它能打败hadoop或spark吗？

Elasticsearch流行的原因

1. Elasticsearch集群实例很容易搭建。

2. 基于json格式的查询语言比开发MapReduce或spark系统更容易掌握。

3. 开发人员可以很方便的将Elasticsearch集成到Hadoop中。

这些都是非常引人注目的特性，利用Elasticsearch能快速搭建起一套分析系统。但是否可以认为Elasticsearch就是一个高度可用的数据分析平台了?要成为一个成熟的高可用的数据分析平台，一个高可用的数据存储系统和一套可以支撑复杂数据的计算框架是必不可少的。

对于分布式数据存储，Elasticsearch集群中的数据一致性，正是我们担心的问题之一。正常情况下，集群中所有的节点，应该对集群中master的选择是一致的，这样获得的状态信息也应该是一致的，由于Elasticsearch集群中每个节点都是状态维护者，在集群中网络不稳定的情况下就有可能出现集群脑裂（不同的节点对master节点的选择出现了异常）。如图所示正常环境下的Elasticsearch集群。

当出现网络异常时，主节点丢失，不同的节点对master节点的选择出现了异常。

这意味着如果要保证数据的一致性和完整性，我们必须把数据储存在一个更可靠的数据库中。

与Elasticsearch不同，在Hadoop 里中有效的避免了脑裂情况的出现。如下图

主namenode维护datanode状态，主备namenode同步信息；保证任何时刻保证只使用一个主namenode来管理集群中的datanode状态。

Elasticsearch拥有功能强大的聚合统计和全文搜索功能，可以轻松的用于网络问题分析，如404错误计数，页面浏览量，用户访问统计信息等。但它缺少类似标准SQL中的join或子查询的功能。Elasticsearch不支持查询结果的额外处理或分析的中间数据的输出，也不支持数据集的转换（即一个100万行的表，使用分析处理后，成为另一个100万行的表），故不太适合处理复杂的计算逻辑。

相反利用Hadoop的mapreduce或者spark计算框架，我们可以支持处理任何数据聚合和转换工作；我们还可以使用hive或spark SQL来降低我们的开发难度。

虽然Elasticsearch存在这些问题，但是它仍然是一个非常优秀的分布式计算框架，而且Elasticsearch可以非常方便的集成在hadoop中，我们也可以用它优秀的数据检索能力来构造自己的查询系统；同时Elasticsearch仍然在不停的版本迭代中，相信未来的版本中Elasticsearch会一步步解决这些问题。

分享到：

raid5 | ElasticSearch 2 的节点调优（ElasticSearc ...

2016-11-09 10:33
浏览 1375
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Elasticsearch与hadoop比较

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Elasticsearch与hadoop比较

评论

发表评论

相关推荐

elasticsearch异常信息汇总

Elasticsearch的架构

怎么在Ubuntu上打开端口

Elasticsearch工作原理

Elasticsearch的路由（Routing）特性

Elasticsearch中的segment理解

Elasticsearch的路由（Routing）特性

Elasticsearch 的 Shard 和 Segment

开源大数据查询分析引擎现状

大数据处理方面的 7 个开源搜索引擎

开源大数据查询分析引擎现状

elasticsearch 把很多类型都放在一个索引下面 会不会导致查询慢

腾讯大数据Hermes爱马仕的系统

配置高性能Elasticsearch集群的9个小贴士

Elasticsearch与Solr

大数据杂谈微课堂|Elasticsearch 5.0新版本的特性与改进

ElasticSearch性能优化策略

ES索引优化

分词与索引的关系

Elasticsearch中的segment理解

最近访客更多访客>>

elasticsearch 把很多类型都放在一个索引下面会不会导致查询慢