利用Lucene来获取TF，IDF，以及term词条的位置信息。 -

weitao1026

浏览: 995721 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

利用Lucene来获取TF，IDF，以及term词条的位置信息。

博客分类：

lucene/solr/nuth/elasticsearch/MG4J

lucene

lucene,solr,nutch,hadoop的区别和联系
apache lucene是apache下一个著名的开源搜索引擎内核，基于Java技术，处理索引，拼写检查，点击高亮和其他分析，分词等技术。

nutch和solr原来都是lucene下的子项目。但后来nutch独立成为独立项目。nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎，后归于apache旗下。nutch主要完成抓取，提取内容等工作。

solr则是基于lucene的搜索界面。提供XML/HTTP 和 JSON/Python/Ruby API，提供搜索入口，点击高亮，缓存，备份和管理界面。

hadoop原来是nutch下的分布式任务子项目，现在也成为apache下的顶级项目。nutch可以利用hadoop进行分布式多任务抓取和分析存储工作。

所以，lucene,nutch,solr,hadoop一起工作，是能完成一个中型的搜索引擎工作的。

Lucene版本的更新还是飞快的，现在已经到4.7的版本了，今天，散仙来给大家分享几个Lucene比较有用的小技术。Lucene作为一款优秀的全文检索工具包，自然附带了一些其他比较有用的功能，例如在文本挖掘领域，常常需要统计一些词或短语的TF信息，或者IDF的信息，用来加权某个词条，从而找出某篇新闻，或文献中比较重要的一些关键词或短语，或者我们想得到这些词库的位置信息等等。

下面进入正题，今天散仙就围绕如上所说的，来看下如何利用Lucene来获取TF，IDF，以及term词条的位置信息。

首先，第一个我们来看下如何获取分词后的短语的位置信息，这个功能，主要跟我们的分词器有关系，在分词过程中记录的位置信息，增量信息，载荷等等，我们重点来看下，如何获取位置信息，代码如下：

Java代码复制代码收藏代码
1.测试数据
2.中新网3月12日电据中国政府网消息，3月12日上午10时15分，李克强总理参加完政协闭幕会后来到国务院应急指挥中心，与前方中国搜救船长通话，了解马航MH370失联客机搜救最新进展情况。李克强要求各有关部门调集一切可能力量，加大搜救密度和力度，不放弃任何一线希望。

Java代码复制代码收藏代码
1./**
2. * 搜索技术交流群： 324714439
3. *
4. * 获取分词后term的位置信息
5. * @param word 分词的文本
6. * */
7.public void postion(String word)throws Exception{
8.
9.    Analyzer analyzer=new IKAnalyzer();//IK分词
10.    TokenStream token=analyzer.tokenStream("a", new StringReader(word));
11.    token.reset();
12.    CharTermAttribute term=token.addAttribute(CharTermAttribute.class);//term信息
13.    OffsetAttribute offset=token.addAttribute(OffsetAttribute.class);//位置数据
14.    while(token.incrementToken()){
15.      System.out.println(term+"   "+offset.startOffset()+"   "+offset.endOffset());
16.    }
17.    token.end();
18.    token.close();
19.}

Java代码复制代码收藏代码
1.输出结果:
2.中新网   0   3
3.中新   0   2
4.新网   1   3
5.3   3   4
6.月   4   5
7.12   5   7
8.日   7   8
9.电   8   9
10.据   10   11
11.中国政府   11   15
12.中国   11   13
13.国政   12   14
14.政府网   13   16
15.政府   13   15
16.网   15   16
17.消息   16   18
18.3   19   20
19.月   20   21
20.12   21   23
21.日   23   24
22.上午   24   26
23.10   26   28
24.时   28   29
25.15   29   31
26.分   31   32
27.李克强   33   36
28.克强   34   36
29.总理   36   38
30.参加   38   40
31.加完   39   41
32.政协   41   43
33.闭幕会   43   46
34.闭幕   43   45
35.会后   45   47
36.后来   46   48
37.来到   47   49
38.国务院   49   52
39.国务   49   51
40.院   51   52
41.应急   52   54
42.指挥中心   54   58
43.指挥   54   56
44.中心   56   58
45.与   59   60
46.前方   60   62
47.方中   61   63
48.中国   62   64
49.搜救   64   66
50.船长   66   68
51.通话   68   70
52.了解   71   73
53.马   73   74
54.航   74   75
55.mh370   75   80
56.mh   75   77
57.370   77   80
58.失   80   81
59.联   81   82
60.客机   82   84
61.搜救   84   86
62.最新进展   86   90
63.最新   86   88
64.新进展   87   90
65.新进   87   89
66.进展   88   90
67.情况   90   92
68.李克强   93   96
69.克强   94   96
70.强要   95   97
71.要求   96   98
72.各有   98   100
73.有关部门   99   103
74.有关   99   101
75.有   99   100
76.关   100   101
77.部门   101   103
78.调集   103   105
79.一切   105   107
80.切   106   107
81.可能   107   109
82.能力   108   110
83.力量   109   111
84.加大   112   114
85.搜救   114   116
86.密度   116   118
87.力度   119   121
88.不放   122   124
89.放弃   123   125
90.任何   125   127
91.一线希望   127   131
92.一线   127   129
93.线   128   129
94.希望   129   131

由上显示，我们可以获取所有短语的位置信息，这个功能在Lucene高亮的时候是非常有用的，如果数据位置发生错位，那么大部分原因都有可能跟这个地方有关系。

第二，我们来看下，如何使用Lucene来获取一片文章中所有短语的词频，这个首先我们的数据是需要索引起来的，并且要开启向量存储的功能，然后我们在去索引里面获取词频，然后，稍作加工，按词频降序输出，由此来直观显示，这篇文章可能重点体现的意思，在这之前，需要对一些常见的禁用词做下处理，以防影响数据结果。

数据和一里面的一样，代码如下：

Java代码复制代码收藏代码
1.存储核心代码；
2.
3.FieldType ft=new FieldType();
4.        ft.setIndexed(true);//存储
5.        ft.setStored(true);//索引
6.        ft.setStoreTermVectors(true);
7.        ft.setTokenized(true);
8.        ft.setStoreTermVectorPositions(true);//存储位置
9.        ft.setStoreTermVectorOffsets(true);//存储偏移量
10.        Document doc=new Document();
11.        doc.add(new Field("name", word, ft));
12.        writer.addDocument(doc);

Java代码复制代码收藏代码
1. 获取TF的代码
2.
3.**
4. * 读取索引，显示词频
5. *
6. * **/
7.   public void getTF(){
8.List<Word> list=new ArrayList<Word>();
9.
10.    try{
11.        Directory directroy=FSDirectory.open(new File("D:\\lucene测试索引\\2014311测试"));
12.        IndexReader   reader= DirectoryReader.open(directroy);
13.         for (int i = 0; i < reader.numDocs(); i++) {
14.                int docId = i;
15.                 System.out.println("第"+(i+1)+"篇文档：");
16.                Terms terms = reader.getTermVector(docId, "name");
17.                if (terms == null)
18.                    continue;
19.                TermsEnum termsEnum = terms.iterator(null);
20.                BytesRef thisTerm = null;
21.                while ((thisTerm = termsEnum.next()) != null) {
22.                    String termText = thisTerm.utf8ToString();
23.                    DocsEnum docsEnum = termsEnum.docs(null, null);
24.                    while ((docsEnum.nextDoc()) != DocIdSetIterator.NO_MORE_DOCS) {
25.                         System.out.println("termText:"+termText+" TF: "+docsEnum.freq());
26.                    }
27.
28.                    }
29.                }
30.
31.        reader.close();
32.        directroy.close();
33.
34.        Collections.sort(list);
35.
36.        for(Word w:list){
37.            System.out.println(w);
38.        }
39.
40.
41.    }catch(Exception e){
42.        e.printStackTrace();
43.    }
44.
45.
46.}

输出结果如下：

Java代码复制代码收藏代码
1.索引成功了..........
2.第1篇文档：
3.关键词: 搜救词频： 3
4.关键词: 12 词频： 2
5.关键词: 3 词频： 2
6.关键词: 中国词频： 2
7.关键词: 克强词频： 2
8.关键词: 日词频： 2
9.关键词: 月词频： 2
10.关键词: 李克强词频： 2
11.关键词: 10 词频： 1
12.关键词: 15 词频： 1
13.关键词: 370 词频： 1
14.关键词: mh 词频： 1
15.关键词: mh370 词频： 1
16.关键词: 一切词频： 1
17.关键词: 一线词频： 1
18.关键词: 一线希望词频： 1
19.关键词: 上午词频： 1
20.关键词: 不放词频： 1
21.关键词: 与词频： 1
22.关键词: 中国政府词频： 1
23.关键词: 中心词频： 1
24.关键词: 中新词频： 1
25.关键词: 中新网词频： 1
26.关键词: 了解词频： 1
27.关键词: 任何词频： 1
28.关键词: 会后词频： 1
29.关键词: 关词频： 1
30.关键词: 分词频： 1
31.关键词: 切词频： 1
32.关键词: 前方词频： 1
33.关键词: 力度词频： 1
34.关键词: 力量词频： 1
35.关键词: 加大词频： 1
36.关键词: 加完词频： 1
37.关键词: 参加词频： 1
38.关键词: 可能词频： 1
39.关键词: 各有词频： 1
40.关键词: 后来词频： 1
41.关键词: 国务词频： 1
42.关键词: 国务院词频： 1
43.关键词: 国政词频： 1
44.关键词: 失词频： 1
45.关键词: 客机词频： 1
46.关键词: 密度词频： 1
47.关键词: 希望词频： 1
48.关键词: 应急词频： 1
49.关键词: 强要词频： 1
50.关键词: 总理词频： 1
51.关键词: 情况词频： 1
52.关键词: 指挥词频： 1
53.关键词: 指挥中心词频： 1
54.关键词: 据词频： 1
55.关键词: 放弃词频： 1
56.关键词: 政协词频： 1
57.关键词: 政府词频： 1
58.关键词: 政府网词频： 1
59.关键词: 新网词频： 1
60.关键词: 新进词频： 1
61.关键词: 新进展词频： 1
62.关键词: 方中词频： 1
63.关键词: 时词频： 1
64.关键词: 最新词频： 1
65.关键词: 最新进展词频： 1
66.关键词: 有词频： 1
67.关键词: 有关词频： 1
68.关键词: 有关部门词频： 1
69.关键词: 来到词频： 1
70.关键词: 消息词频： 1
71.关键词: 电词频： 1
72.关键词: 线词频： 1
73.关键词: 网词频： 1
74.关键词: 联词频： 1
75.关键词: 能力词频： 1
76.关键词: 航词频： 1
77.关键词: 船长词频： 1
78.关键词: 要求词频： 1
79.关键词: 调集词频： 1
80.关键词: 进展词频： 1
81.关键词: 通话词频： 1
82.关键词: 部门词频： 1
83.关键词: 闭幕词频： 1
84.关键词: 闭幕会词频： 1
85.关键词: 院词频： 1
86.关键词: 马词频： 1

最后，我们来看下，如何获取IDF，
核心代码如下：

Java代码复制代码收藏代码
1./**
2. * 计算IDF
3. *
4. * **/
5.    public void printIDF(){
6.
7.        try{
8.            Directory directroy=FSDirectory.open(new File("D:\\lucene测试索引\\2014311测试"));
9.            IndexReader   reader= DirectoryReader.open(directroy);
10.            List<AtomicReaderContext> list=reader.leaves();
11.            for(AtomicReaderContext ar:list){
12.                String field="name";
13.                AtomicReader areader=ar.reader();
14.                Terms term=areader.terms("name");
15.                TermsEnum tn=term.iterator(null);
16.
17.                BytesRef text;
18.                while((text = tn.next()) != null) {
19.
20.                  System.out.println("field=" + field + "; text=" + text.utf8ToString()+"   IDF : "+tn.docFreq()
21.                     // +" 全局词频 : "+tn.totalTermFreq()
22.                          );
23.
24.
25.
26.              }
27.            }
28.            reader.close();
29.            directroy.close();
30.
31.        }catch(Exception e){
32.            e.printStackTrace();
33.        }
34.
35.
36.    }

输出结果如下：

Java代码复制代码收藏代码
1.索引成功了..........
2.field=name; text=10   IDF : 1
3.field=name; text=12   IDF : 1
4.field=name; text=15   IDF : 1
5.field=name; text=3   IDF : 1
6.field=name; text=370   IDF : 1
7.field=name; text=mh   IDF : 1
8.field=name; text=mh370   IDF : 1
9.field=name; text=一切   IDF : 1
10.field=name; text=一线   IDF : 1
11.field=name; text=一线希望   IDF : 1
12.field=name; text=上午   IDF : 1
13.field=name; text=不放   IDF : 1
14.field=name; text=与   IDF : 1
15.field=name; text=中国   IDF : 1
16.field=name; text=中国政府   IDF : 1
17.field=name; text=中心   IDF : 1
18.field=name; text=中新   IDF : 1
19.field=name; text=中新网   IDF : 1
20.field=name; text=了解   IDF : 1
21.field=name; text=任何   IDF : 1
22.field=name; text=会后   IDF : 1
23.field=name; text=克强   IDF : 1
24.field=name; text=关   IDF : 1
25.field=name; text=分   IDF : 1
26.field=name; text=切   IDF : 1
27.field=name; text=前方   IDF : 1
28.field=name; text=力度   IDF : 1
29.field=name; text=力量   IDF : 1
30.field=name; text=加大   IDF : 1
31.field=name; text=加完   IDF : 1
32.field=name; text=参加   IDF : 1
33.field=name; text=可能   IDF : 1
34.field=name; text=各有   IDF : 1
35.field=name; text=后来   IDF : 1
36.field=name; text=国务   IDF : 1
37.field=name; text=国务院   IDF : 1
38.field=name; text=国政   IDF : 1
39.field=name; text=失   IDF : 1
40.field=name; text=客机   IDF : 1
41.field=name; text=密度   IDF : 1
42.field=name; text=希望   IDF : 1
43.field=name; text=应急   IDF : 1
44.field=name; text=强要   IDF : 1
45.field=name; text=总理   IDF : 1
46.field=name; text=情况   IDF : 1
47.field=name; text=指挥   IDF : 1
48.field=name; text=指挥中心   IDF : 1
49.field=name; text=据   IDF : 1
50.field=name; text=搜救   IDF : 1
51.field=name; text=放弃   IDF : 1
52.field=name; text=政协   IDF : 1
53.field=name; text=政府   IDF : 1
54.field=name; text=政府网   IDF : 1
55.field=name; text=新网   IDF : 1
56.field=name; text=新进   IDF : 1
57.field=name; text=新进展   IDF : 1
58.field=name; text=方中   IDF : 1
59.field=name; text=日   IDF : 1
60.field=name; text=时   IDF : 1
61.field=name; text=最新   IDF : 1
62.field=name; text=最新进展   IDF : 1
63.field=name; text=月   IDF : 1
64.field=name; text=有   IDF : 1
65.field=name; text=有关   IDF : 1
66.field=name; text=有关部门   IDF : 1
67.field=name; text=李克强   IDF : 1
68.field=name; text=来到   IDF : 1
69.field=name; text=消息   IDF : 1
70.field=name; text=电   IDF : 1
71.field=name; text=线   IDF : 1
72.field=name; text=网   IDF : 1
73.field=name; text=联   IDF : 1
74.field=name; text=能力   IDF : 1
75.field=name; text=航   IDF : 1
76.field=name; text=船长   IDF : 1
77.field=name; text=要求   IDF : 1
78.field=name; text=调集   IDF : 1
79.field=name; text=进展   IDF : 1
80.field=name; text=通话   IDF : 1
81.field=name; text=部门   IDF : 1
82.field=name; text=闭幕   IDF : 1
83.field=name; text=闭幕会   IDF : 1
84.field=name; text=院   IDF : 1
85.field=name; text=马   IDF : 1

分享到：

Lucene内置很多的分词器工具包， | Spring中的Bean是有生命周期

2015-12-26 00:38
浏览 1204
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

利用Lucene来获取TF，IDF，以及term词条的位置信息。

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

利用Lucene来获取TF，IDF，以及term词条的位置信息。

评论

发表评论

相关推荐

elasticsearch异常信息汇总

Elasticsearch的架构

怎么在Ubuntu上打开端口

Elasticsearch工作原理

Elasticsearch的路由（Routing）特性

Elasticsearch中的segment理解

Elasticsearch的路由（Routing）特性

Elasticsearch 的 Shard 和 Segment

开源大数据查询分析引擎现状

大数据处理方面的 7 个开源搜索引擎

开源大数据查询分析引擎现状

elasticsearch 把很多类型都放在一个索引下面 会不会导致查询慢

腾讯大数据Hermes爱马仕的系统

配置高性能Elasticsearch集群的9个小贴士

Elasticsearch与Solr

大数据杂谈微课堂|Elasticsearch 5.0新版本的特性与改进

ElasticSearch性能优化策略

ES索引优化

分词与索引的关系

Elasticsearch中的segment理解

最近访客更多访客>>

elasticsearch 把很多类型都放在一个索引下面会不会导致查询慢