转自:http://blog.csdn.net/memray/article/details/
课程作业需要做一个评测实验,借机会了解一下Lemur,其实使用教程在Lemur官网(http://www.lemurproject.org/)和SourceForge(http://sourceforge.net/projects/lemur/wiki/)上都有较为详细的讲解,不过后者的文档是从原来的Lemur资料库转移过去的,很多内容不全,建议多查看Indri目录里的doc。中文教程不多,毛进师兄那里一些不错的资源(http://blog.sciencenet.cn/home.php?mod=space&uid=)。
我也把自己的实验过程简单记录一下。
其实目前世界上有不少经典的检索工具,之前我们做实验都是使用Apache Lucene,但是学术界还是比较认可Lemur。Lemur项目是由UMass和CMU的牛们共同合作的,《Search Engines:Information Retrieval in Practice》是Lemur的重要成果,作者就是Croft,另外两个作者都是他的学生,都去Google搜索部门混了。国内译本是刘挺翻译的,一直放桌上还没看过。。不查不知道,其实还有很多实现的搜索引擎,比如Lucene,Terrier,Wumpus等等(http://www.emse.fr/~mbeig/IR/tools.html)。有必要针对一两个分析他们的具体实现。
1. 实验目的
使用k折交叉检验(k=5)训练出下列模型的最优参数:
o LM 2-Stage
Mu的取值范围:
mu=(100,500, 800, 1000, 2000, 3000, 4000, 5000, 8000, 10000);
Lambda的取值范围:
lambda=(0.01,0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99);
o BM25
K1及b的取值范围:
K1=(1.0, 1.1, 1.2, 1.3, 1.4, 1.5,1.6, 1.7, 1.8, 1.9,2.0);
b = (0, 0.1 ,0.2, 0.3, 0.4, 0.5,0.6,0.7 0.8, 0.9, 1.0);
2. 安装
Indri的安装很简单,下载传送门:https://sourceforge.net/projects/lemur/files/lemur/
里面有不少内容可以下载,Indri就是我们实验需要的程序,最新版本为5.4。lemur-toolkit是将包括Indri在内的诸多工具的整合,我们后文需要用到的评测工具ireval就是在这里面。只下载lemur-toolkit也可以完成我们的实验,不过它早在2010年就不再更新了。

如果你选择使用Indri 5.4,评测工具ireval.jar可以从这里下载:http://gimlet.is.inf.uni-due.de:8081/nexus/content/groups/public/evalutil/
安装不说,exe点击搞定。安装的时候可以选择安装Java GUI,能够提供简单的建立索引和检索功能。Lemur的GUI功能相比Indri的更强大一些,起码能加参数~不过GUI对于我们参数调优也显得很无力,必须靠程序实现。
3. 建立索引
找到Indri安装路径,在cmd下运行这个命令即可使用Indri对指定的语料数据建立索引。
[java] view plain copy

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/12165.html