2007-09-16

完成了自定义入nutch库的命令

关键字: nutch lucene hadoop
可以利用到hadoop的map/reduce和hdfs,感觉还是很爽,需要注意的几点总结如下: 1.自定义命令类可以单独作一个jar,但要记得部署到每个节点,否则会无法执行 2.记得启动maper服务,否则无法进行map/reduce计算 3.自定义命令调用方法bin/nutch CLASSNAME 参数 4.目前没有找到更简便的调试方式,目前都是编译完,打包上传,执行,步骤觉得复杂了一些 5.nutch0.8不能使用最新的hadoop0.14比较可惜,不过照发展趋势应该很快可以使用
  • 14:59
  • 浏览 (410)
  • 评论 (0)
在改造solr的过程中,发现代码越写越驱近于nutc h。。。。。再次打开nutch的代码进行研读,发现nutch对于hadoop的支持更为自然(但nutch不支持最新的hadoop0.14版本,只支持到hadoop-0.12版本,如果强行升级会因为hadoop0.14去除了一些方法而失败)。目前想到的方案,用nutch来完成索引的建立和文件的保存,用solr进行查询,将结果暴露为json格式。 需要做的工作: 1.开发nutch的录入分析程序,还可以利用到map/reduce 2.将solr的查询部分改为从hdfs搜索,之前以完成 虽然走了一些弯路,在solr上花费了不少时 ...
  • 17:33
  • 浏览 (501)
  • 评论 (2)
2007-09-14

solr改造篇

关键字: solr hadoop hdfs
solr本身支持分布式索引,是利用rsync来做的, 详见文档: http://wiki.apache.org/solr/CollectionDistribution 但是,我是想利用hdfs来作这件事,在看了solr的源代码后,发现其并不能配置为直接支持hdfs,他默认就是读取写入本地文件系统,代码片段如下: File dirFile = new File(getIndexDir()); Directory dir = FSDirectory.getDirectory(d irFile, !indexExists); 目前手工hack了SolrCore.java,让其支持HDF ...
  • 00:35
  • 浏览 (625)
  • 评论 (1)
2007-09-14

solr+lucene+hfs心得(1)

关键字: lucene solr hdfs hadoop
这几天一直在捣鼓solr,lucene,hdfs这几个东西,在此记录几个关键点 1.solr 是一个很好的中间系统,他把lucene很好的进行了包装,几乎各个部分都可以进行自己的扩展。我们会用到的部分: 自定义数据源格式,并添加索引 将原始文件和索引添加到hfs 目前搜索的部分已经够用 Cache Rpc式的搜索 我们要用到的一些特性solr都提供了,而且很容易扩展 2.lucene 强大的索引功能,但不得不说其索引文件不支持直接写入hdfs,不得不说是一个挺麻烦的部分,查阅了很多文档,对于分布式文件系统,例如nfs,lucene的索引并不能直接写在文件系统上,需要先写到本地文件系 ...
  • 00:32
  • 浏览 (704)
  • 评论 (0)
2007-09-14

Hadoop and Lucene

关键字: hadoop hdfs lucene
这几天的工作一直在围绕Hadoop进行,记录一些随手心得. Hadoop有价值的部分: 1.HDFS 一个分布式的文件系统,我们的目标是用HDFS来完成数据的分布式保存和索引文件的分布式保存 2.Map/Reduce 用来做分布式运算,摆脱SQL的束缚,完全利用索引,来进行数据的检索.然后用Map/Reduce来进行我们需要的统计计算,利用分布式机制提高运算速度 Lucene,以前只是比较皮毛的接触过Lucene,这次会有一次比较深入的应用,利用Lucene的索引提高检索速度,并配合HDFS,将索引文件分布式存储 目前还一个很重要的工作,就是解决FreeBSD下diablo-jdk1. ...
  • 00:30
  • 浏览 (815)
  • 评论 (2)
清风
搜索本博客
最新评论