<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
  <channel>
    <title>清风</title>
    <description>My Blog:
http://blog.csdn.net/changzheng</description>
    <link>http://paradise-qingfeng.javaeye.com</link>
    <language>UTF-8</language>
    <copyright>Copyright 2003-2008, JavaEye.com</copyright>
    <docs>http://blogs.law.harvard.edu/tech/rss</docs>
    <generator>JavaEye - 做最棒的软件开发交流社区</generator>
      <item>
        <title>完成了自定义入nutch库的命令</title>
        <author>清风</author>
        <description>
          <![CDATA[
          <br/>
          作者: <a href="http://paradise-qingfeng.javaeye.com">清风</a>&nbsp;
          链接：<a href="http://paradise-qingfeng.javaeye.com/blog/124540" style="color:red;">http://paradise-qingfeng.javaeye.com/blog/124540</a>&nbsp;
          发表时间: 2007年09月16日
          <br/><br/>
          声明：本文系JavaEye网站发布的原创博客文章，未经作者书面许可，严禁任何网站转载本文，否则必将追究法律责任！
          <br/><br/>
          <span>可以利用到hadoop的map/reduce和hdf</span>s，感觉还是很爽，需要注意的几点总结如下:<br />
<div><br />
<span>1.自定义命令类可以单独作一个jar，但要记得部署到</span><wbr></wbr><span class="word_break"></span>每个节点，否则会无法执行<br />
<span>2.记得启动maper服务，否则无法进行map/re</span><wbr></wbr><span class="word_break"></span>duce计算<br />
3.自定义命令调用方法bin/nutch CLASSNAME 参数<br />
<span>4.目前没有找到更简便的调试方式，目前都是编译完，打</span><wbr></wbr><span class="word_break"></span>包上传，执行，步骤觉得复杂了一些<br />
<span>5.nutch0.8不能使用最新的hadoop0.1</span><wbr></wbr><span class="word_break"></span>4比较可惜，不过照发展趋势应该很快可以使用</div>
          <br/>
          <span style="color:red;">
            <a href="http://paradise-qingfeng.javaeye.com/blog/124540#comments" style="color:red;">本文的讨论也很精彩，浏览讨论>></a>
          </span>
          <br/><br/><br/>
          <span style="color:#E28822;">JavaEye推荐</span>
          <br/>
          <ul class='adverts'><li><a href='/adverts/41' target='_blank'><span style="color:red;font-weight:bold;">北京: 千橡集团暨校内网诚聘软件研发工程师</span></a></li><li><a href='/adverts/42' target='_blank'><span style="color:red;font-weight:bold;">搜狐网站诚聘Java、PHP和C++工程师</span></a></li></ul>
          <br/><br/><br/>
          ]]>
        </description>
        <pubDate>Sun, 16 Sep 2007 14:59:52 +0800</pubDate>
        <link>http://paradise-qingfeng.javaeye.com/blog/124540</link>
        <guid>http://paradise-qingfeng.javaeye.com/blog/124540</guid>
      </item>
      <item>
        <title>solr弯路篇</title>
        <author>清风</author>
        <description>
          <![CDATA[
          <br/>
          作者: <a href="http://paradise-qingfeng.javaeye.com">清风</a>&nbsp;
          链接：<a href="http://paradise-qingfeng.javaeye.com/blog/123895" style="color:red;">http://paradise-qingfeng.javaeye.com/blog/123895</a>&nbsp;
          发表时间: 2007年09月14日
          <br/><br/>
          声明：本文系JavaEye网站发布的原创博客文章，未经作者书面许可，严禁任何网站转载本文，否则必将追究法律责任！
          <br/><br/>
          <span>在改造solr的过程中，发现代码越写越驱近于nutc</span>
<div><wbr></wbr><span class="word_break"></span><span>h。。。。。再次打开nutch的代码进行研读，发现n</span><wbr></wbr><span class="word_break"></span><span>utch对于hadoop的支持更为自然(但nutch</span><wbr></wbr><span class="word_break"></span><span>不支持最新的hadoop0.14版本，只支持到had</span><wbr></wbr><span class="word_break"></span><span>oop-0.12版本，如果强行升级会因为hadoop</span><wbr></wbr><span class="word_break"></span><span>0.14去除了一些方法而失败)。目前想到的方案，用n</span><wbr></wbr><span class="word_break"></span><span>utch来完成索引的建立和文件的保存，用solr进行</span><wbr></wbr><span class="word_break"></span>查询，将结果暴露为json格式。<br />
<br />
需要做的工作:<br />
<span>1.开发nutch的录入分析程序，还可以利用到map</span><wbr></wbr><span class="word_break"></span>/reduce<br />
<span>2.将solr的查询部分改为从hdfs搜索，之前以完</span><wbr></wbr><span class="word_break"></span>成<br />
<br />
<span>虽然走了一些弯路，在solr上花费了不少时间，不过总</span><wbr></wbr><span class="word_break"></span><span>算弄清了lucene,solr,hadoop,nut</span><wbr></wbr><span class="word_break"></span>ch，这几者更适合作什么，如何协调会更好</div>
          <br/>
          <span style="color:red;">
            <a href="http://paradise-qingfeng.javaeye.com/blog/123895#comments" style="color:red;">本文的讨论也很精彩，浏览讨论>></a>
          </span>
          <br/><br/><br/>
          <span style="color:#E28822;">JavaEye推荐</span>
          <br/>
          <ul class='adverts'><li><a href='/adverts/42' target='_blank'><span style="color:red;font-weight:bold;">搜狐网站诚聘Java、PHP和C++工程师</span></a></li><li><a href='/adverts/41' target='_blank'><span style="color:red;font-weight:bold;">北京: 千橡集团暨校内网诚聘软件研发工程师</span></a></li></ul>
          <br/><br/><br/>
          ]]>
        </description>
        <pubDate>Fri, 14 Sep 2007 17:33:11 +0800</pubDate>
        <link>http://paradise-qingfeng.javaeye.com/blog/123895</link>
        <guid>http://paradise-qingfeng.javaeye.com/blog/123895</guid>
      </item>
      <item>
        <title>solr改造篇</title>
        <author>清风</author>
        <description>
          <![CDATA[
          <br/>
          作者: <a href="http://paradise-qingfeng.javaeye.com">清风</a>&nbsp;
          链接：<a href="http://paradise-qingfeng.javaeye.com/blog/123673" style="color:red;">http://paradise-qingfeng.javaeye.com/blog/123673</a>&nbsp;
          发表时间: 2007年09月14日
          <br/><br/>
          声明：本文系JavaEye网站发布的原创博客文章，未经作者书面许可，严禁任何网站转载本文，否则必将追究法律责任！
          <br/><br/>
          solr本身支持分布式索引，是利用rsync来做的，<br />详见文档:<br />http://wiki.apache.org/solr/CollectionDistribution<br /><br />但是，我是想利用hdfs来作这件事，在看了solr的源代码后，发现其并不能配置为直接支持hdfs，他默认就是读取写入本地文件系统，代码片段如下:<br /><pre name="code" class="java">
File dirFile = new File(getIndexDir());
Directory dir = FSDirectory.getDirectory(d
irFile, !indexExists);
</pre><br />目前手工hack了SolrCore.java，让其支持HDFS<br /><br /><pre name="code" class="java">
InetSocketAddress addr = DataNode.createSocketAddr("10.88.15.59:9000");
FileSystem fs = new DistributedFileSystem(addr, conf);
FsDirectory dir = new FsDirectory(fs, new Path(getIndexDir()),false, conf);
boolean indexExists = fs.exists(new Path(getIndexDir()));
</pre><br /><br />搜索部分的切换:<br /><pre name="code" class="java">
Configuration conf = new Configuration();
InetSocketAddress addr = DataNode.createSocketAddr("10.88.15.59:9000");
FileSystem fs = new DistributedFileSystem(addr, conf);
FsDirectory dir=new FsDirectory(fs, new Path(index_path), false, conf);
IndexReader reader = IndexReader.open(dir);
tmp = new SolrIndexSearcher(schema, "main", reader, true);
</pre><br /><br />目前可以通过HDFS来读取索引文件并完成查询
          <br/>
          <span style="color:red;">
            <a href="http://paradise-qingfeng.javaeye.com/blog/123673#comments" style="color:red;">本文的讨论也很精彩，浏览讨论>></a>
          </span>
          <br/><br/><br/>
          <span style="color:#E28822;">JavaEye推荐</span>
          <br/>
          <ul class='adverts'><li><a href='/adverts/41' target='_blank'><span style="color:red;font-weight:bold;">北京: 千橡集团暨校内网诚聘软件研发工程师</span></a></li><li><a href='/adverts/42' target='_blank'><span style="color:red;font-weight:bold;">搜狐网站诚聘Java、PHP和C++工程师</span></a></li></ul>
          <br/><br/><br/>
          ]]>
        </description>
        <pubDate>Fri, 14 Sep 2007 00:35:24 +0800</pubDate>
        <link>http://paradise-qingfeng.javaeye.com/blog/123673</link>
        <guid>http://paradise-qingfeng.javaeye.com/blog/123673</guid>
      </item>
      <item>
        <title>solr+lucene+hfs心得(1)</title>
        <author>清风</author>
        <description>
          <![CDATA[
          <br/>
          作者: <a href="http://paradise-qingfeng.javaeye.com">清风</a>&nbsp;
          链接：<a href="http://paradise-qingfeng.javaeye.com/blog/123672" style="color:red;">http://paradise-qingfeng.javaeye.com/blog/123672</a>&nbsp;
          发表时间: 2007年09月14日
          <br/><br/>
          声明：本文系JavaEye网站发布的原创博客文章，未经作者书面许可，严禁任何网站转载本文，否则必将追究法律责任！
          <br/><br/>
          这几天一直在捣鼓solr,lucene,hdfs这几个东西，在此记录几个关键点<br /><br />1.solr<br />是一个很好的中间系统，他把lucene很好的进行了包装，几乎各个部分都可以进行自己的扩展。我们会用到的部分:<br /><br /><ul><br />自定义数据源格式，并添加索引<br />将原始文件和索引添加到hfs<br />目前搜索的部分已经够用<br />Cache<br />Rpc式的搜索<br /></ul><br /><br />我们要用到的一些特性solr都提供了，而且很容易扩展<br /><br />2.lucene<br />强大的索引功能，但不得不说其索引文件不支持直接写入hdfs，不得不说是一个挺麻烦的部分，查阅了很多文档，对于分布式文件系统，例如nfs，lucene的索引并不能直接写在文件系统上，需要先写到本地文件系统，然后在cp到分布式文件系统，详情可以见nutch的indexer部分的源代码<br /><br />3.hdfs<br />这次对于分布式计算的部分可能不会接触太多，主要是使用hdfs的部分，用来冗余存放索引文件，原始文件等信息。看nutch的源代码中，发现其索引保存部分利用了map/reduce的方式。
          <br/>
          <span style="color:red;">
            <a href="http://paradise-qingfeng.javaeye.com/blog/123672#comments" style="color:red;">本文的讨论也很精彩，浏览讨论>></a>
          </span>
          <br/><br/><br/>
          <span style="color:#E28822;">JavaEye推荐</span>
          <br/>
          <ul class='adverts'><li><a href='/adverts/42' target='_blank'><span style="color:red;font-weight:bold;">搜狐网站诚聘Java、PHP和C++工程师</span></a></li><li><a href='/adverts/41' target='_blank'><span style="color:red;font-weight:bold;">北京: 千橡集团暨校内网诚聘软件研发工程师</span></a></li></ul>
          <br/><br/><br/>
          ]]>
        </description>
        <pubDate>Fri, 14 Sep 2007 00:32:23 +0800</pubDate>
        <link>http://paradise-qingfeng.javaeye.com/blog/123672</link>
        <guid>http://paradise-qingfeng.javaeye.com/blog/123672</guid>
      </item>
      <item>
        <title>Hadoop and Lucene</title>
        <author>清风</author>
        <description>
          <![CDATA[
          <br/>
          作者: <a href="http://paradise-qingfeng.javaeye.com">清风</a>&nbsp;
          链接：<a href="http://paradise-qingfeng.javaeye.com/blog/123671" style="color:red;">http://paradise-qingfeng.javaeye.com/blog/123671</a>&nbsp;
          发表时间: 2007年09月14日
          <br/><br/>
          声明：本文系JavaEye网站发布的原创博客文章，未经作者书面许可，严禁任何网站转载本文，否则必将追究法律责任！
          <br/><br/>
          这几天的工作一直在围绕Hadoop进行,记录一些随手心得.<br /><br />Hadoop有价值的部分:<br />1.HDFS<br />一个分布式的文件系统,我们的目标是用HDFS来完成数据的分布式保存和索引文件的分布式保存<br /><br />2.Map/Reduce<br />用来做分布式运算,摆脱SQL的束缚,完全利用索引,来进行数据的检索.然后用Map/Reduce来进行我们需要的统计计算,利用分布式机制提高运算速度<br /><br />Lucene,以前只是比较皮毛的接触过Lucene,这次会有一次比较深入的应用,利用Lucene的索引提高检索速度,并配合HDFS,将索引文件分布式存储<br /><br />目前还一个很重要的工作,就是解决FreeBSD下diablo-jdk1.5的RandomAccess类的mode设置为rws不能正常工作的问题<br /><br />http://lists.freebsd.org/pipermail/freebsd-java/2006-September/005670.html<br /><br />参考资料:<br />http://lucene.apache.org/hadoop/<br />http://lucene.apache.org/java/docs/index.html
          <br/>
          <span style="color:red;">
            <a href="http://paradise-qingfeng.javaeye.com/blog/123671#comments" style="color:red;">本文的讨论也很精彩，浏览讨论>></a>
          </span>
          <br/><br/><br/>
          <span style="color:#E28822;">JavaEye推荐</span>
          <br/>
          <ul class='adverts'><li><a href='/adverts/41' target='_blank'><span style="color:red;font-weight:bold;">北京: 千橡集团暨校内网诚聘软件研发工程师</span></a></li><li><a href='/adverts/42' target='_blank'><span style="color:red;font-weight:bold;">搜狐网站诚聘Java、PHP和C++工程师</span></a></li></ul>
          <br/><br/><br/>
          ]]>
        </description>
        <pubDate>Fri, 14 Sep 2007 00:30:17 +0800</pubDate>
        <link>http://paradise-qingfeng.javaeye.com/blog/123671</link>
        <guid>http://paradise-qingfeng.javaeye.com/blog/123671</guid>
      </item>
  </channel>
</rss>