Windows下搭建Nutch过程

今天在WIN7下搭建了Nutch,下面把过程分享一下

1.软件
a)Nutch-1.0
b)JDK1.6
c)Apache Tomcat6
d)Cygwin

2.安装Cygwin
安装时候选择选择下载源,您可以在下载列表里选择:http://www.cygwin.cn 或者,直接在URL里输入http://www.cygwin.cn/pub/这样速度比较快,建议备份下载后的文件,以备以后使用
安装完后桌面出面图标:1,双击进入界面:
2

3.安装JDK,Tomcat。
这里我的JDK安装目录为C:\Program Files\Java\jdk1.6.0_14
Tomcat安装目录为C:\Program Files\Apache Software Foundation\Tomcat 6.0

4.安装Nutch1.0
将其解压后放到任意目录下,建议是FAT32分区,NTFS下运行时会报没有权限,这个问题我还没有解决,所以暂时放到FAT32分区下。如果电脑没有FAT32分区,用WIN7自带的创建虚拟硬盘虚拟一块硬盘出来以FAT32格式化硬盘

5.设置必要的参数
a)在Cygwin窗口中设置JAVA_HOME为JDK目录
  因为在前面我把JDK安装到C:\Program Files\Java\jdk1.6.0_14,所以我在/home/Aaron(这里是我电脑的用户名)/.bash_profile中加入

  JAVA_HOME=’/cygdrive/c/program files/java/jdk1.6.0_14′
  export JAVA_HOME

  保存关闭,关闭Cygwin窗口,再重新打开使变量生效。(可输入export查看JAVA_HOME变量值是否生效)

b)在Nutch目录下新建文件夹urls,在里面新建一个文本文件,名字任意。在文本中打入网址:如http://www.baidu.com保存、关闭

c)修改conf/crawl-urlfilter.txt,在+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/行下面加入+^http://([a-z0-9]*\.)*baidu.com/(作用正在研究)

d)修改conf/nutch-site.xml在<configuration></configuration>中加入:

<configuration>
<property>
  <name>http.agent.name</name>
  <value>Peter Wang</value>
  <description>Peter Pu Wang
  </description>
</property>
<property>
  <name>http.agent.description</name>
  <value>Nutch spiderman</value>
  <description> Nutch spiderman
  </description>
</property>
<property>
  <name>http.agent.url</name>
  <value>http://peterpuwang.googlepages.com </value>
  <description>http://peterpuwang.googlepages.com
  </description>
</property>
<property>
  <name>http.agent.email</name>
  <value>MyEmail</value>
  <description>peterpuwang@yahoo.com
  </description>
</property>

</configuration>

6.运行crawler
在Cygwin窗口中,切换到nutch目录下,输入

bin/nutch crawl urls –dir crawl –depth 3 –topN 50
等待结束

7.将nutch.war打包发布到Tomcat里
修改/WEB-INF/classes/nutch-site.xml中,加入

<property>
    <name>searcher.dir</name>
    <value>i:/nutch-1.0/crawl</value>
</property>

在刚刚运行crawler时,-dir后面输入的是crawl,所以这里是/nutch-1.0/crawl

8.reload nutch1.0的application即可看到搜索结果。enjoy~~

 

You can mail me:tytc011@163.com

This entry was posted in Uncategorized. Bookmark the permalink.

Leave a comment