今天在WIN7下搭建了Nutch,下面把过程分享一下
1.软件
a)Nutch-1.0
b)JDK1.6
c)Apache Tomcat6
d)Cygwin2.安装Cygwin
安装时候选择选择下载源,您可以在下载列表里选择:http://www.cygwin.cn 或者,直接在URL里输入http://www.cygwin.cn/pub/这样速度比较快,建议备份下载后的文件,以备以后使用
安装完后桌面出面图标:,双击进入界面:
3.安装JDK,Tomcat。
这里我的JDK安装目录为C:\Program Files\Java\jdk1.6.0_14
Tomcat安装目录为C:\Program Files\Apache Software Foundation\Tomcat 6.04.安装Nutch1.0
将其解压后放到任意目录下,建议是FAT32分区,NTFS下运行时会报没有权限,这个问题我还没有解决,所以暂时放到FAT32分区下。如果电脑没有FAT32分区,用WIN7自带的创建虚拟硬盘虚拟一块硬盘出来以FAT32格式化硬盘5.设置必要的参数
a)在Cygwin窗口中设置JAVA_HOME为JDK目录
因为在前面我把JDK安装到C:\Program Files\Java\jdk1.6.0_14,所以我在/home/Aaron(这里是我电脑的用户名)/.bash_profile中加入JAVA_HOME=’/cygdrive/c/program files/java/jdk1.6.0_14′
export JAVA_HOME保存关闭,关闭Cygwin窗口,再重新打开使变量生效。(可输入export查看JAVA_HOME变量值是否生效)
b)在Nutch目录下新建文件夹urls,在里面新建一个文本文件,名字任意。在文本中打入网址:如http://www.baidu.com保存、关闭
c)修改conf/crawl-urlfilter.txt,在+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/行下面加入+^http://([a-z0-9]*\.)*baidu.com/(作用正在研究)
d)修改conf/nutch-site.xml在<configuration></configuration>中加入:
<configuration>
<property>
<name>http.agent.name</name>
<value>Peter Wang</value>
<description>Peter Pu Wang
</description>
</property>
<property>
<name>http.agent.description</name>
<value>Nutch spiderman</value>
<description> Nutch spiderman
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://peterpuwang.googlepages.com </value>
<description>http://peterpuwang.googlepages.com
</description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>peterpuwang@yahoo.com
</description>
</property></configuration>
6.运行crawler
在Cygwin窗口中,切换到nutch目录下,输入bin/nutch crawl urls –dir crawl –depth 3 –topN 50
等待结束7.将nutch.war打包发布到Tomcat里
修改/WEB-INF/classes/nutch-site.xml中,加入<property>
<name>searcher.dir</name>
<value>i:/nutch-1.0/crawl</value>
</property>在刚刚运行crawler时,-dir后面输入的是crawl,所以这里是/nutch-1.0/crawl
8.reload nutch1.0的application即可看到搜索结果。enjoy~~
You can mail me:tytc011@163.com
-
Recent Posts
Recent Comments
利峰 on C# jie on C# 哲 on Nutch的命令详解 哲 on 论文快开题了,研究方向是文本挖掘,啥也不会,唉 宇晴 on 论文快开题了,研究方向是文本挖掘,啥也不会,唉 Archives
Categories
Meta