nutch代码研究

nutch是java开发的分布式爬虫网络框架,著名的大数据框架hadoop就是的子项目.

nutch就是用来爬去数据的没有数据怎么做大数据呢.

首先从nutch官网将源代码下载下来

博主下载的官网最新的版本apache-nutch-2.3.1-src.tar.gz

下载完成后需要把代码导入eclipse,因为nutch是使用ant做的源代码管理的项目,所以eclipse需要安装ivyIDE插件

打开下面菜单 Help -> Install New Software

添加url: http://www.apache.org/dist/ant/ivyde/updatesite/

image

然后一步步安装

然后在安装svn插件

添加url: http://subclipse.tigris.org/update_1.8.x 和上面一样一步步安装

然后可以从SVN导入nutch的源代码,也可以直接将源代码导入eclipse.

下面将介绍SVN导入eclipse源代码

打开eclipse菜单

File -> New -> Project -> SVN -> 从SVN检出项目
然后输入SVN URL: https://svn.apache.org/repos/asf/nutch/tags/release-2.3.1/

release-2.3.1是代码的版本号,你下载的代码是什么版本就写上多少号

因为是ant构建的项目所以你还需要在你的电脑上面安装ant的工具包

需要把ivy-2.3.0.jar文件copy到ant目录下lib包里面

ivy-2.3.0.jar必须要放到ant的lib的下不然依赖问题不能解决,在项目下输入ant就没有用

然后在nutch目录下输入ant命令下载依赖文件

1
2
[lzq996298643@localhost apache-nutch-2.3.1]$ ant
Buildfile: /home/lzq996298643/development_space/javaEE2018/nutch/apache-nutch-2.3.1/build.xml
本文结束 3Q YOU

本文标题:nutch代码研究

文章作者:廖振钦

发布时间:2018年07月13日 - 14:07

最后更新:2018年07月15日 - 17:07

原始链接:http://qincloud.github.io/hexot/2018/07/13/nutch代码研究/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。