nutch是java开发的分布式爬虫网络框架,著名的大数据框架hadoop就是的子项目.
nutch就是用来爬去数据的没有数据怎么做大数据呢.
首先从nutch官网将源代码下载下来
博主下载的官网最新的版本apache-nutch-2.3.1-src.tar.gz
下载完成后需要把代码导入eclipse,因为nutch是使用ant做的源代码管理的项目,所以eclipse需要安装ivyIDE插件
打开下面菜单 Help -> Install New Software
添加url: http://www.apache.org/dist/ant/ivyde/updatesite/
然后一步步安装
然后在安装svn插件
添加url: http://subclipse.tigris.org/update_1.8.x 和上面一样一步步安装
然后可以从SVN导入nutch的源代码,也可以直接将源代码导入eclipse.
下面将介绍SVN导入eclipse源代码
打开eclipse菜单
File -> New -> Project -> SVN -> 从SVN检出项目
然后输入SVN URL: https://svn.apache.org/repos/asf/nutch/tags/release-2.3.1/
release-2.3.1是代码的版本号,你下载的代码是什么版本就写上多少号
因为是ant构建的项目所以你还需要在你的电脑上面安装ant的工具包
需要把ivy-2.3.0.jar文件copy到ant目录下lib包里面
ivy-2.3.0.jar必须要放到ant的lib的下不然依赖问题不能解决,在项目下输入ant就没有用
然后在nutch目录下输入ant命令下载依赖文件
1 | [lzq996298643@localhost apache-nutch-2.3.1]$ ant |