Linux搭建Scrapy爬虫集成开发环境

下载地址：http://www.python.org/， Python 有 Python 2 和 Python 3 两个版本，语法有些区别，ubuntu上自带了python2.7.6，所以在 ubuntu上暂时不需额外安装。

下载地址：http://www.oracle.com/technetwork/java/javase/downloads，下载与具体机器对应的版本，我这里由于是ubuntu64位，所以下载了jdk-8u77-linux-x64.tar.gz

解压：tar -zxvf jdk-8u77-linux-x64.tar.gz

进入到解压的目录，拷贝：cp -R jdk1.8.0_77/ /usr/local/

配置环境变量：vi .bashrc

添加：

export JAVA_HOME=/usr/local/jdk1.8.0_77

export JAVA_BIN=$JAVA_HOME/bin

export JAVA_LIB=$JAVA_HOME/lib

export CLASSPATH=.:$JAVA_LIB/tools.jar:$JAVA_LIB/dt.jar

export PATH=$JAVA_BIN:$PATH

使环境变量生效：source .bashrc

下载地址：http://www.eclipse.org/downloads/

下载完后，解压就可以直接使用， Eclipse不需要安装。

tar -zxvf eclipse-jee-mars-2-linux-gtk-x86_64.tar.gz

cp -R eclipse /usr/local/

下载地址：http://www.pydev.org/index.html

将压缩文件解压出来，得到features和plugins两个文件夹，然后将两个文件夹中的文件分别拷贝到Eclipse安装目录下的features和plugins目录中。

然后配置python解释器，启动Eclipse，打开window->Preferences，选择Interpreter-Python，然后选择New，在弹出的对话框的Interpreter Name写Python, 在Interpreter Executable写入python可执行解释器的地址。

如果eclipse打开时没有菜单栏，通过以下方法解决:

其实就是缺一个环境变量UBUNTU_MENUPROXY. 在/etc/profile 里面新建这个变量并且把值写成0，然后重启就行啦,export UBUNTU_MENUPROXY=0

下面是Scrapy爬虫开发安装：

1.先安装好python集成开发环境，参考前面步骤

2. 安装 Scrapy

Scrapy依赖于Python开发库和pip。

Python 最新的版本已经在Ubuntu上预装了，因此我们在安装 Scrapy之前只需安装pip和python开发库就可以了。

pip是作为python包索引器easy_install的替代品，用于安装和管理Python包。

安装pip：sudo apt-get install python-pip

安装python-dev：sudo apt-get install python-dev

安装Scrapy：pip install Scrapy

3. 安装pyquery包：pip install pyquery

pyQuery 是 jQuery 的Python实现,如果对Web前端有了解,特别是有用过 jQuery 的,那么 pyQuery 将会是你处理HTML内容的最佳选择。

posted @ 2016-04-26 09:51 郭远威阅读(3071) 评论(2) 收藏举报

刷新页面返回顶部

郭远威