随笔分类 - 分布式爬虫
摘要:一、使用Selenium+Phantoms来抓取数据 1.登录:最重要的是设置User-Agent,否则无法转跳链接 2.输入用户名和密码: (1)为了与微博内容交互,需要用到javascript 相关的javascript代码: document.getElementById('loginname
阅读全文
摘要:一、CSS定位器 1.什么是CSS (1)CSS=Cascading Style Sheets (2)样式定义如何显示HTML元素 (3)想想为什么不直接使用属性设置元素 (4)CSS与JS 2.CSS基础语法 (1)CSS规则:选择器,以及一条或者多条的声明 selector {declarati
阅读全文
摘要:一、什么是爬虫 1、HTTP简介 (1)HTTP=Hyper text Transfer Protocol (2)URI=Uniform Resource Identifier (3)URL=Uniform Resource Locator (4)URI和URL的区别:URI强调的是资源,而URL强
阅读全文
摘要:安装python3.6可能使用的依赖# yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel 下载python3.6编译安装到python官网下载https://www.pyt
阅读全文
摘要:一、环境搭建 1.python 2.7 2.pip ,并设置pip源 (1)配置pip conf ,自动设置源 #mkdir ~/.pip #vim ~/.pip/pip.conf [gloabal] index-url=https://pypi.tuna.tsinghua.edu.cn/simpl
阅读全文