会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
阿布alone
博客园
首页
新随笔
订阅
管理
上一页
1
···
34
35
36
37
38
39
40
41
42
···
49
下一页
2019年3月2日
scrapy模块之分页处理,post请求,cookies处理,请求传参
摘要: 一.scrapy分页处理 1.分页处理 2.post请求 - 问题:在之前代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答:其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_
阅读全文
posted @ 2019-03-02 16:52 阿布_alone
阅读(1501)
评论(0)
推荐(0)
2019年3月1日
scrapy框架初识
摘要: 一.scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 五大核心组件
阅读全文
posted @ 2019-03-01 18:13 阿布_alone
阅读(287)
评论(0)
推荐(0)
2019年2月28日
git入门
摘要: 一.简介与安装 1.简介 安装 注意:openssl 一定选它 安装完成后,右击菜单栏,有如下菜单,表示安装完成 二.初始配置 1.用户名和邮件(使用者是谁) > git config --global user.name "tjp40922"> git config --global user.e
阅读全文
posted @ 2019-02-28 22:30 阿布_alone
阅读(326)
评论(0)
推荐(0)
2019年2月27日
phantomjs的和谷歌浏览器的简单使用
摘要: 一.phantomjs的简单使用 二.谷歌无头浏览器的简单使用 三.通过selenium和phtantosJs配合抓取到更多数据(ajax) selenium+phantomjs 就是爬虫终极解决方案:有些网站上的内容信息是通过动态加载js形成的,所以使用普通爬虫程序无法回去动态加载的js内容。 例
阅读全文
posted @ 2019-02-27 20:46 阿布_alone
阅读(1135)
评论(0)
推荐(0)
selenium模块的而简单使用
摘要: 一.seleniu的简单使用 1.简单使用 Selenium支持非常多的浏览器,如Chrome、Firefox、Edge等,还有Android、BlackBerry等手机端的浏览器。另外,也支持无界面浏览器PhantomJS。 2.元素定位 webdriver 提供了一系列的元素定位方法,常用的有以
阅读全文
posted @ 2019-02-27 20:45 阿布_alone
阅读(327)
评论(0)
推荐(0)
代理ip的使用以及多进程爬取
摘要: 一.代理皮的简单使用 二.多进程爬取
阅读全文
posted @ 2019-02-27 15:29 阿布_alone
阅读(908)
评论(0)
推荐(0)
2019年2月26日
爬虫之re块解析
摘要: 一.re 这个去匹配比较麻烦,以后也比较少用,简单看一个案例就行 二.使用re的注意点 1.Windows转义符 2.避免出错 在正则表达式中尽量使用原始字符串,在待匹配字符中看到什么就在正则表达式中写什么,不容易出问题 原始字符串的查看,可以借助ipython去查看,不要使用print 3.
阅读全文
posted @ 2019-02-26 21:09 阿布_alone
阅读(317)
评论(0)
推荐(0)
爬虫初识和request使用
摘要: 一.什么是爬虫 爬虫的概念: 通过编写程序,模拟浏览器上网,让其去互联网上爬取数据的过程. 爬虫的工作流程: 模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 爬虫的分类: 通用爬虫:爬取全部的页面数据. 聚焦爬虫: 抓取页面中局部的页面数据 增量式爬虫:爬取网站中更新
阅读全文
posted @ 2019-02-26 15:39 阿布_alone
阅读(3151)
评论(0)
推荐(1)
2019年2月25日
xpath的基础使用
摘要: 一.xpath简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准 `节点
阅读全文
posted @ 2019-02-25 21:03 阿布_alone
阅读(886)
评论(0)
推荐(0)
2019年2月24日
bs4的简单使用
摘要: 一.使用流程 二.基本语法 三.重点语法find和find_all 不带过滤器: print(soup.find_all()) #没有过滤,查找所有标签 字符串过滤器: print (soup.find_all()) #字符串过滤器,即标签名 列表: print(soup.find_(['a','b
阅读全文
posted @ 2019-02-24 22:32 阿布_alone
阅读(1947)
评论(0)
推荐(0)
上一页
1
···
34
35
36
37
38
39
40
41
42
···
49
下一页
公告
TOP