04 2018 档案

摘要:一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此 时,我们使用web自动化测试化工具Selenium+无界面浏览器PhantomJS来抓取javascript渲染的页面,下面实现一个简单的爬取 环境搭建 准备工 阅读全文
posted @ 2018-04-20 00:45 致橡树的你 阅读(1490) 评论(0) 推荐(0)
摘要:正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。 列目录时, dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。 正 阅读全文
posted @ 2018-04-09 00:14 致橡树的你 阅读(488) 评论(0) 推荐(0)
摘要:一、find操作 MongoDB中使用find来进行查询,通过指定find的第一个参数可以实现全部和部分查询。 1、查询全部 空的查询文档{}会匹配集合的全部内容。如果不指定查询文档,默认就是{}。 2、部分查询 3、键的筛选 键的筛选是查询时只返回自己感兴趣的键值,通过指定find的第二个参数来实 阅读全文
posted @ 2018-04-08 00:44 致橡树的你 阅读(235) 评论(0) 推荐(0)
摘要:数据库 增 use db1 #有则切换,无则新增 查 show dbs #查看所有 db #当前 删 db.dropDatabase() 集合: 增: db.user db.user.info db.user.auth 查看 show collections show tables 删 db.use 阅读全文
posted @ 2018-04-03 19:55 致橡树的你 阅读(726) 评论(0) 推荐(0)
摘要:解决办法: 例子: 原来的xpath为: user=selector.xpath('//*[@id="Con"]/tr[1]/th/text()') 例子: 原来的xpath为: user=selector.xpath('//*[@id="Con"]/tr[1]/th/text()') 修改后: 阅读全文
posted @ 2018-04-01 23:48 致橡树的你 阅读(8459) 评论(0) 推荐(0)
摘要:XPath轴(XPath Axes)可定义某个相对于当前节点的节点集: 1、child 选取当前节点的所有子元素 2、parent 选取当前节点的父节点 3、descendant 选取当前节点的所有后代元素(子、孙等) 4、ancestor 选取当前节点的所有先辈(父、祖父等) 5、descenda 阅读全文
posted @ 2018-04-01 13:39 致橡树的你 阅读(16499) 评论(1) 推荐(1)