04 2018 档案
摘要:一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此 时,我们使用web自动化测试化工具Selenium+无界面浏览器PhantomJS来抓取javascript渲染的页面,下面实现一个简单的爬取 环境搭建 准备工
阅读全文
摘要:正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。 列目录时, dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。 正
阅读全文
摘要:一、find操作 MongoDB中使用find来进行查询,通过指定find的第一个参数可以实现全部和部分查询。 1、查询全部 空的查询文档{}会匹配集合的全部内容。如果不指定查询文档,默认就是{}。 2、部分查询 3、键的筛选 键的筛选是查询时只返回自己感兴趣的键值,通过指定find的第二个参数来实
阅读全文
摘要:数据库 增 use db1 #有则切换,无则新增 查 show dbs #查看所有 db #当前 删 db.dropDatabase() 集合: 增: db.user db.user.info db.user.auth 查看 show collections show tables 删 db.use
阅读全文
摘要:解决办法: 例子: 原来的xpath为: user=selector.xpath('//*[@id="Con"]/tr[1]/th/text()') 例子: 原来的xpath为: user=selector.xpath('//*[@id="Con"]/tr[1]/th/text()') 修改后:
阅读全文
摘要:XPath轴(XPath Axes)可定义某个相对于当前节点的节点集: 1、child 选取当前节点的所有子元素 2、parent 选取当前节点的父节点 3、descendant 选取当前节点的所有后代元素(子、孙等) 4、ancestor 选取当前节点的所有先辈(父、祖父等) 5、descenda
阅读全文

浙公网安备 33010602011771号