会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
攻城狮之家
犀利的工程狮
博客园
首页
新随笔
联系
管理
订阅
11 2018 档案
10-正则
摘要:什么是正则表达式?正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符串及这些特定字符的组合,组成一个‘规则字符串’,这个‘规则字符串’用来表达对字符串的一种过滤逻辑。 http://tool.oschina.net/regex/ 开源中国在线正则表达式测试 模式 描述\w 匹配字
阅读全文
posted @
2018-11-14 10:58
犀利的攻城狮
阅读(132)
评论(0)
推荐(0)
09 Requests
摘要:pip3 install requests 验证完成安装 命令行下 import requests 无报错信息即安装成功 一般常用的测试网页为 http://httpbin.org/get get请求 带参数的get请求 解析json 获取二进制数据 <class 'str'> <class 'by
阅读全文
posted @
2018-11-08 16:10
犀利的攻城狮
阅读(124)
评论(0)
推荐(0)
08-urllib
摘要:'''安装后在命令行直接输入jupyter notebook 按B键可以增加一个命令行 ctrl+enter 运行 标题模式 markdowm'''
阅读全文
posted @
2018-11-07 16:24
犀利的攻城狮
阅读(89)
评论(0)
推荐(0)
07、爬虫基本原理
摘要:chrome 检查元素 Elements 网页源代码 基本流程 1、发起请求,通过HTTP库想目标站点发起请求,即发送一个request。 2、获取响应内容,如果服务器能正常响应,会得到一个response,response的内容便是所有获取的页面内容,类型可能有html,json字符串,二进制数据
阅读全文
posted @
2018-11-02 11:09
犀利的攻城狮
阅读(226)
评论(0)
推荐(0)
Python爬虫
摘要:1、先安装requests库 pip install requests 2、安装selenium库 pip ..配置浏览器驱动文件 http://npm.taobao.org/mirrors/chromedriver/ 选择对应 浏览器版本的驱动 将驱动放入python路径下 scra 启动浏览器
阅读全文
posted @
2018-11-01 12:21
犀利的攻城狮
阅读(270)
评论(0)
推荐(0)
公告