会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
未来可期~~
博客园
首页
新随笔
联系
订阅
管理
2020年1月18日
python爬虫14--Selenium动态渲染页面抓取
摘要: 1.声明浏览器对象 from selenium import webdriver browser = webdriver.Chrome() # browser = webdriver.Firefox() # browser = webdriver.Edge() 2.访问页面 from seleniu
阅读全文
posted @ 2020-01-18 09:07 未来可期~~
阅读(1000)
评论(0)
推荐(0)
2020年1月12日
python爬虫13--Ajax数据爬取
摘要: 1. Ajax介绍 Ajax,Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下,与服务器交换数据并更新部分网页的技术。 2. Ajax基本原理 发送Ajax请求
阅读全文
posted @ 2020-01-12 19:16 未来可期~~
阅读(802)
评论(0)
推荐(0)
2020年1月11日
python爬虫12--文件存储之非关系型数据库存储Redis
摘要: 1.Redis连接 启动服务: cd redis的安装路径 >redis-server.exe cd redis的安装路径 >redis-cli python中连接redis: #第一种连接 from redis import StrictRedis redis = StrictRedis(host
阅读全文
posted @ 2020-01-11 17:28 未来可期~~
阅读(245)
评论(0)
推荐(0)
python爬虫11--文件存储之非关系型数据库存储MongoDB
摘要: NoSQL,Not Only SQL,不仅仅是SQL,泛指非关系型数据库,基于键值对的,不需要经过SQL层的解析,数据之间没有耦合性,性能高。 非关系型数据库细分如下: 键值存储数据库:Redis、Voldemort、Oracle BDB; 列表存储数据库:Cassandra、HBase、Riak;
阅读全文
posted @ 2020-01-11 08:05 未来可期~~
阅读(275)
评论(0)
推荐(0)
2020年1月10日
python爬虫10--文件存储之关系型数据库存储
摘要: 关系型数据库基于关系模型,而关系模型通过二维表存储,关系型数据库有:SQLite、MySQL、Oracle、SQL Server、DB2等。 MySQL数据库存储 1.连接数据库 import pymysql #用connect()方法申明一个mysql连接对象db db = pymysql.con
阅读全文
posted @ 2020-01-10 06:51 未来可期~~
阅读(355)
评论(0)
推荐(0)
2020年1月9日
python爬虫9--文件存储之TXT,JSON,CSV
摘要: 1.TXT文件存储 #豆瓣电影TOP250首页电影信息抓取from pyquery import PyQuery as pq import requests url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozi
阅读全文
posted @ 2020-01-09 06:25 未来可期~~
阅读(319)
评论(0)
推荐(0)
2020年1月8日
python爬虫8--pyquery解析库
摘要: 1.pyquery介绍 pyquery优势,CSS选择器功能非常强大。 2.初始化解析 2.1字符串初始化 html = ''' <div id="container"> <ul class="list> <li class="li li-first" name="item"><a href="li
阅读全文
posted @ 2020-01-08 07:13 未来可期~~
阅读(199)
评论(0)
推荐(0)
pyquery安装问题
摘要: 问题: 在电脑终端安装了pyquery且能正常导入,但在pycharm中不能导入,提示没有该模块。在pycharm setting中安装出现如下错误: AttributeError: module 'pip' has no attribute 'main' 错误原因:当前pip版本中没有main()
阅读全文
posted @ 2020-01-08 05:55 未来可期~~
阅读(682)
评论(0)
推荐(0)
2020年1月7日
python爬虫7--BeautifulSoup解析库
摘要: 1. BeautifulSoup介绍 HTML或XML的解析库。支持的解析器有: python标准库:BeautifulSoup(markup."html.parser');执行速度适中,容错能力强;python2.7.3及python3.2.2之前版本容错能力差; lxml HTML解析器:Bea
阅读全文
posted @ 2020-01-07 06:49 未来可期~~
阅读(297)
评论(0)
推荐(0)
python爬虫6--lxml解析库
摘要: 1. xpath介绍 XML Path Language,即XML路径语言,可以搜索XML文档,也可以搜索HTML文档。 2. 初始化解析 2.1 解析HTML文本: from lxml import etree #导入lxml库的etree模块 html = etree.HTML('res.tex
阅读全文
posted @ 2020-01-07 05:03 未来可期~~
阅读(348)
评论(0)
推荐(0)
下一页
公告