摘要:
1、问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2、思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) __init__(self)初始化函数 · hearders用到了fake_useragent库,用 阅读全文
posted @ 2018-11-09 11:37
喜喜睡吧
阅读(1650)
评论(1)
推荐(0)
摘要:
爬虫中主要用来解决Javascript渲染问题 1.声明浏览器对象: 2.访问页面: browser.get(url) 3.查找元素: 4.元素交互操作 5.执行javascript:excute_script() 6.获取元素信息: 阅读全文
posted @ 2018-11-09 10:59
喜喜睡吧
阅读(161)
评论(0)
推荐(0)
摘要:
1. 字符串初始化: 2. URL初始化: 3. 文件初始化: 4. CSS选择器(id前加 ,class前加.): 1.查找元素:find() 返回所有元素 2.遍历元素:items() 5. DOM操作: 1.addclass、removeclass 2.attr 增加name属性 3.css 阅读全文
posted @ 2018-11-09 10:04
喜喜睡吧
阅读(149)
评论(0)
推荐(0)
摘要:
1.BeautifulSoup支持的解析器: python标准库:BeautifulSoup(markup, "html.parser") 执行速度适中,文档容错能力强 lxml HTML解析器:BeautifulSoup(markup, "lxml") 执行速度适快,文档容错能力强 lxml XM 阅读全文
posted @ 2018-11-09 09:52
喜喜睡吧
阅读(184)
评论(0)
推荐(0)