随笔分类 -  Python

Python_pandas包中Series&DataFrame的基本使用
摘要:Pandas 是python用于数据处理的拓展包 1. series系列:比列表多了索引的概念 1.2 列表可以转换成series,如下所示: 1.3 在创建series的时候,也可以自己添加索引的值: 1.4 使用字典来创建series: 1.5. 可以像对待一个list一样对待一个Series, 阅读全文

posted @ 2018-09-05 18:31 你是不夜星空 阅读(4533) 评论(0) 推荐(0)

Python 爬虫_Request+正则表达式爬取猫眼电影Top100
摘要:流程框架: 1. 抓取但也网页内容 2. 正则表达式分析 3. 开启循环及多线程 4. 保存至文件 代码如下: 阅读全文

posted @ 2018-09-03 20:18 你是不夜星空 阅读(238) 评论(0) 推荐(0)

python 爬虫_Selenium详细用法
摘要:Selenium 自动化测试工具,支持多种浏览器,在爬虫中主要解决JS的渲染问题 1.基本使用 2.查找方式 单个元素: 多个元素: browser.find_element(By.ID,'q') 3. 元素交互操作: https://selenium-python-zh.readthedocs.i 阅读全文

posted @ 2018-09-03 13:26 你是不夜星空 阅读(284) 评论(0) 推荐(0)

python 爬虫_BeautifulSoup详细用法
摘要:BeautifulSoup 中文文档: https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html;https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/# 网页解析库, 阅读全文

posted @ 2018-09-03 13:20 你是不夜星空 阅读(241) 评论(0) 推荐(0)

python 爬虫_PyQuery详细用法
摘要:总结:语法和JQuery一样 1. 初始化 2. 基本的CSS选择器 3. DOM操作 4. PyQuery 中文文档: http://www.pyspider.cn/book/pyspider/response-17.html 阅读全文

posted @ 2018-09-03 13:17 你是不夜星空 阅读(190) 评论(0) 推荐(0)

Python 爬虫_正则表达式
摘要:用来对字符串操作的一种逻辑方式, 对字符串的一种过滤逻辑。 表达式全集: http://tool.oschina.net/uploads/apidocs/jquery/regexp.html 1. 2. 匹配目标: 3. 贪婪匹配: 4. 转义: 特殊字符需要转义 5. re.search: 扫描字 阅读全文

posted @ 2018-09-03 11:02 你是不夜星空 阅读(209) 评论(0) 推荐(0)

Python 爬虫_Urllib库的详解
摘要:Urllib库的详解1. Urllib是python内置的HTTP请求库 包含4个模块: urllib.request(请求模块); urllib.error(异常处理模块); urllib.parse(url解析模块); urllib.robotparse(robots.text解析模块) @ur 阅读全文

posted @ 2018-08-24 17:34 你是不夜星空 阅读(202) 评论(0) 推荐(0)

导航