随笔档案「2019年10月」 - liubeibei123

一些常用的爬虫技巧

摘要：1、基本抓取网页 get方法 post方法 2、使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段： 3、Cookies处理 cookies是某些网站为了辨别用户身份、进行s 阅读全文

posted @ 2019-10-25 12:57 liubeibei123 阅读(438) 评论(1) 推荐(0)

爬虫简单的介绍

摘要：一，大数据时代，数据获取的方式企业产生的用户数据：大型互联网公司有海量用户，所以积累他们有数据天然优势有数据意识的中小型企业，也开始积累数据数据管理咨询公司：通畅这样的公司通常有很庞大数据采集团队，一般通常市场调研和各行各业的公司进行合作，专家对话（数据积累多年，最终得出科研成果）政府/机构阅读全文

posted @ 2019-10-18 09:10 liubeibei123 阅读(255) 评论(1) 推荐(0)

Python常用函数

摘要：Python：1. print()函数：打印字符串2. raw_input()函数：从用户键盘捕获字符3. len()函数：计算字符长度4. format(12.3654，'6.2f'/'0.3%')函数：实现格式化输出5. type()函数：查询对象的类型6. int()函数、float()函数、阅读全文

posted @ 2019-10-11 20:27 liubeibei123 阅读(248) 评论(1) 推荐(0)

liubeibei123

10 2019 档案

公告