10 2019 档案

摘要:1、基本抓取网页 get方法 post方法 2、使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页, 如下代码片段: 3、Cookies处理 cookies是某些网站为了辨别用户身份、进行s 阅读全文
posted @ 2019-10-25 12:57 liubeibei123 阅读(438) 评论(1) 推荐(0)
摘要:一,大数据时代,数据获取的方式 企业产生的用户数据:大型互联网公司有海量用户,所以积累他们有数据天然优势 有数据意识的中小型企业,也开始积累数据 数据管理咨询公司:通畅这样的公司通常有很庞大数据采集团队,一般通常市场调研和各行各业的公司进行合作,专家对话(数据积累多年,最终得出科研成果) 政府/机构 阅读全文
posted @ 2019-10-18 09:10 liubeibei123 阅读(255) 评论(1) 推荐(0)
摘要:Python:1. print()函数:打印字符串2. raw_input()函数:从用户键盘捕获字符3. len()函数:计算字符长度4. format(12.3654,'6.2f'/'0.3%')函数:实现格式化输出5. type()函数:查询对象的类型6. int()函数、float()函数、 阅读全文
posted @ 2019-10-11 20:27 liubeibei123 阅读(248) 评论(1) 推荐(0)