2020年7月26日
摘要: 1:先查看豆瓣的官网 2:按f12进行解析,分析 3::实现对豆瓣top250的影片信息爬取 4: 建立Mongodb连接,用于数据保存 5:抓取top250电影的上映时间、国家、评分、类型、评价人数 def get_movie_list(url,headers): # 实例化soup对象, 便于处 阅读全文
posted @ 2020-07-26 14:01 .Stewart 阅读(347) 评论(0) 推荐(0) 编辑
  2020年4月21日
摘要: 1:首先,开始分析天天基金网的一些数据。经过抓包分析,可知: ./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败的情况。 2:同时,经过分析可知某只基金的相关信息地址为:fundgz.1234567.com.cn/js/ + 基金代码 + .js 阅读全文
posted @ 2020-04-21 22:08 .Stewart 阅读(3637) 评论(1) 推荐(1) 编辑
  2020年4月20日
摘要: clear_data.py #!/usr/bin/env python # -*- coding: utf-8 -*- import requests from docx import Document from docx.shared import Inches,Pt from docx.oxml 阅读全文
posted @ 2020-04-20 17:27 .Stewart 阅读(764) 评论(0) 推荐(0) 编辑
  2020年3月18日
摘要: 1 导入相应的库 2 爬取网站url: http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b1 3 找到爬取的内容 4 具体的代码实现 import requestsfrom bs4 import BeautifulSoupurl = 'http:// 阅读全文
posted @ 2020-03-18 23:18 .Stewart 阅读(571) 评论(0) 推荐(0) 编辑