摘要:
1:先查看豆瓣的官网 2:按f12进行解析,分析 3::实现对豆瓣top250的影片信息爬取 4: 建立Mongodb连接,用于数据保存 5:抓取top250电影的上映时间、国家、评分、类型、评价人数 def get_movie_list(url,headers): # 实例化soup对象, 便于处 阅读全文
摘要:
1:首先,开始分析天天基金网的一些数据。经过抓包分析,可知: ./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败的情况。 2:同时,经过分析可知某只基金的相关信息地址为:fundgz.1234567.com.cn/js/ + 基金代码 + .js 阅读全文
摘要:
clear_data.py #!/usr/bin/env python # -*- coding: utf-8 -*- import requests from docx import Document from docx.shared import Inches,Pt from docx.oxml 阅读全文
摘要:
1 导入相应的库 2 爬取网站url: http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b1 3 找到爬取的内容 4 具体的代码实现 import requestsfrom bs4 import BeautifulSoupurl = 'http:// 阅读全文