摘要:
姓名 贡献比例(%) 加权排名 积极性排名 代码质量(1-10) 高怀章 41 1 3 7 胡胜卫 35 2 2 7 刘发 34 3 1 8 高 京东爬虫 界面框架 胡 苏宁爬虫 数据库 刘 淘宝爬虫 css 阅读全文
摘要:
开始互通数据库数据 将数据汇总到一台电脑 由于没有沟通好数据库结构存在差异 汇总显示 第一阶段基本完成 撒花 阅读全文
摘要:
京东(高)继续配置服务器 淘宝(刘) 苏宁(胡)继续进行WEB界面的设计 效果图: <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%><%@ page import="src.b 阅读全文
摘要:
苏宁(高)把成果交给 淘宝(刘) 苏宁(胡) 经过一上午奋斗淘宝(刘) 苏宁(胡)成功在自己电脑上运行web界面 京东(高)去配置服务器 淘宝(刘) 苏宁(胡)开始优化界面 尝试css各种样式 以及鼠标点击事件 离开事件等 absolute <%@ page language="java" cont 阅读全文
摘要:
苏宁(胡)决定放弃selenium 用一种新的方法进行爬取 苏宁存在商品和价格接口 https://product.suning.com/pds-web/ajax/getApiRemoteMap_" + str(shopid2) + "_shopScoreCallback.html? https:/ 阅读全文
摘要:
京东(高)存入数据库后爬虫工作基本完成 淘宝(刘)虽然完成爬虫但是 请求次数过多会被反爬虫系统发现进行滑动验证 苏宁(胡)不知是电脑原因还是selenium 的原因容易崩溃 在爬取苏宁商品两页之后 由于加载太慢 price经常加载不出来 导致商品价格爬取经常为空 随后设置等待时间30s 仍然还是显示 阅读全文
摘要:
在苏宁(胡)的呼吁下 其余两人开始进行进入selenium的学习 淘宝(刘)成果 import timefrom selenium import webdriverimport requestsimport pymysqlimport re #正则表达式def get_conn(): db = py 阅读全文
摘要:
分别按照工作分配 即 淘宝(刘) 京东(高) 苏宁(胡)开展工作 开始进展顺利 之后出现问题 淘宝 京东请求次数过多会触发反爬机制一时间陷入僵局 添加如上伪装头后解决问题 苏宁相对简单 但是一页商品120个 直接爬取html只能爬取30个 即HTML里只有30个商品信息 百度之后 发现可能是异步加载 阅读全文
摘要:
昨天我们均认为爬虫是个简单的东西 用昨天照葫芦画瓢学习的简单爬虫 分别尝试爬取了百度 樱花 bilibili主页的图片 除了樱花 爬取艰难外 其他爬取均很容易进行 主要是因为樱花的编码方式不同,直接用.text会造成乱码 在其他两人的帮助下成功解决 即使用decode() encode()进行编码转 阅读全文
摘要:
查阅资料 爬虫的编写需要python环境 So we 配置python环境at night together . 然后主要根据B站视频进行相关爬虫的学习 三人进度相同 用以上代码完成了对B站相关电影网址的爬取 三人配置环境用时相同 最简单的爬取耗时均为1小时 故工作时间均为1.5h 阅读全文