这个作业属于哪个课程 |
<班级的链接> |
这个作业要求在哪里 |
<作业要求的链接> |
这个作业的目标 |
实现数据和系统交互 |
小组的组号和队名 |
15组 叙利亚军事战略同盟 |
小组的队长姓名 |
钟志凌 |
|
|
1、组员工作量比例表
2、Commit 截图及各组员的 commit 次数
姓名 |
commit 次数 |
钟志凌 |
3 |
许文豪 |
3 |
李程鹏 |
3 |
乐景荣 |
3 |
赖振发 |
3 |
黄玉鑫 |
3 |
3、程序运行效果截图
爬取
4、遇到的困难及解决方法
1、困难:在爬取信息的过程中,遇到了一些被加密的JS代码,让我们难以爬取。
方法:我们就需要解密。我们通过debug来找到js加密解密的代码,然后通过python重新实现。
2、困难:我们在爬取内容的时候,很可能这个内容被转载多次,因此在多个url地址上可能会是相同的内容。如果我们不加分辨就进行爬虫,毫无疑问会获得大量重复的内容。
方法:通过文章内容的几段话作为这个文章的标识符,将其存储起来。一旦再次遇到相同的标识符,那就是重复的内容,不再进行爬虫。
3、困难:如何预防爬虫的时候被封禁
方法:考虑了这个问题后我们采取的是 使得爬虫访问路径和用户访问路径一致的方法来应对封禁。
5、介绍视频链接
6、仓库链接
仓库链接
7、工作量比例表格:
成员 |
工作内容 |
贡献度 |
钟志凌 |
博客编辑、GitHub PR审核 |
20% |
许文豪 |
可获取实时数据功能 |
20% |
李程鹏 |
数据持久化功能、代码整合 |
20% |
乐景荣 |
数据展示功能 |
13% |
赖振发 |
模糊查询功能 |
13% |
黄玉鑫 |
指定删除功能 |
13% |