第五次团队作业:Gitee实战

Posted on 2021-04-27 16:59  叙利亚军事战略同盟  阅读(140)  评论(1编辑  收藏  举报
这个作业属于哪个课程 <班级的链接>
这个作业要求在哪里 <作业要求的链接>
这个作业的目标 实现数据和系统交互
小组的组号和队名 15组 叙利亚军事战略同盟
小组的队长姓名 钟志凌

1、组员工作量比例表

2、Commit 截图及各组员的 commit 次数

姓名 commit 次数
钟志凌 3
许文豪 3
李程鹏 3
乐景荣 3
赖振发 3
黄玉鑫 3

3、程序运行效果截图

爬取

4、遇到的困难及解决方法

1、困难:在爬取信息的过程中,遇到了一些被加密的JS代码,让我们难以爬取。
方法:我们就需要解密。我们通过debug来找到js加密解密的代码,然后通过python重新实现。
2、困难:我们在爬取内容的时候,很可能这个内容被转载多次,因此在多个url地址上可能会是相同的内容。如果我们不加分辨就进行爬虫,毫无疑问会获得大量重复的内容。
方法:通过文章内容的几段话作为这个文章的标识符,将其存储起来。一旦再次遇到相同的标识符,那就是重复的内容,不再进行爬虫。
3、困难:如何预防爬虫的时候被封禁
方法:考虑了这个问题后我们采取的是 使得爬虫访问路径和用户访问路径一致的方法来应对封禁。

5、介绍视频链接

6、仓库链接

仓库链接

7、工作量比例表格:

成员 工作内容 贡献度
钟志凌 博客编辑、GitHub PR审核 20%
许文豪 可获取实时数据功能 20%
李程鹏 数据持久化功能、代码整合 20%
乐景荣 数据展示功能 13%
赖振发 模糊查询功能 13%
黄玉鑫 指定删除功能 13%

Copyright © 2024 叙利亚军事战略同盟
Powered by .NET 8.0 on Kubernetes