| 这个作业属于哪个课程 | <班级的链接> |
|---|---|
| 这个作业要求在哪里 | <作业要求的链接> |
| 这个作业的目标 | 实现数据和系统交互 |
| 小组的组号和队名 | 15组 叙利亚军事战略同盟 |
| 小组的队长姓名 | 钟志凌 |
1、组员工作量比例表

2、Commit 截图及各组员的 commit 次数

| 姓名 | commit 次数 |
|---|---|
| 钟志凌 | 3 |
| 许文豪 | 3 |
| 李程鹏 | 3 |
| 乐景荣 | 3 |
| 赖振发 | 3 |
| 黄玉鑫 | 3 |
3、程序运行效果截图
爬取
4、遇到的困难及解决方法
1、困难:在爬取信息的过程中,遇到了一些被加密的JS代码,让我们难以爬取。
方法:我们就需要解密。我们通过debug来找到js加密解密的代码,然后通过python重新实现。
2、困难:我们在爬取内容的时候,很可能这个内容被转载多次,因此在多个url地址上可能会是相同的内容。如果我们不加分辨就进行爬虫,毫无疑问会获得大量重复的内容。
方法:通过文章内容的几段话作为这个文章的标识符,将其存储起来。一旦再次遇到相同的标识符,那就是重复的内容,不再进行爬虫。
3、困难:如何预防爬虫的时候被封禁
方法:考虑了这个问题后我们采取的是 使得爬虫访问路径和用户访问路径一致的方法来应对封禁。
5、介绍视频链接
6、仓库链接
7、工作量比例表格:
| 成员 | 工作内容 | 贡献度 |
|---|---|---|
| 钟志凌 | 博客编辑、GitHub PR审核 | 20% |
| 许文豪 | 可获取实时数据功能 | 20% |
| 李程鹏 | 数据持久化功能、代码整合 | 20% |
| 乐景荣 | 数据展示功能 | 13% |
| 赖振发 | 模糊查询功能 | 13% |
| 黄玉鑫 | 指定删除功能 | 13% |
浙公网安备 33010602011771号