King_James23

2020年11月25日

摘要：写在前面这么快就到最后一次作业了，我不应该就此放下心爱的 bs4 re selenium 和不心爱的 scrapy，后面我想应该得重拾为了帮好朋友爬网易云做词云而去学 selenium 的学习热情继续加深爬虫技能吧！学习历程主要就是作业的三大部分：从 bs4 + re > scrapy + xp 阅读全文

posted @ 2020-11-25 23:15 King_James23 阅读(264) 评论(0) 推荐(0)

2020年11月12日

数据采集与融合第五次个人作业

摘要：写在前面这次的作业是比较有挑战性而且比较实用的，mooc 的那次作业很考验对 selenium 一些操作的熟悉程度，有很多坑要自己走过才会知道。但是打完这些项目之后会发现 selenium 这种自动化测试工具是永远的神。一个月前：bs4 + re 不香吗，xpath 什么玩意... 现在：sele 阅读全文

posted @ 2020-11-12 14:37 King_James23 阅读(212) 评论(0) 推荐(0)

2020年10月28日

数据采集与融合第四次个人作业

摘要：写在前面由于电脑内存不太够所以用之前下载好的 SQL SERVER 而不用 MYSQL ，如果使用 MYSQL 需要安装的第三方库是 pymysql,而 SQL SERVER 则是 pymssql，二者使用方法大同小异，现在进入正题。作业一就先理解一哈源代码，发现还是熟悉的创造 Field ，阅读全文

posted @ 2020-10-28 11:12 King_James23 阅读(264) 评论(0) 推荐(0)

2020年10月15日

数据采集与融合第三次个人作业

摘要：写在前面本次作业是关于多线程对于爬虫的运用以及采用 scrapy 框架来编写爬虫，先写个小插曲。之前做软工作业的时候发现 python 的多线程是个鸡肋，因为在加了 GIL 锁的 python，多线程和单线程几乎无差别，甚至多线程可能更慢。但是周三用多线程测试之后颠覆了我的观点，搜完之后就摒弃对阅读全文

posted @ 2020-10-15 21:45 King_James23 阅读(249) 评论(0) 推荐(0)

2020年10月2日

数据采集与融合第二次个人作业

摘要：第一题作业思路：步骤一：看懂网页源码步骤二：用 css 语法把需要的数据提出来步骤三：存入数据库运行结果：相关代码： from bs4 import BeautifulSoup import urllib import requests import sqlite3 from bs4 i 阅读全文

posted @ 2020-10-02 15:20 King_James23 阅读(338) 评论(0) 推荐(1)

2020年9月28日

数据采集与融合第一次~第三次作业

摘要：第一次作业作业分析第一次作业是爬取大学的排名，依旧是老办法打开 F12，那么可以发现每个大学信息和排名的位置都位于 td 标签内，再寻找一下他们的父标签是 tbody ，那么思路很清晰直接调用 bs4 库配上属性值找到包含大学排名信息的 tbody 标签，调用 children 方法并且在子标签阅读全文

posted @ 2020-09-28 09:31 King_James23 阅读(206) 评论(0) 推荐(0)

公告