上一页 1 2 3 4 5 6 7 ··· 13 下一页
摘要: 08 阅读全文
posted @ 2020-02-08 19:00 Abandoned_Software 阅读(68) 评论(0) 推荐(0)
摘要: 学习了Idea中git和github配置与使用,了解了版本控制的作用和重要性。 阅读全文
posted @ 2020-02-07 22:09 Abandoned_Software 阅读(80) 评论(0) 推荐(0)
摘要: 终于找到原因了 IndexError: list index out of range 因为我的正则表达式的图片查找的类型只有jpg,其实还有gif和png等 阅读全文
posted @ 2020-02-06 18:36 Abandoned_Software 阅读(69) 评论(0) 推荐(0)
摘要: 今天下雪了,是个看《白色相簿2》的好日子。 昨天我们获取所有长评url,今天要解析这些url获取更多的信息随便,点开一个,我们需要的数据有标题,时间,内容。点赞数和评论先不弄了。 解析json的时候用的正则表达式,这次就用xpath吧。 代码: from lxml import html impor 阅读全文
posted @ 2020-02-05 18:07 Abandoned_Software 阅读(177) 评论(0) 推荐(0)
摘要: 学习了python写入csv文件自己想了一个小实战,爬取billbill《白色相簿》番剧的长评 网页是动态变化的,往下拉他才会更新出长评,找出关键链接https://api.bilibili.com/pgc/review/long/list?media_id=3516&ps=20&sort=0&cu 阅读全文
posted @ 2020-02-04 18:43 Abandoned_Software 阅读(526) 评论(0) 推荐(0)
摘要: 1.urllib库中request,parse的学习 1.1 简单的请求页面获取,并下载到本地 request的使用 from urllib import request # 获取此网页的demout resp = request.urlopen('http://www.baidu.com') # 阅读全文
posted @ 2020-02-04 00:21 Abandoned_Software 阅读(323) 评论(0) 推荐(0)
摘要: import re import requests def parse_page(url): headers = { 'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) 阅读全文
posted @ 2020-02-03 18:26 Abandoned_Software 阅读(122) 评论(0) 推荐(0)
摘要: # 匹配一个字符 import re # re match函数 text = "ss555" # 匹配ss字符串 ret = re.match('ss', text) print(ret.group()) # .匹配一个字符 .不能匹配换行符 ret = re.match('.', text) pr 阅读全文
posted @ 2020-02-02 19:09 Abandoned_Software 阅读(106) 评论(0) 推荐(0)
摘要: import requests from lxml import html etree = html.etree # 请求头 网站url url = 'https://movie.douban.com/cinema/nowplaying/langfang/' headers = { 'User-Ag 阅读全文
posted @ 2020-02-02 18:10 Abandoned_Software 阅读(110) 评论(0) 推荐(0)
摘要: 用了免费的代理服务器ip来爬虫,然后我电脑多出来了好多垃圾软件,然后我就用我买的服务器做代理服务器来爬b站的短评。 b站的全是get请求 学习了xpath插件的使用和lxml库的使用 阅读全文
posted @ 2020-02-01 13:11 Abandoned_Software 阅读(141) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 13 下一页