摘要: 最近想了解一下在线教育的课程的如何去选择,课程的质量如何?所以试着去爬了一下腾讯课堂,只爬了IT互联网这一项。 通过分析发现要想爬取到评论需要是个步骤: 1. 解析学习方向,如下图所示: 通过开发者工具审查元素,发现标签在 · _pattern表示解析href的正则表达式 def get_menu_ 阅读全文
posted @ 2018-12-08 13:03 星辰之海 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 在写爬虫的时候总是遇到一些以图片的形式展示的信息,因此要怎么解析图片上的信息呢?在Google上查了一下,需要安装pytesseract和pillow(我用的python3.7)和Tesseract-OCR 1. 安装pytesseract pip insatll pytesseract 2. 安装 阅读全文
posted @ 2018-09-08 23:39 星辰之海 阅读(1088) 评论(0) 推荐(0) 编辑
摘要: 最近学习了一下python的多进程和多线程,于是就想到使用进程去现实一个爬虫。通过比较实用多进程比使用普通函数的效率更高,节省了大量的时间。话不多说,看下面的代码,希望对各位有所帮助。 下面是使用多进程和普通函数分别爬取图片的结果 多进程 普通函数 读者可以去试着运行一下,虽然这一段程序在使用多进程 阅读全文
posted @ 2018-08-05 20:04 星辰之海 阅读(910) 评论(0) 推荐(0) 编辑
摘要: 如何解决vue-resource中出现的Failed to load http://localhost:8000/index: Request header field content-type is not allowed by Access-Control-Allow-Headers in pr 阅读全文
posted @ 2018-06-09 00:56 星辰之海 阅读(196) 评论(0) 推荐(0) 编辑