spider - 随笔分类 - tele

python 下载bilibili视频

摘要：说明: 1.清晰度的选择要登录,暂时还没做,目前下载的视频清晰度都是默认的480P 2.进度条仿linux的,参考了一些博客修改了下,侵删 3.其他评论,弹幕之类的相关爬虫代码放在了https://github.com/teleJa/bilibili 4.判断sys.argv那个地方是因为一些爬虫调阅读全文

posted @ 2019-07-18 16:48 tele 阅读(3392) 评论(0) 推荐(0)

毕设二:python 爬取京东的商品评论

摘要：1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/14 下午 3:48 4 # 多线程版 5 import time 6 import requests 7 import os 8 import json 9 from f 阅读全文

posted @ 2019-04-16 20:53 tele 阅读(2346) 评论(0) 推荐(0)

毕设一:python 爬取苏宁的商品评论

摘要：毕设需要大量的商品评论,网上找的数据比较旧了,自己动手代理池用的proxypool,github:https://github.com/jhao104/proxy_pool ua:fake_useragent 1 # 评价较多的店铺(苏宁推荐) 2 https://tuijian.suning.c 阅读全文

posted @ 2019-04-16 20:47 tele 阅读(1654) 评论(0) 推荐(0)

python 爬取bilibili 视频弹幕

摘要：1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/09 下午 4:50 4 # 爬取弹幕 5 import requests 6 import json 7 import os 8 from lxml import etree 9 10 11 def main(): 12 headers... 阅读全文

posted @ 2019-04-09 20:42 tele 阅读(1495) 评论(0) 推荐(0)

python 爬取bilibili 视频信息

摘要：抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的data中含有页数相关信息,可以据此定义爬取的页面数量可以看到番剧少了新番时间表与番剧索引,因为这两个请阅读全文

posted @ 2019-04-08 21:51 tele 阅读(4343) 评论(0) 推荐(0)

python 爬取36kr 7x24h快讯

摘要：url为https://36kr.com/newsflashes,抓包后发现第一次的新闻内容就是包含在<script>var props={}></script>标签中,具体的是在props中的key为newsflashList|newsflash的列表中紧着我又让页面多加载了一些,发现此时请求地址阅读全文

posted @ 2019-03-24 17:30 tele 阅读(1006) 评论(0) 推荐(0)

python 爬取豆瓣的美剧/url解码

摘要：pc版大概有500条记录,mobile大概是50部,只有热门的,所以少一点 url构造很简单,主要参数就是page_limit与page_start,每翻一页,start+=20即可,tag是"美剧"编码后的结果,直接带着也可以,用unquote解码也可以,注意headers中一定要带上refer 阅读全文

posted @ 2019-03-20 21:00 tele 阅读(720) 评论(0) 推荐(0)

python request 代理/超时/证书

摘要：1 import requests 2 3 headers = { 4 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" 5 } 6 7 proxies = {... 阅读全文

posted @ 2019-03-14 21:36 tele 阅读(699) 评论(0) 推荐(0)

python request post

摘要：没法实现较长的词汇翻译,大概只能4个单词,超过就请求失败阅读全文

posted @ 2019-03-14 21:20 tele 阅读(1411) 评论(0) 推荐(0)

python request爬取百度贴吧

摘要：1 import requests 2 import os 3 import shutil 4 import time 5 6 7 class PostBarSpider(object): 8 def __init__(self, post_bar, page_number, file_dir): 9 # 爬取某个贴吧前多少页内容 10 ... 阅读全文

posted @ 2019-03-14 21:13 tele 阅读(602) 评论(0) 推荐(0)

selenium 爬取空间说说

摘要：比爬取相册简单点,唯一有点弯的是页码的构造了,我写的这个只支持获取文字,可以用来生成词云阅读全文

posted @ 2018-09-23 20:32 tele 阅读(433) 评论(0) 推荐(0)

webcollector + selenium 爬取空间相册图片

摘要：运行环境与上篇博文相同https://www.cnblogs.com/tele-share/p/9595265.html爬取结果阅读全文

posted @ 2018-09-08 22:01 tele 阅读(1125) 评论(0) 推荐(0)

selenium firefox 提取qq空间相册链接

摘要：环境: selenium-java 3.9.1 firefox 57.0 geckodriver 0.19.1 1.大概的思路就是模拟用户点击行为,关于滚动条的问题,我是模拟下拉箭头,否则只能每个相册只能爬到30个链接 2.多开标签页的原因是因为爬取多个相册时,当你爬完第一个相册无论采取什么方式总会阅读全文

posted @ 2018-09-05 22:16 tele 阅读(714) 评论(0) 推荐(0)

selenium + firefox登录空间

摘要：在网上看到的大部分都是Python版本的,于是写了个java版本的环境: selenium-java 3.9.1 firefox 57.0 geckodriver 0.19.1 firefox与geckodriver下载地址请参考https://blog.csdn.net/cyjs1988/art 阅读全文

posted @ 2018-09-04 09:19 tele 阅读(545) 评论(0) 推荐(0)

webcollector 2.x 爬取搜狗搜索结果页

摘要：输出截图(部分) 验证第二页数据标题阅读全文

posted @ 2018-08-13 11:12 tele 阅读(867) 评论(0) 推荐(0)

httpclient htmlunit下载单个文件

摘要：httpclient htmlunit 阅读全文

posted @ 2018-08-12 09:53 tele 阅读(1457) 评论(0) 推荐(0)

htmlunit 模拟登录无验证码

摘要：1.模拟登录csdn,最开始的时候使用的是httpclient,网上的所有模拟登录csdn的版本都是找到lt/execution/event_id.连同用户名及密码一起发送即可,但是目前的csdn的登录参数可不止这三个,fkid怎么解决?我抓包时发现fkid是登录时其value才被赋值,奈何找了半阅读全文

posted @ 2018-08-08 20:11 tele 阅读(623) 评论(0) 推荐(0)

htmlunit 模拟登录数字验证码

摘要：使用htmlunit的好处有两点,相比httpclient,htmlunit是对浏览器的模拟,比如你定位一个按钮,就可以执行click()方法,此外不需要象在httpclient中一样编写复杂的代码,如一堆request header还有一大堆请求参数,你只需要填写用户名,密码,验证码即可,就象在使阅读全文

posted @ 2018-08-08 19:01 tele 阅读(2360) 评论(0) 推荐(0)

maven webcollector java.lang.ClassNotFoundException: org.openqa.selenium.remote.SessionNotFoundException

摘要：使用webcollector时出现了如下异常分析是依赖的问题,不仅要添加selenium-java,还要添加htmlunit-driver的依赖,注意不要添加成selenium-htmlunit-driver 添加htmlunit-driver后,异常解决阅读全文

posted @ 2018-08-05 17:22 tele 阅读(2303) 评论(0) 推荐(0)

code never lies

随笔分类 - spider

公告