随笔分类 - python
摘要:说明: 1.清晰度的选择要登录,暂时还没做,目前下载的视频清晰度都是默认的480P 2.进度条仿linux的,参考了一些博客修改了下,侵删 3.其他评论,弹幕之类的相关爬虫代码放在了https://github.com/teleJa/bilibili 4.判断sys.argv那个地方是因为一些爬虫调
阅读全文
摘要:栈: 队列: 双向队列: 队列的头尾选择与list的头尾对应关系应根据实际需要,如入队的频率高(在队尾添加元素),则队列的的尾就是list的尾,因为append的的复杂度为O(1),反之出队的频率高(从队头删除一个元素),则队列的头部为list的尾部,pop的复杂度为O(1)
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/23 下午 6:54 4 # 单向循环列表 5 # 单向循环列表与单向列表的不同之处在于最后一个元素的next为头节点 6 class SingleCycleNode: 7 def __init__(self, data, next...
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/23 下午 3:19 4 # 双向链表的实现 5 # 双向链表的每个节点包含三个部分:上一个节点的链接区,数据区,下一个节点的链接区 6 # 通过双向链表中的任意节点都能访问全部节点 7 class DoubleNode: 8 ...
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/22 下午 3:17 4 # 单向链表的实现 5 # 每个节点包含两部分,数据区和指向下个节点的链接 6 # 单向列表:每个节点包含两部分:数据区与链接区(指向下一个节点),最后一个元素的链接区为None 7 # 单向列表只要找到头节点,就...
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/18 下午 3:53 4 # 深拷贝与浅拷贝 5 import copy 6 7 # 浅拷贝只拷贝一层(对于内部元素只是拷贝引用),创建新的对象 8 a = [1, 2, 11] 9 b = copy.copy(a) 10 print(id(a) ...
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/14 下午 3:48 4 # 多线程版 5 import time 6 import requests 7 import os 8 import json 9 from f
阅读全文
摘要:毕设需要大量的商品评论,网上找的数据比较旧了,自己动手 代理池用的proxypool,github:https://github.com/jhao104/proxy_pool ua:fake_useragent 1 # 评价较多的店铺(苏宁推荐) 2 https://tuijian.suning.c
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/09 下午 4:50 4 # 爬取弹幕 5 import requests 6 import json 7 import os 8 from lxml import etree 9 10 11 def main(): 12 headers...
阅读全文
摘要:抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的data中含有页数相关信息,可以据此定义爬取的页面数量 可以看到番剧少了新番时间表与番剧索引,因为这两个请
阅读全文
摘要:版本一:使用shutil进行拷贝 这样做仍然有些小问题,对于大文件可以在进程内部采用多线程的方式,可以看到使用shutil进行拷贝时我们没有办法实现字节切割,于是有了下面的版本二 版本二:
阅读全文
摘要:url为https://36kr.com/newsflashes,抓包后发现第一次的新闻内容就是包含在<script>var props={}></script>标签中,具体的是在props中的key为newsflashList|newsflash的列表中紧着我又让页面多加载了一些,发现此时请求地址
阅读全文
摘要:pc版大概有500条记录,mobile大概是50部,只有热门的,所以少一点 url构造很简单,主要参数就是page_limit与page_start,每翻一页,start+=20即可,tag是"美剧"编码后的结果,直接带着也可以,用unquote解码也可以,注意headers中一定要带上refer
阅读全文
摘要:1 import os 2 3 4 # 遍历文件夹 5 def walkFile(file): 6 for root, dirs, files in os.walk(file): 7 8 # root 表示当前正在访问的文件夹路径 9 # dirs 表示该文件夹下的子目录名list 10 # fil
阅读全文
摘要:1 # 常用的文件管理操作 2 # https://www.cnblogs.com/dkblog/archive/2011/03/25/1995537.html 3 import os 4 import shutil 5 6 # 切换工作目录,默认是在当前目录下 7 # os.chdir("xx") 8 9 # 当前的工作目录 D:\pythonworkspace\py_...
阅读全文
摘要:1 import requests 2 3 headers = { 4 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" 5 } 6 7 proxies = {...
阅读全文
摘要:1 # tuple中的元素无法修改(但如果元素是列表则可以修改) 2 3 # 创建空tuple 4 5 tuple_empty = () 6 7 # 创建只含有一个元素的tuple 8 tuple_first = ("ok",) 9 10 11 # 获取tuple中的值 12 tuple_first = ("ok", 123, "hello") 13 print(tu...
阅读全文

浙公网安备 33010602011771号