上一页 1 2 3 4 5 6 ··· 13 下一页
摘要: #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on Tue Jun 12 09:37:38 2018 利用百度api实现图片文本识别 @author: XnCSD """ import glob from os import p 阅读全文
posted @ 2020-12-13 15:18 凹凸曼大人 阅读(606) 评论(2) 推荐(0) 编辑
摘要: 首先我是为了把这56w左右的数据清洗 变成这样: 从一个txt清洗,写到另一个txt中。 原本是几千条数据 ,一直用的普通的,速度还挺快,今天想清洗这56w数据,就想到了多线程 。 第一种方法: def huoqu(file): ts_queue = Queue(10000) with open(f 阅读全文
posted @ 2020-12-13 15:13 凹凸曼大人 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 例子: yield { 'IP': '', 'port': '', 'imgname': b, 'imgurl': links,} 我是为了爬取图片,就把另两个item为空,并且在pipelines 中设置: def process_item(self, item, spider): if item 阅读全文
posted @ 2020-12-12 22:15 凹凸曼大人 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 原因爬取某站: 则么试都没问题,代码提取没问题。 IP = response.xpath('//*[@class="mimvp-tbl free-proxylist-tbl"]/tbody/tr/td[2]//text()').extract() port = response.xpath('//* 阅读全文
posted @ 2020-12-12 22:03 凹凸曼大人 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 写法: scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0" https://www.zhihu.com/question/2859084 阅读全文
posted @ 2020-12-09 21:33 凹凸曼大人 阅读(104) 评论(0) 推荐(0) 编辑
摘要: import re pattern = re.compile(ur'(\d|[1-9]\d|1\d{2}|2[0-4]\d|25[0-5])\.(\d|[1-9]\d|1\d{2}|2[0-4]\d|25[0-5])\.(\d|[1-9]\d|1\d{2}|2[0-4]\d|25[0-5])\.(\ 阅读全文
posted @ 2020-12-09 19:36 凹凸曼大人 阅读(2957) 评论(0) 推荐(0) 编辑
摘要: import os from queue import Queue import threading import datetime def read_directory(directory_name): wenjian=[] ts_queue = Queue(10000) for filename 阅读全文
posted @ 2020-12-08 16:20 凹凸曼大人 阅读(666) 评论(0) 推荐(0) 编辑
摘要: import os wenjian = input("请输入文件名:") mingcheng = input ("请输入合并后Mp4名称:") t= r'start /d "D:\Study\pythonProject\Python_down_m3u8\xiazaiqi\%s" ffmpeg -f 阅读全文
posted @ 2020-12-08 16:17 凹凸曼大人 阅读(267) 评论(0) 推荐(0) 编辑
摘要: import requests from fake_useragent import UserAgent import re from queue import Queue import threading import datetime class xiazai(): def __init__(s 阅读全文
posted @ 2020-12-08 16:16 凹凸曼大人 阅读(244) 评论(0) 推荐(0) 编辑
摘要: #多线程赋值用字典格式 试下第二种方法 顺便把for循环 用正则表达 看能不能快点 #适应两种 m3u8 读取的格式 import requests import os import datetime import threading import re from queue import Queu 阅读全文
posted @ 2020-12-08 16:14 凹凸曼大人 阅读(228) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 13 下一页