requests结合xpath爬取豆瓣最新上映电影
摘要:```python # -*- coding: utf-8 -*- """ 豆瓣最新上映电影爬取 # ul = etree.tostring(ul, encoding="utf-8").decode("utf-8") """ import requests from lxml import etree #1.抓取目标网站页面 def getHtml(url): headers = { 'User-
阅读全文
posted @
2019-12-19 13:20
行之间
阅读(426)
推荐(0)
使用xpath提取页面所有a标签的href属性值
摘要:```python # -*- coding: utf-8 -*- #1.选取节点 #获取所有的div元素 //div #/代表获取根节点的直接子元素 #获取所有带有id属性的div //div[@id] #2.谓词(索引从1开始) #获取body下面的第一个/最后一个div元素/前两个 //body/div[1] //body/div[last()] //body/div[position<3]
阅读全文
posted @
2019-12-18 22:36
行之间
阅读(38519)
推荐(2)
网页提取所有邮箱
摘要:```python import re from urllib import request # 挖掘邮箱 def getEmailsByLine(url): """按行提取邮箱""" emailregex = re.compile(r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)", re.IGNORECASE)#忽略异常情况和大小写 for
阅读全文
posted @
2019-12-15 21:38
行之间
阅读(750)
推荐(0)
正则表达式
摘要:```python #正则表示次数 """ *匹配前一个字符0次或无限次 +匹配前一个字符1次或无限次 ?匹配前一个字符0次或1次 {n}匹配前一个字符n次 {m,n}匹配前一个字符m-n次 """ """ [abcd]abcd中娶一个,第一个字符在abcd之间 [^abcd]第一个字符不是abcd []代表一个字符 正则切割\\s+代表空格出现一次或多次 """ """ .匹配除了\n之外的所有
阅读全文
posted @
2019-12-15 16:49
行之间
阅读(260)
推荐(0)
提取包含QQ的文本为QQ邮箱
摘要:```python # -*- coding: utf-8 -*- """ Created on Sun Dec 15 14:08:03 2019 @author: Dell 提取包含QQ号的文本为QQ邮箱,并保存到文件 """ import re import tkinter qqstr = "请在这里粘贴需要提取的包含QQ号的文本" baklist = None def extract():
阅读全文
posted @
2019-12-15 15:40
行之间
阅读(292)
推荐(0)
python继承小demo
摘要:```python # -*- coding: utf-8 -*- """ 继承的意义:实现代码重用,数据函数都可以重用 子类覆盖,子类与父类同名 选择性继承 super().__init__()可以减少重复构造,节约资源 """ class Wangjianlin(object): """大家好,我是大连王健林""" def __init__(self): self.motto = "我是王健林
阅读全文
posted @
2019-12-14 23:58
行之间
阅读(130)
推荐(0)
python广度遍历文件夹
摘要:```python import os from collections import deque path = r"E:\Python" queue = deque([])#队列 queue.append(path) while len(queue) != 0: path = queue.popleft()#弹出的值 filelist = os.listdir(path)#遍历路径 for fi
阅读全文
posted @
2019-12-12 22:46
行之间
阅读(262)
推荐(0)
python设置图片背景和设置字体颜色大小
摘要:```python# -*- coding: utf-8 -*-"""Created on Wed Dec 11 22:37:30 2019@author: Dell"""import tkinterwin = tkinter.Tk()#显示图片photo = tkinter.PhotoImage(file=r"C:\Users\Dell\Pictures\董香2.png")label = tki...
阅读全文
posted @
2019-12-11 22:51
行之间
阅读(3264)
推荐(0)
python绘制国际象棋棋盘核心代码
摘要:```pythonimport turtlestep = 40for i in range(8): for j in range(8): turtle.penup() turtle.goto(i*step, j*step) turtle.pendown() turtle.begin_fill() ...
阅读全文
posted @
2019-11-25 21:56
行之间
阅读(2367)
推荐(0)
多层for循环嵌套,如何能优化一点点,从运行时间维度
摘要:将循环次数多的放在最内层,循环次数最少的放在最外层 换句话说,按照循环次数从小到大依次嵌套
阅读全文
posted @
2019-11-21 15:02
行之间
阅读(2937)
推荐(0)
大数据(量上GB的)查看命令
摘要:大数据查看指令 cmd中(tab键可补全) type 文件名:全部查看 more 文件名:Enter键,按一下查看一页
阅读全文
posted @
2019-11-20 21:38
行之间
阅读(336)
推荐(0)
python爬虫及结巴分词《攀登者》影评分析
摘要:《攀登者》影评爬取及分析 0、项目结构 其中simkai.ttf为字体文件,Windows查看系统自带的字体 一、爬取豆瓣影评数据 二、对评论信息进行情感分析 三、对评论数据进行jieba分词,生成关键词条形图和词云
阅读全文
posted @
2019-11-05 15:57
行之间
阅读(1136)
推荐(0)
jupyter使用
摘要:1. 带.的文件或文件夹为隐藏文件 环境变量是有先后顺序的,后面的会被前面的覆盖 2. 数据分析环境 Python+numpy+pandas+sklearn+tensorflow+matplotlib 在哪里启动jupyter notebook,浏览器对应的目录就是哪个文件夹,所以想要在某个目录创建
阅读全文
posted @
2019-11-03 23:36
行之间
阅读(813)
推荐(1)
python 小游戏,和电脑玩剪刀石头布
摘要:```python coding: utf 8 """ Created on Fri Oct 25 16:28:12 2019 if判断综合演练,剪刀石头布 @author: fei """ import random 要使用随机数,需要导入随机数的模块random, 工具包 提示玩家出拳 play
阅读全文
posted @
2019-10-25 18:32
行之间
阅读(1040)
推荐(0)