随笔分类 - python
摘要:已经爬取到的斗破苍穹文本以TXT形式存储 代码 结果
阅读全文
摘要:from selenium import webdriver url='https://www.jianshu.com/p/a64529b4ccf3' def get_info(url): include_title=[] driver=webdriver.PhantomJS() driver.get(url) driver.implicitl...
阅读全文
摘要:import requests from lxml import etree import re import pymysql import time conn= pymysql.connect(host='localhost',user='root',passwd='root',db='mydb'
阅读全文
摘要:爬取正文(contents)时,需要转码。 结果: 姓名:niangaoni… 等级:23性别:男 刚才看了一篇叫《抖音,快手正在毁掉我们的下一代!!》的文章,我才知道现在的00后,10后后那么逆天!我一个95后经常被他们喊着大叔的人,真的是经常被他们一些行为和语言所震惊!我从来不反感任何一个app
阅读全文
摘要:import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0' 'User-Agent...
阅读全文
摘要:import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0' 'User-Agent...
阅读全文
摘要:from lxml import etree import requests import csv fp=open('C://Users/Administrator/Desktop/lianxi/doubanbook.csv','w+',newline='',encoding='utf-8') writer=csv.writer(fp) writer.writerow(('name','url'...
阅读全文
摘要:对贴吧也可以进行同样操作
阅读全文
摘要:简单使用
阅读全文
摘要:不断发送标志,以获得完整页面
阅读全文
摘要:Cpu有几个核,就设几个进程
阅读全文
摘要:非关系型数据库:MongoDB。关系型数据库:MySQL 关系型和非关系型的区别: 安装: 使用: 应用场景: mongoDB是一种非关系型数据库,分为四大类:键值存储数据库,列存储数据库,文档型数据库,图形数据库。 重点学习mysql
阅读全文
摘要:lxml库:是xml解析库,也支持html文档解析功能,实用功能:自动修正补全html代码。 使用流程:①导入lxml中的etree库,②利用etree.HTML(文件名)或etree.parse(本地打开,路径)进行初始化,③etree库把HTML文档解析为Element对象。 from lxml
阅读全文
摘要:import requests import re import time headers={ #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0' 'User-Agent':'Mozilla/5.0 (Wind...
阅读全文
摘要:介绍常用的三种方法:search(),sub(),findall() search():匹配并提取第一个符合规律的内容,然后返回一个正则表达式的对象 #提取字符串中的第一个数字 import re a='a1b2d3f4' infos=re.search('\d+',a) print(infos)
阅读全文
摘要:正则表达式:是一个特殊的符号系列,检查字符串是否与指定模式匹配。 python中的re模块拥有全部的正则表达式功能。 判断字符: 类型: 数目:有无: 个数:单值 区间 离散 判断一个字符: 表示一个字符:①确定 (1)字符 a,b,1,4 (2)转义字符 \. ②完全不确定 (.) 匹配任意单个字
阅读全文
摘要:三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据。 get()的基本使用方法 #导入库 import requests #向网站发送请求,获取数据。 res= requests.get(‘http://bj.xiaozhu.com/’) #
阅读全文
浙公网安备 33010602011771号