2020 年 1月 6 日随笔档案 - hoo_o

2020年1月6日

摘要：在数据库中建库建表 # 连接到mysql数据库 mysql -h127.0.0.1 -uroot -p123456 # 建库建表 create database maoyandb charset utf8; use maoyandb; create table filmtab( name varch 阅读全文

posted @ 2020-01-06 15:52 hoo_o 阅读(730) 评论(0) 推荐(0)

爬取猫眼电影榜单TOP100榜-以csv文件保存

摘要： csv文件作用将爬取的数据存放到本地的csv文件中使用流程 # 1、导入模块 # 2、打开csv文件 # 3、初始化写入对象 # 4、写入数据(参数为列表) import csv with open('film.csv','w') as f: writer = csv.writer(f) wri 阅读全文

posted @ 2020-01-06 14:48 hoo_o 阅读(747) 评论(0) 推荐(0)

爬取猫眼电影榜单TOP100榜-以命令行输出

摘要：一、使用正则表达式匹配 from urllib import request import re import time import random from useragents import ua_list class MaoyanSpider(object): def __init__(sel 阅读全文

posted @ 2020-01-06 10:58 hoo_o 阅读(373) 评论(0) 推荐(0)

爬虫贪婪匹配以及非贪婪匹配

摘要： import re html = ''' <div><p>九霄龙吟惊天变</p></div> <div><p>风云际汇潜水游</p></div> ''' # 贪婪匹配 pattern = re.compile('<div><p>.*</p></div>',re.S) r_list = pattern 阅读全文

posted @ 2020-01-06 10:55 hoo_o 阅读(278) 评论(0) 推荐(0)

爬取百度贴吧

摘要：这个爬虫代码结构已经比较清晰了，以后的爬虫都可以套用这个模板 from urllib import request,parse import time import random from useragents import ua_list class BaiduSpider(object): de 阅读全文

posted @ 2020-01-06 10:47 hoo_o 阅读(589) 评论(0) 推荐(0)

公告