2018 年 4月随笔档案 - Polvem

关于爬取json内容生成词云（疯狂踩坑）

摘要：本文爬取了掘金上关于前端前n页的标题。将文章的标题进行分析，可以看出人们对前端关注的点或者近来的热点。获取动态网页的具体内容爬取动态网页时标题并不能在html里直接找到，需要通过开发者工具里的Network去寻找。寻找到的是ajax发出的json数据。获取json里面的具体某个数据我们获取到阅读全文

posted @ 2018-04-30 13:06 Polvem 阅读(1005) 评论(0) 推荐(0)

数据结构化与保存

摘要：import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas import openpyxl import sqlite3 url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get... 阅读全文

posted @ 2018-04-17 22:39 Polvem 阅读(127) 评论(0) 推荐(0)

正则表达式

摘要：import requests from bs4 import BeautifulSoup from datetime import datetime import re # 1. 用正则表达式判定邮箱是否输入正确。 r='^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$' e='286980036@qq.com' if re.match(r,e): p... 阅读全文

posted @ 2018-04-10 22:31 Polvem 阅读(125) 评论(0) 推荐(0)

爬取校园新闻首页的新闻

摘要：import requests from bs4 import BeautifulSoup from datetime import datetime res=requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/') res.encoding='utf-8' soup=BeautifulSoup(res.text,'html.parser... 阅读全文

posted @ 2018-04-03 23:01 Polvem 阅读(125) 评论(0) 推荐(0)

Polvem

04 2018 档案

公告