上一页 1 2 3 4 5 6 7 ··· 24 下一页
摘要: 正则表达式语法: 阅读全文
posted @ 2022-04-20 11:07 凋零_( 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 爬虫爬取的数据分为服务器渲染,或者本地渲染 用户发送请求后获得的是服务器返回的完整的html代码,就叫做服务器渲染 本地渲染是服务器通过发送框架,和数据在本地拼接的叫做本地渲染, get-显示提交 post-隐示提交 url中请求一般都是使用的get请求 import requests #get类型 阅读全文
posted @ 2022-04-18 21:14 凋零_( 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 在解决了数据库编码问题,以及评论数据过大的问题 最后采取云数据库的存储方式方便管理 接下来就是数据的存储然后可视化展示 阅读全文
posted @ 2022-02-11 15:33 凋零_( 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 爬取数据没有报错但没有获得数据,之前一直都是好好的,拿出来单独测试发现,可能是我ip被封了 确定了,我ip被封了 阅读全文
posted @ 2022-01-10 15:28 凋零_( 阅读(15) 评论(0) 推荐(0) 编辑
摘要: text =file.readlines() # 结果为str类型 for line in text:#遍历文件 print("开始爬取评论") name = line.split()[0] 加了个功能自动遍历网址目录进行爬取 然后接下来就是多爬取数据,然后进行数据清洗,清洗部分不符合格式要求的数据 阅读全文
posted @ 2022-01-07 13:48 凋零_( 阅读(41) 评论(0) 推荐(0) 编辑
摘要: import requests import csv import time import numpy as np from bs4 import BeautifulSoup import json import pandas as pd from snownlp import SnowNLP fr 阅读全文
posted @ 2022-01-06 17:29 凋零_( 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 采用nlp字典分析的方法 import pandas as pd from snownlp import SnowNLP from snownlp import sentiment import matplotlib.pyplot as plt df=pd.read_csv('D:\\毕设相关\\评 阅读全文
posted @ 2022-01-05 17:20 凋零_( 阅读(44) 评论(0) 推荐(0) 编辑
摘要: import jieba #分词库 import wordcloud #词云库 #1.读取文件 f=open('评论.txt',encoding='utf-8') #f=open('..\\paqushuju\\评论文件\\魔王勇者.txt',encoding='utf-8') text=f.rea 阅读全文
posted @ 2022-01-05 16:20 凋零_( 阅读(82) 评论(0) 推荐(0) 编辑
摘要: import requestsimport re #正则表达式模块url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=460329133'#1 发送请求#请求方式的注意是get或者post#还有参数#headers请求头作用是吧python代码进行 阅读全文
posted @ 2022-01-04 15:19 凋零_( 阅读(32) 评论(0) 推荐(0) 编辑
摘要: import requests import time from bs4 import BeautifulSoup import json # 必要的库 def get_html(url): headers = { 'accept': 'text/html,application/xhtml+xml 阅读全文
posted @ 2022-01-04 14:53 凋零_( 阅读(196) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 ··· 24 下一页