、一叶孤城

2022年1月12日

摘要：爬取酷狗音乐榜单并做一个词云展示。分为两部分，爬虫部分和可视化部分；爬虫的话我用的是openpyxl进行保存的，因为这块一直是薄弱的地方，加强一下面向对象保存数据到excel里。 1 import openpyxl 2 import requests 3 import parsel 4 5 6 de 阅读全文

posted @ 2022-01-12 11:26 、一叶孤城阅读(795) 评论(0) 推荐(0)

2022年1月10日

文本数据分词，词频统计，可视化 - Python

摘要：词频、分词和可视化结合爬虫，做一些作业。爬虫库requests 词频统计库collections 数据处理库numpy 结巴分词库jieba 可视化库pyecharts等等。数据的话直接从网上抠一些东西，这里抠一篇新闻。要导入的库，一次性导入： 1 import collections 2 im 阅读全文

posted @ 2022-01-10 15:53 、一叶孤城阅读(1550) 评论(0) 推荐(0)

2022年1月7日

几个简单的例子 - 巩固Xpath语法 - Python

摘要： Xpath在w3cschool有教程，传送门。Xpath是使用路径表达式来选去xml或者html的节点。常用的路径表达式如下：下面列出了最有用的路径表达式：表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。阅读全文

posted @ 2022-01-07 16:33 、一叶孤城阅读(213) 评论(0) 推荐(0)

雪中悍刀行热播，来做一篇关于python的作业 - 爬虫与数据分析

摘要：雪中悍刀行在腾讯热播，做篇关于python的作业。--Python爬虫与数据分析。分为三个部分：第一：爬虫部分；爬虫爬评论内容和评论时间；第二：数据处理部分；将爬下来的数据进行整理清洗以便可视化；第三：可视化分析；对清洗好的数据进行可视化分析，对爬取的内容做一个整体的分析；项目结构分为三个阅读全文

posted @ 2022-01-07 11:34 、一叶孤城阅读(166) 评论(0) 推荐(0)

2021年12月29日

面向对象保存爬虫数据 - Python

摘要：面向对象保存保存数据。 1，CSV 代码： 1 """ 2 豆瓣top250四种保存方式 3 """ 4 import csv 5 import random 6 import time 7 import parsel 8 import requests 9 10 class douBanSpide 阅读全文

posted @ 2021-12-29 17:07 、一叶孤城阅读(107) 评论(0) 推荐(0)

桌面搜索程序 - Python

摘要：一个简单的桌面搜索程序。流程化代码： 1 """ 2 做一个桌面应用搜索程序 3 """ 4 import tkinter as tk 5 from tkinter import messagebox, filedialog 6 import os 7 8 root = tk.Tk() 9 root 阅读全文

posted @ 2021-12-29 14:12 、一叶孤城阅读(374) 评论(0) 推荐(0)

2021年12月20日

爬取微博热搜榜 - 李白之死 - Python

摘要：最近有关中国传统文化的内容频频登上热搜，就比如最近的李白之死，今天换一种方式爬取，以前爬取微博评论是网址里一大串参数，今天把参数提出来做一个字典，然后请求的时候再构造url。 1 """ 2 就爬取李白之死的评论 3 """ 4 import requests 5 import re 6 impor 阅读全文

posted @ 2021-12-20 16:21 、一叶孤城阅读(144) 评论(0) 推荐(0)

2021年12月13日

替换特殊字符 - Python

摘要：经常在写完爬虫爬取图片和视频类的二进制文件的时候，发现保存的时候，windows有些特殊字符是保存不了的。写一个函数直接替换成合法的文件名： 1 import re 2 def changeTitle(title): 3 """ 4 正则表达式替换windows文件不能存储的特殊字符 5 """ 6 阅读全文

posted @ 2021-12-13 22:14 、一叶孤城阅读(861) 评论(0) 推荐(0)

Selenium尝试更改user-agent - 基于Python

摘要：今天翻查了下selenium更改User-Agent的文章，大多数都是以下这样的： 1 from selenium import webdriver 2 3 # 定义要将浏览器伪装成的ua 4 ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple 阅读全文

posted @ 2021-12-13 16:03 、一叶孤城阅读(3549) 评论(0) 推荐(0)

爬取豆瓣电影Top250信息

摘要：心血来潮，爬取豆瓣电影Top250信息，几个课题记录下：分两种数据解析方式：第一为parsel；第二为将html数据转换成python对象，利用xpath进行解析，对xpath进行复习，用到lxml里的etree。数据保存方式：第一为csv；第二为openpyxl；第三为pandas；阅读全文

posted @ 2021-12-13 15:44 、一叶孤城阅读(344) 评论(0) 推荐(0)

公告