D
G
O
L

随笔分类 -  爬虫学习

摘要:聚类算法 KMeans Kmeans算法,也被称为K-平均或K-均值,是一种得到最广泛使用的聚类算法,主要思想是:首先将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,然后把每个数据点划分到最近的类别中,使得评价聚类性能的准则函数达到最优,从而使同一个类中的对象相似度比较高,而不同类之间的对象 阅读全文
posted @ 2023-02-26 17:49 jinganglang567 阅读(55) 评论(0) 推荐(0)
摘要:绘制折线图 import matplotlib.pyplot as plts plts.figure(figsize=[10,5],dpi=80) #绘制一周的天气的变化 plts.plot([1,2,3,4,5,6,7],[12,14,8,7,3,19,4]) plts.show() #绘制比较多 阅读全文
posted @ 2023-02-12 15:55 jinganglang567 阅读(34) 评论(0) 推荐(0)
摘要:xpath提取二手房 #利用xpath提取二手房 import requests from lxml import etree url='https://bj.58.com/ershoufang/' head={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; 阅读全文
posted @ 2023-02-12 15:32 jinganglang567 阅读(33) 评论(0) 推荐(0)
摘要:#requests库爬取图片 import requests from bs4 import BeautifulSoup def spider(): url='https://www.sogou.com/web' keyword=input('请输入信息') headers={ 'user-agen 阅读全文
posted @ 2023-02-09 15:13 jinganglang567 阅读(32) 评论(0) 推荐(0)
摘要:#requests库的使用 import requests import random from bs4 import BeautifulSoup user_agent = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Acoo 阅读全文
posted @ 2023-02-09 15:11 jinganglang567 阅读(22) 评论(0) 推荐(0)
摘要:#python爬虫的系统学习1 from bs4 import BeautifulSoup import requests import re #正则表达式 import urllib.request,urllib.error import xlwt import sqlite3 findlink= 阅读全文
posted @ 2023-02-09 15:09 jinganglang567 阅读(30) 评论(0) 推荐(0)
摘要:#bs4解析实战 import requests from bs4 import BeautifulSoup import re url='https://www.shicimingju.com/book/sanguoyanyi.html' head={ 'user-agent':'Mozilla/ 阅读全文
posted @ 2023-01-05 18:21 jinganglang567 阅读(52) 评论(0) 推荐(0)
摘要:#破解百度翻译 #阿贾克斯请求,局部刷新,对应fetch/XHR,最后的sug #学会查看请求,选择函数 import os import requests import json post_url='https://fanyi.baidu.com/sug'#学会找链接 #查询参数可以确定参数的类型 阅读全文
posted @ 2023-01-05 18:17 jinganglang567 阅读(69) 评论(0) 推荐(0)