随笔分类 -  爬虫

使用Python进行数据采集。
爬虫-姓名测试打分2
摘要:一、获取汉字 import pandas as pd import requests from bs4 import BeautifulSoup session=requests.session() #http://xh.5156edu.com/pinyi.html 所有拼音的导航地址 #https 阅读全文

posted @ 2022-01-22 11:19 andy_1 阅读(198) 评论(0) 推荐(0)

爬取-姓名测试打分
摘要:从姓名测试网站 爬去,所有‘李金’开头的三个字的名字对应的得分,取拍分比较高的名字。 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Thu Jan 30 12:45:02 2020 4 5 @author: Administrator 6 """ 7 8 阅读全文

posted @ 2022-01-22 11:13 andy_1 阅读(93) 评论(0) 推荐(0)

爬取百度搜索信息
摘要:**********目的: 搜索‘同盾’‘中标’‘信贷’关键词信息 **********爬虫效果: **********参看学习爬虫教程: 透彻讲解使用Selenium的网站: http://www.python3.vip/tut/auto/selenium/01/ Selenium学习网址: ht 阅读全文

posted @ 2021-03-17 09:04 andy_1 阅读(381) 评论(0) 推荐(0)

企业信息爬虫
摘要:天眼查、启信宝、企查查等,会有提供企业工商信息。例如,百度百科使用启信宝数据源。天眼查获取方法:1. 天眼查付费接口:https://open.tianyancha.com/open/1001。按次收费预计:0.7元/次。2. 自己爬取‘企查查’数据。网上有很多Python对应案例,预计折腾一天可以 阅读全文

posted @ 2020-10-09 10:47 andy_1 阅读(902) 评论(0) 推荐(0)

使用python爬去国家民政最新的省份代码的程序,requests,beautifulsoup,lxml
摘要:使用的python3.6 民政网站,不同年份数据可能页面结构不一致,这点踩了很多坑,这也是代码越写越长的原因。 如果以后此段代码不可用,希望再仔细学习下 页面结构是否发生了变更。 阅读全文

posted @ 2019-09-09 11:16 andy_1 阅读(386) 评论(0) 推荐(0)

导航