爬取4399手游人气榜

    

1.打开要爬取的网页

2.查看源代码 找到需要的内容模块

3.运用jupyter进行实现

import requests 
from bs4 import BeautifulSoup
import pandas as pd#引入
url='http://news.4399.cn/top/'#搜索网址
headers={'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363'}#伪装爬虫
r=requests.get(url)#发送get请求
r.encoding=r.apparent_encoding#统一编码
t=r.text
soup=BeautifulSoup(t,'lxml')#soup
title=[]#建立空表格
index=[]
for x in soup.find_all(class_="b1"):
         title.append(x.get_text().strip())
for y in soup.find_all(class_="s1"):
         index.append(y.get_text().strip())
data=[title,index]
print(data)
D=pd.DataFrame(data,index=["游戏名称","下载量"])
print(D.T)

4.运行结果得到爬取内容

 

 

posted @ 2020-03-21 17:10  张霞。  阅读(305)  评论(0)    收藏  举报