爬取新闻列表

1、获取单条新闻的#标题#链接#时间#来源#内容 #点击次数,并包装成一个函数

import requests
from bs4 import BeautifulSoup


a=requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/')
a.encoding='utf-8'
soup=BeautifulSoup(a.text,'html.parser')
for xinwen in soup.select('li'):
    if len(xinwen.select('.news-list-description'))>0:
            title = xinwen.select('.news-list-description')[0].text
            url = xinwen.select('a')[0]['href']
            time = xinwen.select('.news-list-info')[0].contents[0].text
            neirong = xinwen.select('.news-list-description')[0].text
            adiv=requests.get(url)
            adiv.encoding='utf-8'
            soupdiv=BeautifulSoup(adiv.text,'html.parser')
            detail=soupdiv.select('.show-content')[0].text
            click = int(requests.get('http://oa.gzcc.cn/api.php?op=count&id=7821&modelid=80').text.split('.')[-1].lstrip("html('").rstrip("');"))
            print(time,title,neirong,url,detail,click)
            break
            
        
    

2、获取一个新闻列表页的所有新闻的上述详情,并包装成一个函数;获取所有新闻列表页的网址,调用上述函数

import requests
from bs4 import BeautifulSoup
import re
def getclick(1url):    
    id=re.search('_(.*).html',1url).group(1).split('/')[1]
    clickurl='http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)
    click=int(requests.get('http://oa.gzcc.cn/api.php?op=count&id=8249&modelid=80').text.split('.')[-1].lstrip("html('").rstrip("');"))
    return click

def getonepages(eveylisturl):  
    res=requests.get(eveylisturl)
    res.encoding='utf-8'
    soup=BeautifulSoup(res.text,'html.parser')

    for news in soup.select('li'):
        if len(news.select('.news-list-title'))>0:
            title=news.select('.news-list-title')[0].text 
            url=news.select('a')[0]['href']
            time=news.select('.news-list-info')[0].contents[0].text
            bm=news.select('.news-list-info')[0].contents[1].text
            

            resd=requests.get(url)
            resd.encoding='utf-8'
            soupd=BeautifulSoup(resd.text,'html.parser')
            detail=soupd.select('.show-content')[0].text 
            count=getclick(url)      
  
            print(title,count)

hpk='http://news.gzcc.cn/html/xiaoyuanxinwen/'  
res=requests.get(hpk)
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')   
a=int(soup.select('.a1')[0].text.rstrip(''))
pages=a//10+1                   
for i in range(1,9):
    pagesurl='http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)
    getonepages(pagesurl)

 

>>> 
================ RESTART: C:/Users/Administrator/Desktop/2.py ================

英国赫尔大学商学院副院长Mr. Lynne Brrow一行来我校访问交流 4920
广东省教育厅高教处领导莅临我校调研 4921
广东省教育厅交流合作处领导莅临我校考察 4922
杨文轩主持召开广东省民办教育协会常务会议 4923
我校开展消防安全演练教育活动 4924
我校与美国内布拉斯加大学奥马哈分校联合举办开学典礼 4925
校领导看望慰问军训师生及教官 4926
居安思危 面向未来 ——我校举行纪念“9.18事变”升旗仪式 4927
会计学院新生报到率创新高 4928
磨炼身心意志,树立国防意识——我校举行2017级新生军训动员大会 4929
我校与英国考文垂大学联合举行双学位项目开学典礼 4930
英国考文垂大学Prof Heather McLaughlin一行来我校访问交流 4931
选择国院 成就国际化人才——国际学院举办2017级新生开学典礼 4932
内外兼修 德才兼备——我校隆重举行2017级新生开学典礼 4933
入学教育新方式:新生迎新 4934
有一种爱叫做迎新志愿者 4935
新的校园 承载新的梦想 4936
趣味迎新 各院“大显身手” 4937
校领导深入迎新一线 慰问现场师生 4938
细微之处 尽显关爱 4939
精心准备 喜迎八方学子 4940
潜心育人 打好评建攻坚战——我校召开2017年教职工大会暨教师节表彰大会 4941
我校召开新学期党建工作部署会议 4942
学校举办庆祝第33个教师节座谈会 4943
新西兰梅西大学Andrea Flavel一行来我校访问交流 4944
开学第一天,全校教学秩序良好 4945
夯实基础迎评估,提高质量促发展——我校召开新学期中层干部会议 4946
我校召开2017年新入职教职工培训开班动员会 4947
【招生动态】我校2017年普高招生录取工作圆满结束 4948
我校温雅婷启程赴美参加海外研学项目 4949
【招生动态】我校专本连读国际班录取高分满档,形势喜人 4950
【招生动态】您好,新广商人——2017级首批新生录取通知书今日寄出 4951
【招生动态】我校省内录取分数再创新高,生源质好量满 4952
我校学子在全国大学生财会职业能力大赛获佳绩 4953
谋特色 重落实 全面提升学生工作水平 ——我校召开2016-2017学年学生工作总结会 4954
省“消防安全学校”和“微型消防站”创建工作检查组到我校检查创建工作 4955
友谊的丰碑——我校援建青海省果洛职校图书馆纪实 4956
我校召开庆祝建党96周年暨“七•一”表彰大会 4957
【招生动态】我校2017年招生咨询现场人气火爆 4958
高考前后,多家媒体报道我校 4959
我校2017年微课教学比赛圆满落幕 4960
我校成为“认可雅思机构” 4961
听取学生建议 共促学校发展——我校召开2017届毕业生代表座谈会 4962
国家级示范性高中代表团来我校考察交流 4963
走适合自己的发展道路——郭冬冬董事长关于学校今后发展的讲话 4964
我校官方微信获腾讯全国高校公众号“新秀奖” 4965
校政协同育人又添新平台——我校与区检察院共建法学实践教学基地 4966
我校代表团赴美国内布拉斯加大学奥马哈分校访问交流 4967
我校召开2017年学位评定委员会会议 4968
积极探索法学实践教学新模式——教师和律师共同指导模拟法庭竞赛 4969
我校首届中美双专业双学位项目学生顺利毕业 4970
【招生动态】我校与阳江教育局共建“优质生源基地” 4971
我校完成第一批学生宿舍搬迁工作 4972
不忘初心 继续前进——我校举办党员教育活动启动仪式 4973
高校代表团到我校调研 4974
勇担责任,务实做好教育对口援藏工作 4975
我校学子在“2016年广东大学生年度人物”评选活动中喜获佳绩 4976
我校学子获广东大学生英语口语竞赛一等奖 4977
具有国际化背景的应用型旅管人才培养之路 4978
我校物联网工程等4个专业获学士学位授予权 4979
我校再获广东高校校报好新闻一等奖 4980
我校成立广东民办高校首个马克思主义学院 4981
电视台报道我校国际化办学 4982
广东省重点中学代表团到我校参观交流 4983
改造培养要素 创新人才培养模式——我校召开教学工作总结汇报会 4984
我校与多家物流企业共建物流产学研合作基地 4985
我校与律师事务所共建法学实践教学基地 4986
教育部专家莅临我校开展思政课听课指导工作 4987
我校召开2015级中美双专业双学位项目学生家长会 4988
共青团广州商学院第七次代表大会胜利召开 4989

>>> 

 

posted @ 2017-10-11 19:53  26黄培康  阅读(419)  评论(0编辑  收藏  举报