python爬虫（房天下）

房天下

import requests
res = requests.get('http://esf.sz.fang.com/')
#res.text

from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,'html.parser')
domain = 'http://esf.sz.fang.com'
for house in soup.select('.houseList dl'):
    if len(house.select('.title')) > 0:
        #print(house.select('.title'))
        #print(house.select('.title')[0].text.strip('\n'))
        #title = house.select('.title')[0].text.strip('\n')
        link = house.select('.title a')[0]['href']
        url = domain + link
        #print(title)
        print(url)
        print("=====================================")

'''
[0] 出错
IndexError: list index out of range
第1种可能情况
list[index]index超出范围
第2种可能情况
list是一个空的没有一个元素
进行list[0]就会出现该错误

'''

import requests
res = requests.get('http://esf.sz.fang.com/chushou/10_195724712.htm')
from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,'html.parser')

soup.select('.title h1')[0].text.strip()

'碧桂园翡翠山坡地别墅配套设施齐全环境优美价格实惠交通便利'

info = {}
info['标题'] = soup.select('.title h1')[0].text.strip()
info

{'标题': '碧桂园翡翠山坡地别墅配套设施齐全环境优美价格实惠交通便利'}

soup.select('.zongjia1 .red20b')[0].text

'398'

info['总价'] = soup.select('.zongjia1 .red20b')[0].text
info

{'总价': '398', '标题': '碧桂园翡翠山坡地别墅配套设施齐全环境优美价格实惠交通便利'}

for dd in soup.select('dd'):
    if '：' in dd.text.strip():
        #print(dd.text.strip().split('：'))
        key,value = dd.text.strip().split('：')
        info[key] = value

info

{'专业度': '2.3',
'二手房': '32套',
'使用面积': '216�O',
'厅结构': '平层',
'参考月供': '',
'参考首付': '119.4万',
'同比去年': '↓2.1%',
'地上层数': '3层',
'地下室面积': '200平米(全明)',
'好评率': '33%',
'建筑年代': '2016年',
'建筑形式': '独栋',
'建筑面积': '216�O',
'开发商': '东莞市黄江碧桂园房地产开发有限公司',
'总价': '398',
'户型': '5室2厅1厨4卫',
'标题': '碧桂园翡翠山坡地别墅配套设施齐全环境优美价格实惠交通便利',
'满意度': '2.3',
'物业费': '暂无资料',
'物业公司': '暂无资料',
'物业类型': '别墅',
'环比上月': '↓1.39%',
'真实度': '2.3',
'租房': '0套',
'绿化率': '0.00%',
'花园面积': '100平米',
'装修程度': '精装修',
'车位数量': '2个',
'车库数量': '1个',
'进门朝向': '南'}

def getHouseDetil(url):
    info = {}
    import requests
    res = requests.get(url)
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(res.text,'html.parser')
    info['标题'] = soup.select('.title h1')[0].text.strip()
    info['总价'] = soup.select('.zongjia1 .red20b')[0].text
    for dd in soup.select('dd'):
        if '：' in dd.text.strip():
            #print(dd.text.strip().split('：'))
            key,value = dd.text.strip().split('：')
            info[key] = value
    return info

url = 'http://esf.sz.fang.com/chushou/3_195684731.html'
getHouseDetil(url)

{'专业度': '5',
'二手房': '264套',
'产权性质': '商品房',
'住宅类别': '普通住宅',
'使用面积': '76�O',
'参考月供': '',
'参考首付': '114万',
'同比去年': '↑1.11%',
'好评率': '100%',
'年代': '2013年',
'建筑类别': '板楼',
'建筑面积': '89�O',
'开发商': '和记黄埔地产（深圳）有限公司',
'总价': '380',
'户型': '3室2厅1厨2卫',
'朝向': '南',
'标题': '刚刚放盘和黄懿花园顶楼湖景房带20万装修诚心出售380万！',
'楼层': '高层(共10层)',
'满意度': '5',
'物业费': '3.8元/平米・月',
'物业公司': '暂无资料',
'物业类型': '住宅',
'环比上月': '↑0.01%',
'真实度': '5',
'租房': '66套',
'结构': '平层',
'绿化率': '30.00%',
'装修': '精装修'}

综合案例

import requests
from bs4 import BeautifulSoup
res = requests.get('http://esf.sz.fang.com/')
soup = BeautifulSoup(res.text,'html.parser')
domain = 'http://esf.sz.fang.com'
houslist = []
for house in soup.select('.houseList dl'):
    if len(house.select('.title')) > 0:
        link = house.select('.title a')[0]['href']
        url = domain + link 
        houslist.append(getHouseDetil(url))

len(houslist)

houslist[21]

{'专业度': '5.0',
'二手房': '993套',
'产权性质': '商品房',
'住宅类别': '普通住宅',
'使用面积': '126�O',
'参考月供': '',
'参考首付': '47.4万',
'同比去年': '暂无资料',
'好评率': '100%',
'年代': '2016年',
'建筑类别': '板楼',
'建筑面积': '128�O',
'开发商': '20160527162320,2016051',
'总价': '158',
'户型': '4室2厅1厨2卫',
'朝向': '南北',
'标题': '碧桂园公园上城、全智能社区、精装四房、南站万达、带',
'满意度': '5.0',
'物业费': '2.6元/�O・月',
'物业公司': '广东碧桂园物业服务有限公司',
'物业类型': '住宅',
'环比上月': '↑0.14%',
'真实度': '5.0',
'租房': '0套',
'结构': '平层',
'绿化率': '30.00%',
'装修': '精装修'}

import pandas
df = pandas.DataFrame(houslist)
#df

df.to_excel('/mnt/z/house.xlsx')

url1 = 'http://esf.sz.fang.com/house/i3'
for i in range(1,3):
    print (url1 + str(i))

http://esf.sz.fang.com/house/i31
http://esf.sz.fang.com/house/i32

import requests
import pandas
from bs4 import BeautifulSoup
domain = 'http://esf.sz.fang.com'
url1 = 'http://esf.sz.fang.com/house/i3'
houslist = []
for i in range(1,21):
    res = requests.get(url1 + str(i))
    soup = BeautifulSoup(res.text,'html.parser')
    for house in soup.select('.houseList dl'):
        if len(house.select('.title')) > 0:
            link = house.select('.title a')[0]['href']
            url = domain + link 
            houslist.append(getHouseDetil(url))
df = pandas.DataFrame(houslist)
df.to_excel('/mnt/z/house4.xlsx')

posted @ 2017-05-30 14:01 侠之大者kamil 阅读(1285) 评论(0) 收藏举报

刷新页面返回顶部

侠之大者

python爬虫（房天下）

房天下

综合案例

公告