摘要: 功能描述:首先判断html文件是否为当当图书的页面,不是则不处理把图书标题,价格,作者,出版社等信息抽取出来存入文件perl程序运行命令:perl programfile html_file_list原代码奉上:#!/usr/bin/perluse HTML::Element;use HTML::TreeBuilder;use HTML::Parser;open DATAFH,">>data" || die "open file failed:$!";select DATAFH;foreach my $file_name (@ARGV) { 阅读全文
posted @ 2011-05-21 20:37 张朝阳 阅读(1405) 评论(1) 推荐(0) 编辑
摘要: HTML::TreeBuilder继承自HTML::Parser和HTML::Element,所以下面讲的很多方法实际上源于HTML::Parser和HTML::Element。拿下面这个HTML文件开刀:<html lang='i-klingon'> <head><title>Pati Pata</title></head> <body> <h1 lang='la'>职工</h1> <p lang='es-MX' align='cent 阅读全文
posted @ 2011-05-21 16:30 张朝阳 阅读(6496) 评论(0) 推荐(0) 编辑