WEB挖掘

文本挖掘,内容挖掘,使用挖掘

WEB日志7个字段:第一项:远程主机的地址。第二项:浏览器的EMAIL的地址或其他唯一标识符。

没有用email就用(-)代替。第三项:记录浏览者尽量身份验证时提供的名字,一般为-;(就像学校实验指导书网站)

第4项:请求的时间。 第5项:告诉服务器收到的一个什么样的请求(method[get或者POST]   resource[文件或其他没有http]  protocol[通常是HTTP,后面加上版本])     第6项:状态代码。告诉请求是否成功。2开头表示成功,1表示失败,3表示其他

第7项:发给客服端的总字节数。

预处理:

模式发现:

posted @ 2015-04-28 23:44  nskl  阅读(109)  评论(0)    收藏  举报