代码改变世界

深度用户行为 多维度深入分析笔记

2011-12-01 23:33  yuejianjun  阅读(707)  评论(0编辑  收藏  举报

 

 目前所有对用户行为的分析莫过于这种几种模式:用户注册信息,定制列表,操作记录,用户历史轨迹跟踪等。但是这些都只是用户行为分析中的冰山一角,在实际分析过程中,维度(www.vdoing.com)将诸多信息进行权重排序,提炼核心信息来构建一个3维的统计分析体系。

  

 

  对于一个新站点来说,进行用户行为分析,最缺乏的是用户在站内的行为轨迹。因为没有一定量的数据,是很难通过正态分析,也没有办法进行聚类分析,无法确立群体特征的。如果一个新站希望能够在用户行为分析和挖掘上有一定的作为,在使用一般统计和分析情况下将非常困难,可能要从跟踪用户的所有轨迹,然后不断的沉淀才能逐步的实现。所以真正想分析出网站用户群体的特点,在传统的统计办法中,是很难在很短时间内完成的,基于这个情况,导致很难在短时间内完成用户行为分析,如果完成了,其结果也是很难准确的。

  对于一个已经有百万以上会员的网站来说,进行用户行为分析和挖掘,在传统统计分析过程第一步是需要分离用户,这也是一个非常艰难的事情。只有分离用户后,才可以找出有价值的用户,进行深度分析,使用传统办法,难度也将相当大。

  对于以上问题,或者说对于任意一个在互联网上活动的人来说,都可以将任何用户的访问过程进行定义,即:某个人、在某个区域、 在某个网络环境下、使用某个计算环境、 需要寻找或者处理某件事情,接着产生访问某个网站产生某些行为,对这些数据进行提炼分析,从而解决以上对用户访问分析的深度挖掘。

  维度将他们这个行为过程进行如此的分解:

  1、 某个人(性别、年纪、职业)

  2、 在某个区域(物理地址,比如:北京某地区)

  3、 在某个网络环境下(运营商,比如:北京电信ADSL)

  4、 使用某个计算环境(操作系统、IE等 ...)

  5、 需要寻找或者处理某件事情(如:查找信息或浏览)

  6、 接着产生访问某个网站产生某些行为(鼠标事件 。。。。)

  网站流量统计系统,是挖掘网站用户行为最重要的工具之一,因为统计系统是目前最详细记录访客行为过程的一种工具,我们将数据挖掘分为3个阶段,

  第一个阶段为:数据的采集和统计。

  第二个阶段则是对采集到的数据进行过滤和分析,

  第三阶段:也就是对已经过滤和初步分析的数据进行聚类等等分析,挖掘出其中蕴含的价值点或者方法。

  但是目前所有的网站流量统计系统都只做到了对数据的第一层,即:用户部分信息的统计,甚至这些部分的数据也没有完整获得。所以对于网站用户的深度分析,目前依然是一个具备相当挑战的工作,,对于数据分析领域,其中之艰辛,其中的难度远非常人可以想象。基于用户的行为过程,我们可以简单的如下归类,同时将用户行为定义为一个3个维度综合信息的体系

  1、 某个用户(用户性别、年纪等核心数据)

  2、在某段时间内(随着自然时间的推移,进行正常时间的记录)

  3、产生了某个行为(网络上的行为基本可以分为2种具体体现,即:1、键盘操作。2、鼠标行为。对于键盘操作信息,基本上是完全放弃,因为涉及用户隐私等基本原则问题,属于统计禁地。对于鼠标行为,只包括对用户鼠标轨迹,鼠标点击URL事件的记录,技术上可以实现,同时不直接涉及用户个人隐私,或相对较少,可能带来的危害性较小)

  

 

  基于这些过程信息,我们将用户访问过程进行归纳,提炼其访问过程核心信息。

  1、 某个用户,核心信息包括:用户性别、用户年纪、用户职业

  该数据只能为概率数据,原因如下:在基于一定基数的情况下,统计大量已知性别,年纪用户鼠标轨迹行为的特点后归纳其行为特征,寻找合适的轨迹算法,但是该轨迹算法是基于基准行为库的概率统计,所以该数据只可能以概率的形式在这个体系下表现。

  

 

  2、 用户行为,核心信息包括:鼠标鼠标滑动轨迹、鼠标点击热区、鼠标点击时间顺序

  

 

  

 

  3、 内容信息,核心信息包括:鼠标点击URL附着文字内容,对附着文字进行分词分析,确定其内容类别以及文本特点。

  

 

  未完待续,维度统计(www.vdoing.com)

  附,某网站用户热区图