明天要下雪了- -| 回首页 | 2005年索引 | - -文本聚类中 k-means 算法

转载:博客社区研究中的数据挖掘初探

                                      

博客社区研究中的数据挖掘初探

一、统计数据:

1.  博客(Blogger)信息:

(1)性别;
(2)地区;
(3)年龄;
(4)教育程度;
(5)注册时间;
(6)好友数量;

2、日志(Blog)信息:

(1)访问量;
(2)文章数;
(3)留言数;
(4)评论数;
(5)短信息数;

说明:数据按一定时期统计,初步选择的时间间隔为一个月。


二、数据挖掘:
1.  预测。

根据历史统计数据,采用回归分析、灰色理论等建立数学模型,可以预测短期和中长期内的:

1)博客的注册数量和增长趋势;
2)文章数量;
3)留言数量;
4)评论数量;
5)短信息数量;

1)  和2)可以反映出博客群体的发展情况,3)、4)和5)可以反映博客之间的互动交流情况。

2.  分类分析。

2.1 博客(Blogger)

2.1.1总量分析:
对统计数据分别从性别、性别、地区、年龄、教育程度、注册时间等方面进行分析,可以分析已注册博客的组成结构;属于静态分析。

2.1.2增量分析:
根据统计数据,得出每月(或季度、年份等)博客的增长数量,从以上几个方面分析,可以监测博客的发展情况,以及组成结构变化情况;属于动态分析。

2.2 日志(Blog)

2.2.1总量分析:
根据统计数据对日志按照目前的分类统计分析,可以了解不同栏目的发展情况;属于静态分析。

2.2.2增量分析:
通过监测各类日志数的增长速度和趋势,了解博客群体关注的话题等等情况;属于动态分析。

3.  聚类分析

3.1博客(Blogger);
根据分项统计数据作为指标,对注册博客进行聚类分析,由此进一步分析博客群的组成结构,为进一步针对性的研究提供依据。

3.2日志(Blog)
对日志从访问量、回复量等方面进行聚类分析,了解博客群体关心的话题。可以分别对总量数据和增量数据进行聚类,由此分别了解长时期和特定阶段博客关注话题。

4.  关联分析
根据博客的文章数量、文章分类、好友情况等进行关联分析,可能发现博客的行为特点,等等。因为关联分析往往可能发现隐藏的模式和规律,具体将得到什么结论,需要对数据进行关联分析之后方可定论。


三、数据挖掘工具:
1. SQLServer;
2. SPSS;

四、预期成果:
1.博客群分析及发展动态监测报告;
2.日志增长动态监测报告;
3.博客发展相关规律;

以上只是初步的思路,因为目前对博客进行系统研究处于初期阶段,在博客研究中引入数据挖掘更多属于尝试,缺乏相关资料和标准,具体的内容有待于根据研究进展及时补充、修正、更新和完善。

【作者: colding】【访问统计:】【2005年12月5日 星期一 10:26】【 加入博采】【打印

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=3775121

博客手拉手

关联规则在空间数据挖掘中的研究      月光宝盒

研究的乐趣      钝笔生花

什么是“高尚”社区      xiangminnc

元数据的多角度透视      浮云一片

我心中的她      lzfish

回复

评论内容: