的评估方法基于节点权重与PageRank相结合的评估算法,顾名思义,就是上面介绍的两种评估方法的结合,最典型的代表就是YYamaguchi等人[27]提出的Turank模型。Turank模型根据构造微博-用户结构图,形象的展示了用户间,用户-微博间,微博间的相互关系,从而发现了微博内容对用户节点排名的贡献,同时也避免了只单一考量用户节点的属性而造成排名结果在准确度和客观度上的缺失。随着研究的深入,有学者提出将PageRank算法引用到Twitter影响力研究中。例如HaewoonKwak[28]等学者将PageRank算法引用到Twitter上,将用户之间的互动以及twitter信息的传播特征综合分析后,得出twitter信息影响力分析模型。更进一步,JiangshuWeng[29]等人认为节点影响力与其在具体话题传播过程中所起到的作用相关,各种具体的影响力分量对最终的影响力评估都有着至关重要的贡献,提出了TwitterRank算法,综合所有的影响力分析数据,为微博领域影响力的研究提供理论基础。1.3论文的主要工作本文在深入研究了社交网络舆情分析关键技术的基础上,结合新浪微博上的真实数据,在微博舆情话题的提取以及微博传播意见领袖分析方面展开了主要工作,主要内容包括:基于文本聚类和主题模型分析的微博话题检测,基于排序算法的微博信息传播影响力评估模型等几个方面。本文首先结合微博结构化的数据特征,提出改进后的TF-IDF权重算法。同时,为了减少微博数据稀疏性带来的影响,提出了基于词向量的聚类算法,将微博信息聚类处理为微博文档后再进行话题模型的抽取。为了研究新浪微博平台中舆情传播的规律,本文将每一条微博信息看做一个节点,节点之间的行为看做一条边,在不同个体表达意见时,根据个体活跃度,节点受关注度等指标的衡量,判断出传播网络中度最大的节点,即在微博数据传播过程中找到真正的意见领袖。4