一个很新但发展迅速的研究方向。2004年之后,每年在诸如Journal ofFinance这类的顶级期刊里,我们都可以找到该主题的文献。浙江大学硕士学位论文绪论而且由于该方向与计算机学科有着紧密的交叉,许多计算机背景的学者也从事着类似的研究,将该领域的前沿大大向前推进着。在本篇文章中,我们将信息来源聚焦在中小投资者信息交流讨论的主要平台一一股吧上。选取股吧作为研究的信息源是因为它已经成了目前中国中小投资者信息交流最密集的地方,对中小投资者的投资情绪有很大影响。在后文,我们会具体介绍股吧的数据特征。 1.2研究背景与意义 1.2.1研究背景(1)网络信息对于股票市场的影响信息对股票市场的影响是金融学研究的核心问题。近年来随着经济发展和信息技术水平的提升,我国的网民数量持续上升,互联网已经成为中国社会各阶层利益表达、情感宣泄、思想碰撞的重要渠道。由于股民与网民的高度重叠,我国股票市场始终是网络舆论的焦点之一。以2008年为例,在国际金融危机冲击和国内经济增长前景不明朗等因素的影响下,我国股市发生了剧烈的波动,大量网民通过网络论坛、博客等形式表达了对股票市场发展的观点,悲观情绪的传染进一步引发了股票价格的过度波动和持续低迷。与传统媒体的信息传播方式不同, 网络信息具有匿名性、互动性、及时性等特征。在互联网时代,股票市场的信息结构发生了深刻的变革,上市公司、监管当局不再是仅有的信息提供者,信息发布成为大众投资者的自发行为。在这一背景下,利用文本挖掘技术提取网络信息中体现的投资者情绪特征,研究网络信息与股票市场的关联机制具有重要的理论意义与现实意义。(2)网络信息的特点但是,如何充分利用网络信息一直是一个难题,原因在于网络信息具有海量、半结构化、时效性强的特点。海量有两个维度,第一个维度是指数据量的庞大。目前,一旦谈及挖掘网络数据,数量级最少都在GB,更多的都在TB、PB甚至EBl以