全文预览

社交媒体数据挖掘(ppt课件)

上传者:似水流年 |  格式:ppt  |  页数:27 |  大小:5510KB

文档介绍
数学与计算机科学学院Р明德至诚·博学远志Р背景介绍Р3Р12.6亿用户?50万条评论/分钟?>29万条状态/分钟?~14万张图片/分钟Р2.8亿用户?状态2900万/天?照片1750万/天?日志125篇/天Р8亿用户Р5.6亿用户?>1亿条微博/天Р5.55亿用户?>3.4亿条推文/天Р项目背景Р4РKlout:衡量用户影响力指数?Datasift:实时社交数据挖掘分析平台?PeerIndex:用户社交影响力分析平台Р微瑞思创:专注社会化数据挖掘?知微:社会化媒体数据挖掘?北京大学可视化研究小组Р研究现状Р国外Р国内Р5Р社交媒体Р数据采集Р本作品? 构建一个基于Hadoop架构的社交媒体数据采集与挖掘及可视化分析平台Р网络爬虫РAPI采集Р平台概况Р数据挖掘Р社区发现Р话题发现Р可视化展示Р用户关系分析Р用户微博分析Р传播分析Р话题分析Р第三方数据Р6Р主要组成:?1、HDFS分布式文件系统?2、MapReduce处理框架?3、HBase分布式数据库РHadoop组件结构图Р由Apache基金会所开发分布式系统基础架构Р主要优点:? 高可靠性、高扩展性、高效性、高容错性РHadoop介绍Р7Р背景介绍Р平台整体架构Р社交媒体数据采集Р社交媒体数据挖掘Р数学与计算机科学学院Р明德至诚·博学远志Р可视化分析Р8Р社交媒体数据采集与可视化分析平台Р平台整体架构Р数据存储层:?MySQL:存储简单的业务数据信息?HBase:存储海量的社交媒体数据Р表现层:用户交互Р应用层:业务处理Р9Р背景、研究状况Р平台整体架构Р社交媒体数据采集Р社交媒体数据挖掘Р数学与计算机科学学院Р明德至诚·博学远志Р可视化分析Р社交媒体数据采集Р模拟?登陆Р存储Р解析?网页Р抓取?页面Р1. 网络爬虫Р2. API采集Р注册为?开发者Р存储Р调用APIР身份?验证Р2. API采集Р3. 第三方数据导入

收藏

分享

举报
下载此文档