微薄分类阅读 +readweibo.com +weibo2read.com +weibotoread -weiboreader.com
动机 MOTIVATION
到底做什么?
从最开始的需求出发,找到数据挖掘相关的人和微博
1. 先找到所有和机器学习相关的人
主要找两类人:广播者 和 收听者
从自己的微博出发,找到关注的人中简介中含有机器学习相关关键字的用户,继续挖掘其粉丝和关注
如果用户简介中直接提到数据挖掘相关的关键字,直接认定其就是机器学习相关的;否则,根据用户间的关注关系,判断一个用户是否是数据挖掘相关
根据粉丝数量,微博数量等属性判断一个用户是广播者还是收听者
数据挖掘关键词:
数据挖掘 data mining dm
机器学习 machine learing ml
自然语言处理 natual language process nlp
搜索 search rank
数据分析 data nanlysis
机器翻译
个性化 推荐技术 推荐系统 recommend system
大数据 big data
信息检索
计算机视觉
2. 筛选数据挖掘相关的微博
用户分类:
- 认识的人(亲人,朋友,同学,同事)
- 特别关注(兴趣相同的人)
- 媒体人(公司官微)
- 明星名人(IT名人,如马云,雷军等;娱乐明星,如文章同学,李宇春)
features:
- 微博原创比例
-
微博来源:分别统计几个类别的比例
- name:如何使用
- description: 如何使用
- province,city
- 是否含有博客地址url
- gender
- 关注数
- 粉丝数:在加上和关注数的比例
- 微博数
- 收藏数
- 互相关注数(比例)
- 创建时间
- 是否认证
微博分类:
- 状态更新
- 新闻消息
- 主题微博(IT, 数据挖掘,美剧,时间管理)
features:
- 作者features
- 转发数:可以扩展使用转发信息
- 评论数:可以扩展使用评论信息
- 表态数
- 是否含有#话题#
- text
- 长度
- 如何使用内容?
- source
- 是否原创:可以扩展使用原创微博的作者信息
- 是否含有图片
- 发微博的时间段(小时,星期)
注意,各种计数字段由于是不断更新的,可以加上时间信息
进展
➀
先不对用户进行分类,而是将用户属性放到微博属性中,直接对微博进行分类
将微博粗分为:新闻,关注领域,其他
这三个类别
➁
手工标注类别是发现,这个分类太粗了,而且有个大问题是,关注领域
这个类别太抽象了,每个人关注的都不一样,想不到那些feature能够表达这个抽象的概念,按照现在的想法,可以具体化这个类别,对我来说,关注领域分为两部分,一是 人工智能技术
,包括机器学习,数据挖掘,自然与然处理等,另一方面是一些IT技术,包括Hadoop,MapReduce,Vim,Linux等
随便想了想就发现各种交并补集
现在想到的一个简化方法是,用户选择部分微博建立关注领域,之后算法学习这个领域的模式,之后识别其他微博
两个假定:1. 一个微博只能属于一个类别 2. 不同用户对微博的分类相同
类别标签应该是分层的树状结构,开始训练的时候,只有子类别,用户可以将几个子类别绑定到一个view中,就像数据库中的视图一样
现在将微博分组细化一下:1:新闻
,2:机器学习
,3:心灵鸡汤
,4.搞笑娱乐
,5.其他
➂
生成feature
利用各种文本信息:用户名,用户简介,微博正文。分别建立对应的词典,之后视为三个feature,TODO 由于用户关注的人等信息也收集,目前只用微博正文先
TODO 计算微博转发评论的衰减公式
➃
按照主题分类:
1. 机器学习分享讨论
1. IT技术分享讨论
1. IT资讯
1. 社会,国际新闻
1. 美剧电影电视剧
1. 心灵鸡汤
1. 搞笑段子
1. 其他
➄
采用Online Learning策略: 一边标注一边预测
为什么要对微博进行分类
新浪微博已经支持对用户分组,分组阅读就相当与对微博分类阅读了?
每个用户都会发各种各样的微博,用户分组充分解决分类阅读的需求