Introduction

Introduction since 2013-12-12

机器学习资源

斯坦福机器学习公开课-Andrew Ng
- 视频教程
- [学习笔记](http://cs229.stanford.edu/notes/cs229notes1
统计机器学习(书)–李航博士
PRML
浙大人工智能导论–蔡登
pluskid 博客
其他书籍：推荐系统实践，模式分类，大数据，机器学习实战

项目经验

读研期间的项目经验

1. 百度-机器知我心

你拉我推的搜索推荐应用:

颠覆了对搜索框的认识，对推荐类搜索提供了个性化的检索结果
通过挖掘隐藏在用户硬盘上的兴趣特征，有效解决了推荐系统的冷启动问题
进行可解释化的推荐
- 喜欢××还喜欢×× 基本的协同过滤推荐，如ItemBased，UserBased
- 喜欢含有××标签的物品就像喜欢标签推荐
  - 豆瓣书籍，本身含有标签，对用户输入的书籍进行标签统计，聚类，排序，最后按照标签推荐
  - 百度文库，本身无标签，但是可以从文件名中提取关键词作为标签

2. 百度-电影推荐

根据用户对电影的评分，以及电影的标签信息，预测用户评分。

基于用户和项目的邻域关系模型；
基于隐语义信息的BiasSVD，以及SVD++等模型

3. 浙大网新-创新计划

新闻聚合器

将微博短新闻和长新闻进行聚合，该应用通过不断爬取新闻和微博，并对其分类，去重，匹配，最终形成每类新闻的时间线展示

4. 网易-有道难题

追美剧学英语，通过数据挖掘技术帮助用户通过追美剧，看电影，学英语的应用

获取四六级，托福雅思的词汇集合，分析字幕中的每个单词，根据单词的长短，所属集合等信息，为目标用户加以标注

5. Eagle-无障碍检测和改造

网站镜像抽样爬虫

爬虫部分，基于crawler4j，修改源码，提高对中文编码的支持，以及对不规范网站的容错能力
网站镜像，重写url过滤规则，只爬取本站资源，同时，重定向网页内所有链接到本地服务器地址
页面抽样，根据url的结构特征进行抽样，设计url结构相似性算法，同时使用相似哈希(LSH)加快抽样速度

English Introduction

Snapshot Crawler

Recently I have developed a snapshot cralwer, which can mirror a whole website to local(It can fetch all the resources needed, for example webpages, pics, static files), then you can start a static server and visit the downloaded website locally.

We need to check whether the pages are designed well enough for the visully disabled people and the eldly people to visit

It’s hard to do all the check work automaticly(by programs), and we have many items that need people to check, so I have to make the check work as small as possible

The most straight forward resolution also our first solution is to when all the pages downloaded, sample part of them out for check, we call it sampling

But It’s time consuming

hash signature

over ten thousand