Resys China all about recommender systems

Resys Group 第四次活动总结 (by xlvector)

03.28.2010 · Posted in resysevent

昨天邀请到了IBM CRL的3位研究人员给resys group的成员们介绍了他们在推荐系统方面的一些研究成果,首先要感谢Intel社区给我们提供了场地。

因为我最近半年在IBM CRL实习,和 3为researcher在一个组,所以对他们的工作比较了解,所以在这里总结一 下我的一些看法。

第一个演讲的是赵石顽,他的演讲内容是 Pharos: Soical map based visual recommender for content-centric website。Pharos是他们去年做的一个项目,这个项目的主要内容是基于挖掘IBM Blog中的用户数据,给用户提供一个全新的浏览web2.0的方式。我们知道,很多web2.0网站都有他们独特的UI,比如delicous, digg,他们的UI设计都比较独到。不过他们的设计大都还是基于传统的网页设计,就是首先有分类,然后分类里面有分类,这样的层次结构。这种结构的缺点 就是不利于用户通过浏览的方式来找到自己感兴趣的东西。所以Pharos是希望提供一种新的浏览方式。他的主要手段,是通过数据挖掘,将用户,博主,关键 字以tag cloud的形式展现出来。当用户进入系统的时候,在首页上就可以看到很多聚类,每个聚类里用不同的颜色来区分了这个聚类的关键词,和主要用户。tag cloud的优点是可以在有限的空间里展示非常大量的信息。 Pharos里面用到的聚类方法主要是基于LDA的,他们用LDA将不同种类的entity(user, keyword, article)来聚类,而每个类里面通过pagerank来确定entity的权重。

第二个演讲的是袁泉,他主要是介绍了graph model。因为我在IBM的前一段时间就是研究Graph Model融合temporal信息的,所以对他的工作比较了解。Graph Model是一个历史非常悠久的模型,他的特点是万金油,什么东西都可以往上面放。不过他的缺点是很难确定不同种类数据的权重,以及边的转移概率。 graph上目前比较常用的都是基于随机游走的ranking算法,这类算法速度非常快。但是,有很多精度高的代数算法,却速度相对比较慢,比如对图的 Laplacian矩阵的分析,就需要借助SVD等等手段,当图的规模大了之后,效率还是有一定的问题。

另外,构图也是一个见仁见智的问题,一般来说构图比较简单,只需要将有关系的东西连在一起就行了,不过边的权重很难确定。另外图的算法大都是非 learning的算法,我个人一直希望提出一种有目标函数的情况下,自己学习边的权重的算法。

最后一个演讲的是张夏天,他主要介绍了对 tag推荐的研究。tag最近是推荐研究的一个热门。他有两个问题,一个是推荐tag,一个是利用tag改 善对item的推荐。不过我对这个方面研究的不是很多。在netflix prize中,我们用过一些类似tag的文本信息,比如电影的演员,导演作为tag。当时起的作用不是很大,这也许和电影的diversity不够大有关 系。不过tag起作用的,个人感觉还是在top-N推荐上,它对rating prediction的影响有限。 tag分布随时间的演化也许是一个值得研究的方面,夏天介绍了前人的tag对后人的影响,可以发现后人打tag非常依赖于前人的tag,所以tag的冷启 动也许是个问题(似乎这个只能通过自然语言理解,来提供了)

总之,非常感激三位的精彩演讲,这一次的演讲比较学术一点,公式稍微多了一点,不过大家如果仔细消化,还是可以获得不少的收获。

Tags:

4 Responses to “Resys Group 第四次活动总结 (by xlvector)”

  1. 很遗憾因为加班……错过了去的机会

    就近在咫尺啊

    泪奔

  2. 这次活动真的是受益匪浅,但是对于其中一些内容还没有好好消化,不知能否提供三位老师讲演的PPT?
    谢谢!

  3. david says:

    上次说要上传演讲PPT和实习的联系方式,怎么一直没有发啊?

  4. 不错不错,下次有活动我一定参加~

Leave a Reply