搜索点击模型简释

shape
shape
shape
shape
shape
shape
shape
shape
%title缩略图

先来段华师大MBA校教育中心的对原文作者的介绍。

陈运文是盛大文学首席数据官(CDO),在加入盛大集团之前,他曾在百度公司搜索技术部任职,负责百度的语义分析算法、搜索数据分析、相关性排序等核心技术研发工作。陈运文博士毕业于复旦大学计算机系。 %title插图%num %title插图%num看过他 2 篇文章,其中有和我分析百度 F1-6 的方法之一相似。所以仔细注解了陈博使用搜索点击模型的内容。

以下双下划线后的内容均为鄙人的注解。

Click Model 的使用

// 使用搜索点击模型

用户的搜索点击模型(Click Model)其实是一个非常大的话题,涉及到用户查询满意度的建模和分析。

// 百度真实网页权重里有一个 satisfyScore(满意度打分),所以搜索点击行为不仅是提升点击权重,连带提高满意度权重。

在今天的搜索引擎技术中,通过 Click Model 衍生出了众多的功能,包括搜索满意度的自动监控、搜索结果的自动调权调序等。

// 这里提到了搜索点击模型会自动改变排名。

而这些技术的出发点都是 User Behavior(用户行为)数据。

在 Session 信息(a search session 一次搜索周期信息)里,用户的点击行为往往能提供丰富的信息:

// 百度网页搜索一次完整的搜索周期包含大量信息,有查询词,搜索结果的标签,标题,链接,高度、宽度,模版,排名,数据策略ID,点击校验参数,时间戳,官网认证标识,何种搜索结果,随机样本ID,查询ID,付费名,是否百度首页,是否登录百度账号,搜索形式,搜索框位置,字符编码,输入耗时等几十项信息。

  1. 在搜索结果从上至下被用户浏览的过程中,当被点击的结果中间出现了跳跃,例如 Query1(第1次搜索)对应的自然排序结果是 Result1(第1个结果), Result2(第2个结果), Result3(第3个结果)…,但是如果大量用户的点击是 Result1, Result3, 则 Result2 的相关性可能存在问题;

    // 意思是点击第1、3个结果,不但可以提升第1、3个结果的权重,还可以降低第2个结果的权重。所以对付竞争对手快速点击一个办法是大量点击其他结果。

  2. 另外一种情况是,如果同一个 Query 产生了一次点击后,间隔一段时间后再次出现了对后面结果的点击,则也许说明了之前结果的满足度不够高。

    // 一种在搜索结果页降低竞争对手满意度权重的方式,先点击对方的结果,隔段时间再点自己网站的结果。

  3. 在同一个 Session 里,用户发生主动 Query 变换(或称为 Query Re-write)也往往能说明问题,前面的 Query 如果搜索结果质量不高,则很多用户会选择修改查询词,此时前面被点击的 Title(搜索结果标题)重要程度往往不如后续的 Title,等等各类场景很丰富。

    // 另一种一石二鸟的办法是先搜索一个竞争对手排名好的关键词,点了之后,更换另一个自己网站的相关词点击,亦可降低对方网站的满意度。

以上各类的 Click Model 思想虽然在实际线上系统中被广泛运用,但竞赛中没有提供更详细的信息,包括点击结果在搜索中的排序(对于分析点击模型至关重要)、点击发生的时间、点击停留间隔、用户的 Cookieid/Userid(暂存用户信息ID/用户ID)等,限制了发挥,真实应用里,通过 Click Model 来对用户查询意图的把握,应该可以更深入的进行挖掘。

// 很久没写 seo 技术的文章了,这次看到陈运文博士获得 CIKM Competition 2014(2014年国际数据挖掘竞赛)冠军,觉得在 NLP(自然语言处理)成熟以前,传统的算法仍然比较重要。在百度 seo 圈内作用依然存在,遂发布供各位新人学习,老人评点。

— 吴星

2015年1月于上海浦东八佰伴

发表评论