文件格式:word
文件大小:3.18MB
适用专业:计算机科学与技术
适用年级:大学
下载次数:0 次
我要下载:点击联系下载论文编号:202566
资料简介:
毕业论文-点击模型的机器学习算法研究,共57页,19898字
中文摘要
最新研究证明,点击模型是一种解释搜索引擎点击日志的有效手段,并能
为搜索引擎带来显著的性能改善。一些经典的点击模型研究工作包括:UBM模
型、DBN模型、CCM模型等等。其中,每个单一模型都提出了自己的模型假
设,用于解释用户的搜索和浏览行为。这些模型又各自提出了自己机器学习算
法用于参数估计。事实上,参数估计算法在点击模型准确地解释点击行为的过
程中起着非常关键的作用。我们发现,在相同的模型上使用不同的参数估计算
法将得到明显不同的结果。在本文中,我们提出了一种新的针对点击模型的贝
叶斯学习算法。这种算法把所有点击模型的参数估计置于一个统一的框架内,
并具有以下特点和优势:
? 此算法可以被广泛应用于现存的点击模型,并且我们在本文中具体示范了
如何用它推导DBN、CCM、UBM这三个典型的模型。新的算法基于贝叶
斯框架,所以它在刻画点击的不确定性上具有优势,从而体现出更强的一
般性。同时,新算法不仅在性能上超越了现存点击模型自身的学习算法,
而且也提供了一种横向比较各模型性能的合理方法。
? 传统的点击模型只局限于刻画点击行为中存在的”位置偏差”。而我们的新
算法能引入并利用更多的信息源进行学习,包括BM25参数和PageRank得
分等等。这个特性使点击模型能更准确地解释数据。实验证实,当引入更
多的信息后,各种点击模型在预测和排序两方面的性能都得到了非常显著
的提升。
? 由于贝叶斯算法的增量特性,我们的新算法可以很容易地被应用于超大规
模数据集,或者是不断动态增长的数据集。
关键词:点击模型、机器学习、参数估计算法
ABSTRACT
Recent advances in click models have positioned them as an e?ective approach
to the improvement of interpreting click data, and some typical works include UBM,
DBN, CCM, etc. After formulating the knowledge of user search behavior into a set
of model assumptions, each click model developed an inference method to estimate its
parameters. The inference method plays a critical role in terms of accuracy in inter-
preting clicks, and we observe that di?erent inference methods for a click model can
lead to signi?cant accuracy di?erences. In this paper, we propose a novel Bayesian in-
ference approach for click models. This approach regards click model under a uni?ed
framework, which has the following characteristics and advantagesbr />
1. This approach can be widely applied to existing click models, and we demon-
strate how to infer DBN, CCM and UBM through it. This novel inference method is
based on the Bayesian framework which is more ?exible in characterizing the uncer-
tainty in clicks and brings higher generalization abilities. As a result, it not only excels
in the inference methods originally developed in click models, but also provides a valid
comparison among di?erent models;
2. In contrast to the previous click models, which are exclusively designed for
the position-bias, this approach is capable of capturing more sophisticated information
such as BM25 and PageRank score into click models. This makes these models inter-
pret click-through data more accurately. Experimental results illustrate that the click
models integrated with more information can achieve signi?cantly better performance
on click perplexity and search ranking;
3. Because of the incremental nature of the Bayesian learning, this approach is
scalable to process large scale and constantly growing log data.
Key words: Click Model
Machine Learning
Inference Algorithm
目 录
第 1 章 引言 ......1
第 2 章 背景知识 .4
2.1 检验假设和瀑布假设 4
2.2 CCM点击模型........5
2.3 DBN点击模型 ........5
2.4 UBM点击模型........6
第 3 章 点击模型的贝叶斯学习算法 ........7
3.1 框架 .........8
3.2 参数估计算法 ........9
3.3 预测未知的点击.... 11
第 4 章 个案研究 ......... 13
4.1 UBM的参数估计 (H-UBM) . 13
4.2 CCM的参数估计 (H-CCM) . 13
4.3 DBN的参数估计 (H-DBN) .. 14
第 5 章 点击模型的深度贝叶斯学习算法 . 16
第 6 章 近似积分算法的实现 ..... 19
6.1 Kullback-Leibler距离 ........ 19
6.2 算法描述 .. 20
6.3 初始化策略 ......... 21
第 7 章 数值实验 ......... 23
7.1 精度测试 .. 23
7.2 效率测试 .. 23
7.3 初始化策略的比较 . 25
第 8 章 基于真实数据的实验 ..... 26
8.1 实验设置 .. 26
8.2 Perplexity评测 ...... 28
8.3 NDCG评测 32
第 9 章 结论 .... 33
插图索引 34
表格索引 35
公式索引 36
参考文献 38
致 谢 ... 39
声 明 ... 40
附录 A
外文资料的调研阅读报告 ......... 41
A.1 Preprocessing ....... 41
A.1.1 Computing Prior 42
A.1.2 Approximation .. 42
A.2 Training ... 43
A.2.1 Updating x ...... 43
A.2.2 Updating other variables . 44
A.3 Case Studies......... 45
A.3.1 Click Chain Model........ 45
A.3.2 DBN Click Model ........ 45
A.3.3 User Browsing Model .... 47
在学期间参加课题的研究成果 ..... 49
资料文件预览:
共1文件夹,1个文件,文件总大小:3.18MB,压缩后大小:368.89KB
- 毕业论文-点击模型的机器学习算法研究
- 毕业论文-点击模型的机器学习算法研究.doc [3.18MB]
我要下载:点击模型的机器学习算法研究