随着网络资源的丰富,找到和询问(query)最相关的一系列文本成为了学者们研究的问题。
之前的做法通常是直接计算逐个候选文本与询问的相关度。将前K大值对应的文档作为“最相关文档”输出出来。但是这种做法适用于那些候选文本集合较小,且只有少量文本与询问存在关联的情况。
但实际上,我们还有另一种场景,以搜索引擎为首的这类环境中,潜在的相关文档非常多,我们需要非常高的召回率(recall),并且尽量降低结果的冗余性(redundance)。在这种情况下,MMR就有用武之地了。
实际上MMR的算法核心思想可以用一句话解释——
A document has high mariginal relevance if it is both relevant to the query and contains minimal similarity to previously selected documents.
一个文章拥有高边缘相关性(MMR)当且仅当它与询问相关性高,而且与之前已经选出来的文章集合相关性低。
而使用公式化的表达如下——
其中,Q表示询问,表示文档,
表示选择出来的相关文档集合,
表示任意一种文档相关性计算函数。
以上就是MMR的解释,MMR在文档摘要方面有很多应用。想要更细了解,可以参考文献 The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries
《一句话解析最大边缘相关性算法(MMR, Maximal Marginal Relevance)》有一个想法