分享
搜索系统各模块
输入“/”快速插入内容
搜索系统各模块
飞书用户7782
2024年4月6日修改
1.
Query理解
2.
召回
2.1
召回形式化目标
召回由于其应用模式,决定优化目标为从海量候选集中找到对系统收益最高的一个子集(这里的收益根据系统的不同而不同,譬如电商搜索中是GMV/Orders等,而在通用网页搜索中是相关性/时效性等)。
基于以上,我们可以给召回模型的优化目标做一个简单的形式化定义:假定函数
为一个针对用户u和候选项v的度量函数,则召回的目标为
从上述的召回目标定义中不难发现,召回阶段的模型技术迭代,需要考虑两个重要的问题:
1.
预估问题
:对于召回模型而言,如何通过更好的网络结构、训练样本或loss设计,使得模型能更好地拟合或者反映真实的价值度量函数,即如何让模型预估
更接近ground truth的
2.
检索问题
:当训练好的预估模型估
给定时,如何得到更精准的召回集合,即常规意义上的
检索问题
。
上述两大问题,引出了两种迭代优化思路:一段式和二段式。
对于基于向量的两段式解决方案,由于检索范式比较固定,因此大家在迭代的过程中主要考虑的是如何在向量结构的框架下,去迭代模型能力,近似于在一维空间中做优化,技术轻量但天花板有限;而对于一段式的解决方案,由于显式索引结构和复杂模型的引入,在迭代中通常需要同时将索引学习、模型结构优化、系统可提供算力的约束这三者同时纳入考虑,近似于在三维空间中做优化,效果天花板高但系统过于厚重。