【论文评述】Delegated Search Approximates Efficient Search
本文研究的是代理搜索问题。
问题
参见【组会准备】Pandora’s Box, Delegation, Matching | Home of Mr. 5的Delegation部分。
问题模型
Distributional Model
有
Pincipal的效用函数为
Agent的效用函数为
Agent只能从
Principal可以提前框定一个eligible set,Agent挑的candidate必须属于这个set。
这个模型的一个小拓展就是Agent只能probe
Binary Model
上面这个模型只有Agent去探测了以后
然而有的时候,方案其实是已知的几种,只是有的方案比较可行有的不太可行的区别,这就是Binary Model描述的情况。
有
对于每个
Principal不晓得Agent花钱probe了哪些candidates。
Principal可以提前框定一个eligible set,Principal只接受属于该set的提案。
类似的,这个模型的一个小拓展就是Agent只能probe
主要结论
在Distributional Model下,存在机制保证Delegation Gap为
(这篇文章里的Delegation Gap是用 的形式定义的,也就是越小越好),而且该机制只需要知道 和 即可。而且该机制是一个简单的阈值策略,也就是当且仅当 时,才接受 ; 如果
是独立的,且没有点质量,则Delegation Gap可以被改进到 ; 这两个Model都可以规约为或利用Prophet Inequalities;
交互模型
基本
为了能够数学地研究这个问题,需要把上述的模型的基本交互行为进行建模。
概率空间
为了刻画Principal没有选择任何方案的可能性,把
机制
策略
现在,我们也可以说
当
为了体现principal没有能力自己寻找solution,我们直接要求
综合上述定义,若
扩展
当agent进行sample有cost的时候,agent的策略除了
外还需要包括一个“顺序策略” ,用来在给定了先前已采样得到的序列时下一个要采样的对象是谁。费用 在principal和agent的效益上都要扣除(在本论文里),因为作者觉得即使是在principal里agent的搜索也属于一种”waste”; 除了上面的sampling cost
,有时限制也被表现为sampling budget ,即采样的总个数不能超过 ; 可能被扩展为 ,agent能够在这些不同的测度上独立的采样; full-information case:principal既知道
,又知道 , 或者,
limited-information case:principal只知道
; 都为任意的非负函数, 或者,
是独立随机变量。
单提案机制
我们更仔细的关注一个重要的机制,那就是agent只能提交一个solution,principal可以接受或拒绝。这个机制叫单提案机制(Single Proposal Mechanism)。
Principal有一个可行集
形式化的,
为什么单提案机制是重要的呢,主要是因为以下引理:
Lemma1:
如果
Proof:
令
设
现在要证明
首先注意到
若
若
代理搜索与先知不等式之间的联系
现在我们要给出代理搜索和先知不等式之间的联系。这里的先知不等式并非最通常的按
选择规则
一个选择规则(selection rule)是一个从
一个停止规则(stopping rule)是一个从
(这个建模还是挺漂亮的,用这种“不可区分性”定义了“看不到后面”的在线性)
一个显式停止规则(oblivious stopping rule)是一个带有可行集
也就是接受可行的里最早的那个。
一个阈值停止规则(threshold stopping rule)是一个带有阈值
连续时间选择问题与先知不等式
连续时间选择问题(continuous-time selection problem,CTSP)是一个有序对
我们称一个CTSP
对于任意
其中当
下面定义一些重要的选择规则集合和分布集合:
是显式停止规则的集合; 是阈值停止规则的集合; 大致可以理解为独立 分布的集合。给定一个 ,给定 上的联合分布元组 ,从这 个分布里分别独立采样出一个元素,上述行为定义了一个 ; 大致可以理解为 元素独立同分布的集合。给定 ,从一个无原子分布上独立同分布地采样出 个元素, 与 也独立;(无原子指的是不存在这样的集合 , 的测度为正且其任意真子集的测度都为 (就像一个不可分割的原子)) 是全体 的 的并集。
下面是几个本文要用到的先知不等式:
满足 系数的先知不等式; 满足 系数的先知不等式; 满足 系数的先知不等式,其中 , ;
阈值停止规则对于连续时间和离散时间是不敏感的,所以前两个定理是可以直接由其离散时间版本得到的。
定理1的阈值是
定理2的阈值是
对于定理3,令
代理搜索到先知不等式的归约
这个归约是这篇文章最重要的一个观察了(不过我觉得还好其实(((这也是为什么我前面建模部分写得这么多(((
简单来说,
具体地,令
考虑映射
比方说,从
类似的,代理搜索中的机制和先知不等式中的选择规则之间也可以建立起联系。
设
也就是说,在
这样一来我们就完整地建立了代理搜索和先知不等式的完整联系。
于是我们可以直接把先知不等式的结论放到代理搜索(的Distributional Model)里,令
存在带阈值的单提案机制保证principal的期望收益至少为
; 如果principal和agent的utility是独立的,且都各自产生自一个无原子分布,则存在带阈值的单提案机制保证principal的期望收益至少为
; 如果principal和agent的utility是独立的,且都各自产生自一个无原子分布,且principal知晓agent的utility(因为后面判断是否接受的式子里要用到),则单提案机制,其在满足
时才接受( 为一恰当选取的函数),保证principal的期望收益至少为 。
二值输出
之前还提到了Binary Model,这个模型事实上基本等价于Weitzman’s box problem(也常被叫做Pandora’s box)。那么类似的,我们又可以利用Pandora’s box那边的结论了(部分基础结论见【组会准备】Pandora’s Box, Delegation, Matching | Home of Mr. 5)。
由于我对这个部分没有太多兴趣,所以只做简单介绍。
传统的box问题里,有个类似于“虚拟值”的东西。在无代理的Binary Model下,这个虚拟值就是
在有代理的Binary Model下,principal相当于无法决定box打开的顺序,而只能让agent按
令
文章证明了,存在阈值策略能够保证