在我们之前的学习中,我们将OT描述为一个黑箱的过程,在这个过程中发送者Sed能够告诉接收者Rec特定信息,同时保证Sed不知道特定信息的具体内容,而Rec不知道Sed所持有的其他信息的具体内容。接下来,我们将探讨OT的具体实现方法:
semi-honest场景下的OT基于公钥实现,采用不对称加密。其过程可以被描述为:
这个过程是semi-honest场景下的,因为Rec完全可以持有两个公私钥对,而将公钥发送出去,通过两个私钥分别解析出两个密文。
在上面描述的过程中,一次OT中涉及三次密钥加密。但是OT作为一个基础的原语,其对电路的性能具有很大影响。为了支持更多的OT操作,需要进行不经意传输的优化,提出不经意传输拓展协议
Beaver 依据混合加密构想提出了第一个非黑盒方式的不经意传输扩展协议,可以执行少数基础OT 协议(传统的基于公钥加密算法的OT协议)来构造大量的OT 协议,然而 Beaver 提出的协议需要计算复杂的伪随机发生器,在实际中也不高效,但是扩展协议的思想具有重要的影响
基于OT扩展协议的思想,Ishai等人提出了以黑盒方式构造的OT扩展协议(IKNP OT extension protocol),将基础OT 协议和随机预言模型相结合,把少量基础OT的计算代价通过对称加密操作均摊到大量的OT 操作,该协议可以同时满足实用性和安全性需求,具有重要的意义并得到很广泛的应用
过拟合是指模型取得了较低的训练误差,但是在泛化时反而展示出较高的泛化误差。过分拟合时可能偶然拟合到数据中的某些噪声,而这些噪声无法泛化到检验样本,使得整体模型的性能降低。总得来说可以将过拟合放在下面三种情况下讨论:
噪音:当训练数据中某些样本的属性被错误标记,而模型为了降低训练误差,而尽可能对所有信息进行处理,拟合度很高以至于覆盖了这些被错误标记的数据,从而导致最终的泛化效果下降。存在一个更简单的、虽然训练误差不是最小,但是由于拟合度低,从而对这些错误标记数据具有一定鲁棒性的模型在泛化时取得更好的效果。
代表性样本:而当训练数据本身较小时,由于各个种类在训练集中缺乏代表性样本,训练集本身无法反映真实宏观情况,使得模型的拟合结果在泛化时失效。
多重比较过程:以决策树为例,决策树在生长过程中通过阈值为的多重比较过程来决定是否拓展结点,即从所有可选的拓展方案中挑出一个拓展方案,如果该拓展方案提供的增益大于时,就选择这个拓展方案。
多重比较过程:考虑我们有100个分析师,每个分析师能够按50%的几率给出对于随机事件A的判断,那么一个分析师连续10次判断正确的可能性很低,而这100个分析师中能够至少找到一个连续十次判断正确的分析师的概率很高。我们将分析师抽象为拓展方案,即可理解上述问题。
过拟合问题的一个核心问题在于如何对泛化误差进行估计。当然,这里的估计泛化误差并不是直接使用检验数据集,而是需要基于模型本身和已知的训练样本来对最终的模型泛化进行估计。
过拟合的另一个问题在于如何处理过拟合,我们以决策树归纳算法为例,讨论剪枝对于解决过拟合的作用。
后剪枝的效果偏好,但是会浪费额外的计算资源。
评估分类模型的性能,通常和分类模型的训练过程是分不开的。因为我们持有的数据集是有限的,而训练集和检测集都是我们的数据集一个子集。
对于两个模型和,前者在大小为1000的检验集上的表现的泛化误差为,后者在大小为10的检验集上表现的泛化误差为,对两者的泛化误差的直接比对并不能直接表现出分类器性能的(统计显著)差异。
第一个问题,考虑模型检验集的规模差异,实际上是考虑其表现出的泛化误差的置信区间问题。小的检验集得出的泛化误差的置信区间相对发散,而大的检验集则相对紧凑。在置信概率下,对置信区间的计算可以考虑为:
用准确率表示N次预测中成功的比例,认为服从均值为,方差为正态分布:
和是置信概率为时标准正态分布下的上下界
第二个问题,考虑两个模型的差异的统计显著性,实际上是看他们之间的准确率在给定置信概率时正态分布下是否严格大于零。假设在大小为的检验集上的错误率为,方差为,模型类同,则两者错误率的观测差的方差是,根据置信概率可以计算出该观测值的置信区间。当置信区间内严格不包含零时,认为两个模型的差异具有统计显著性
第三个问题,考虑利用折交叉验证的方式计算的错误率。认为观测的总方差可以被描述为:
其中表示次交叉验证中每次采用相同划分时两个模型的错误率差值的平均值,在这个场景下采用t分布(区别于之前采用正态分布)计算置信区间,系数决定了置信区间: