LFW 人脸比对
使用 LFW 数据集介绍集成学习。
项目目标
该程序将收到两张人脸照片,并且应该能够确定它们是否属于一个人。
数据集
- 简介:一个人脸照片数据库,旨在研究无约束人脸识别问题。该数据集包含从网络收集的 13,000 多张面部图像。每张脸都标有照片中人物的名字。数据集中有 1680 名拍照者拥有两张或更多张不同的照片。
- 限制:
- 人脸验证和其他形式的人脸识别是非常不同的问题。例如,很难从验证性能推断到 1:N 识别性能。
- 许多群体在 LFW 中没有得到很好的体现。比如,孩子很少,没有婴儿,80岁以上的老人很少,女性比例也比较少。此外,许多族裔的代表性非常小,或者根本没有。
- 虽然理论上 LFW 可用于评估某些亚组的表现,但该数据库的设计初衷是没有足够的数据来得出有关亚组的强有力的统计结论。简而言之,LFW 不够大,无法提供特定软件已经过彻底测试的证据。
- 额外的条件,如光线不足、极端姿势、强遮挡、低分辨率等重要因素并不构成 LFW 的主要部分。这些都是重要的评估领域,特别是对于旨在识别“野外”图像的算法而言。
集成学习
- 在统计学和机器学习中,集成方法使用多种学习算法来获得比单独使用任何组成学习算法更好的预测性能。与统计力学中的统计集成(通常是无限的)不同,机器学习集成仅由一组具体的有限替代模型组成,但通常允许在这些替代模型中存在更灵活的结构。
- 算法:
- 随机森林
- 套袋
- 表决
- 提升:Ada 提升
主要步骤
- 为训练部分准备数据:我使用prepare_dataset()和prepare_dataset_subtract()函数将图像转换为向量。然后我通过以下方式在两张图片之间建立关系:
- 减去它们的向量。
- 它们的向量的串联。
- 然后我用不同的参数训练不同的模型以达到最高精度。
- 最后,我评估了不同模型的准确性。
结论
- 通过减去向量建立关系可以带来更好的性能。
- 一般来说,随机森林分类器的性能高于其他模型。