Feature Fusion

调研特征融合方法

Posted by Deavan on November 10, 2021

1. Deep Feature Fusion for Iris and PeriocularBiometrics on Mobile Devices

师姐推的一篇自动化所的文章,做的是虹膜和眼周特征融合,发表在TIFS 影响因子7.178。 但是感觉文章的贡献主要在于公开了数据集,并且基于此实现了两种特征的融合,并没有什么创新点?

文章列出了一个表格,内容为不同文章结合的虹膜特征和眼周特征类型,以及特征融合方法。

大概分为三个level的融合,分别为Score level、Decision level和Feature level。

1、 Score level

据说最为常用的特征融合策略,通俗理解来说就是在最终的预测结果上进行融合,通常称为late fusion,一般做法是进行多个模型的训练,最后对结果进行fusion,常见的fusion方法有平均值average、最大值(maximum)、加权平均(weighted average)、以及逻辑回归的方法。这里还介绍了使用神经网络的方法进行融合,使用两层隐藏层。还有用随机森林的,简单理解来说就是将多个决策树分别训练,尽量降低不同决策树之间的相关度。

随机森林链接

这里有机会补一些ensemble的方法,看起来ensemble和 score level好像是一回事。

2、 Decision level

训练一个逻辑回归模型,找到每个分类器的权重。这和score level的区别是什么呢?

3、 Feature level

在feature层进行concat,然后用DLDA进行降维,实验验证这要比score level 效果好。

接下来介绍的是本篇文章的做法,

多模态融合的有效性很大程度上取决于融合参数的选择。所以自适应权重效果会更好。

TECHNICAL DETAILS

进行了一些预处理,去掉一些多余信息。

模型基于maxoutCNNs,相比较于AlexNet和 VGG-16,有更小的空间占用和参数量,以及更小的特征维度表示。但是结果呢?

直接concat可能效果并不好,先加上先验信息权重。

具体Maxout的做法如图Fig.4,这里我不打算用maxout,因为这个model主要是用来减少模型体积的,我们不需要这个考量,简单了解一下这个结构,相当于进行了四步卷积,每一个卷积后面都有pooling和maxout,pooling就是最大化池化,size减半,然后将通道平均分为两个slice,这一步可能是maxout需要的,然后进行一个maxout,这里跳过不用了解。

然后再看图Fig.5 可以发现它的图像是分别输入到相应的特征提取模型,所以权重是不共享的,然后分别得到n1维的特征fc1,和n2维的特征fc2,然后进行的就是concat。

Fig.6是进一步的结构图,分别提取虹膜和眼周的特征,然后经过一个α的权重进行concat,最后用于分类。在度量部分,作者使用了Cos距离,L1,L2,Coefficient。

CNN网络中方形输入可能效果会好一些,因为矩形短边可能会被过滤器忽略。

作者跑了对比实验发现虹膜数据增强之后效果更差,眼周数据增强后效果较好,所以前者没有做增强,后者做了。关于距离度量方法也进行了对比,发现cos和coef效果比较好,cos效率高一些所以选择了cos。

接下来做的是单模态的识别实验。

We conduct a series of experiments to show the effective-ness of bimodal fusion and also investigate the contribution ofeach particular modality on the recognition performance.

首先做了 自适应权重的特征融合 vs 直接concat特征融合对比。发现尽管眼周的单模态识别效果很差,但是特征融合之后还是有提升。

接下来做了不同权重系数的实验对比,发现当虹膜权重较高时效果较好,这也说明了权重对融合效果十分关键。然后还对比了自适应权重和这种手动选出的权重,发现自适应权重的效果更好一些。

Exploring complementary features of various modalities cantake full advantage of different information, which will bebeneficial for future multimodal fusion research. For the issueof mobile identification, we will focus on tackling the cross-sensor recognition problem, matching images obtained frommobile devices and those from specialized equipment, whichhas practical significance. In the future, we will also try touse non-square filters and irregular kernel shapes in the CNNsmodel for processing rectangle iris images to avoid the imagedistortion problem.

未来可能会尝试使用非方形卷积和不规则的内核形状处理方形虹膜数据来避免失真问题。