• 3D人体相关研究总结 Human-3D-Overview

    3D人体相关研究总结(Body、Pose、Reconstruction、Cloth、Animation) 前言 本文简要介绍与3D数字人相关的研究,包括常用3D表示、常用3D人体模型、3D人体姿态估计,带衣服3D人体重建,3D衣服建模,以及人体动作驱动等。 常用3D表示 目前3D 学习中,物体或场景的表示包括显式表示与隐式表示两种,主流的显式表示包括基于voxel、基于point cloud、和基于polygon mesh三种,隐式表示包括基于Occupancy Function[1]、和基于Signed Distance Functions[2]两种。下表简要总结了各种表示方法的原理及其相应优缺点。 表示方法VoxelPoint CloudPolygon MeshOccupancy FunctionSigned Distance Function 表示图像 表示原理 体素用规则的立方体表示3D物体,体素是数据在三维空间中的最小分割单位,类似于2D图像中的像素点云将多面体表示为三维空间中点的集合,一般用激光雷达或深度相机扫描后得到点云数据多边形网格将多面体表示为顶点与面片的集合,包含了物体表面的拓扑信息occupancy function 将物体表示为一个占有函数,即空间中每个点是否在表面上SDF 将物体表示为符号距离函数,即空间中每个点距离表面的距离 优缺点 + 规则表示,容易送入网络学习 + 可以处理任意拓扑结构 - 随着分辨率增加,内存呈立方级增长- 物体表示不够精细- 纹理不友好+ 容易获取+ 可以处理任意拓扑结构- 缺少点与点之间连接关系- 物体表示不够精细- 纹理不友好+ 高质量描述3D几何结构+ 内存占有较少 + 纹理友好- 不同物体类别需要不同的 mesh 模版- 网络较难学习+ 可以精细建模细节,理论上分辨率无穷+ 内存占有少 + 网络较易学习 -...


  • 文本视频搜索 Text-to-Video Retrieval

    文本视频搜索 Text-to-Video Retrieval 前言 文本视频搜索(Text-to-Video Retrieval)是指给定一句文本描述,在视频库中查找相应视频。与图像文本匹配(Image-Text Matching)相似,研究者们致力于探索如何更好地度量文本和视频之间的相似性。然而相较于文本图像搜索,一方面视频数据采集标注和存储难度大,目前人工标记的高质量数据集较少;另一方面视频内容复杂多变、时长变化大、处理难度高,研究工作的进展也相对较慢。 相关工作介绍 基于深度学习的文本视频搜索研究主要围绕两个思路来进行,一是如何融合视频的多模态特征,如利用图像,音频,动作等信息来学习更强大的视频特征;二是如何更有效地编码视频和文本特征,如采用不同类型的特征编码网络来学习互补特征。 [1] Learning Joint Embedding with Multimodal Cues for Cross-Modal Video-Text Retrieval, ICMR2018. [pdf] [code] 该文基本思路是结合视频不同模态输入与文本的相似度来提升搜索性能。该文将视频的 Activity Feature (RGB-I3D) 和 Audio Feature (SoundNet CNN) 相融合来学习 Activity-Text 联合特征空间,并采用 Object Feature (ResNet152) 来学习 Object-Text 联合特征空间,其中文本特征采用 word embeddings 300 + GRU 进行学习。此外,采用加权排序损失函数 (weighted ranking loss)并选取最难负样本...


  • 深度度量学习 Deep Metric Learning

    深度度量学习 距离度量学习 在搜索任务中,给定查询样本和候选集合,我们一般采用的步骤是:1)提取样本特征;2)计算查询与候选样本特征之间的距离;3)返回距离最小的候选作为搜索结果。 常用的度量样本之间距离的方法包括欧式距离,余弦距离,汉明距离等。然而单一的距离度量方式难以适用不同场景下的搜索任务,已有的距离方式本身也可能存在缺陷,如欧式距离假设特征所有维度的权重相同,因此如何从数据中学习出有效的距离度量成为许多研究者关注的问题。 距离度量学习(Distance Metric Learning)算法一般是学习一个马氏矩阵,从而两个样本点 \(\boldsymbol{x}_{i}\) 和 $\boldsymbol{x}_{j}$ 之间的距离定义为 $$D_{\boldsymbol{M}}(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}) = (\boldsymbol{x}_{i}-\boldsymbol{x}_{j})^\top \boldsymbol{M} (\boldsymbol{x}_{i}-\boldsymbol{x}_{j})$$ 距离度量学习在人脸验证和行人再识别场景中研究较多,如 Margin Nearest Neighbor Learning (LMNN),Information Theoretic Metric Learning (ITML) ,Logistic Discriminant Metric Learning (LDML) ,KISSME, XQDA,Probabilistic Relative Distance Comparison (PRDC) 等。 基于距离度量矩阵学习的方法虽然多种多样,本质均是基于匹配样本距离小于非匹配样本距离的假设来定义不同的目标函数和约束条件,且求解方法多种多样。该方法在搜索阶段中一般利用学习到的马氏矩阵快速计算特征间的距离,效率较高。 深度度量学习 随着深度学习的兴起,研究者们开始关注如何利用深度神经网络学习好的样本特征,从而在特征映射空间中采用简单的欧式或余弦距离即可正确度量样本之间的距离,我们将其称为 深度度量学习(Deep Metric Learning)。 经典损失函数 深度度量学习的研究重点在于如何定义一个好的损失函数,来指导网络学习到具有判别能力的特征。经典的度量学习损失函数包括对比损失函数(Contrastive Loss)和三元组损失函数(Triplet Loss)。 Contrastive...