Fork me on GitHub

理解编辑类视觉模型会用到哪些技术?

以下文章来源于 https://zhuanlan.zhihu.com/p/618719463

导读: 本文主要分享 ModelScope 社区已经上线的理解、编辑类模型,主要是对图像的理解和编辑。

主要内容包括四大部分:

  1. ModelScope社区概览

  2. 理解类视觉模型

  3. 编辑类视觉模型

  4. 更多模型


分享嘉宾|刘金林博士 阿里巴巴 算法专家

编辑整理|张少华 信雅达科技

出品社区|DataFun


01/概览


1. 魔搭社区

ModelScope 魔搭社区开源了众多模型,包括视觉、NLP、语音和多模态等各方面模型。另外平台还提供了一些数据集和空间,供大家测试使用。



2. CV 介绍

我们将 CV 模型进行归类,分为编辑类和理解类模型。理解类模型 ,比如常见的检测、分类,需要对图像内容进行理解,因此归为理解类模型,还包括识别、语义分割、抠图、关键点检测等。编辑类模型,主要对图像进行一些编辑,如常见的风格迁移、美颜、调色、上色、超分、增强等。

ModelScope 的模型具有先进、SOTA 和实用三大特点。模型有很多是从实际项目中沉淀出来的,不仅在公开数据集上达到 SOTA 效果,在实际图片应用上也有着比较好的效果。ModelScope 不仅有这些模型,也有一些预训练框架,大家可以基于这些 pretrain 模型,在自己的数据集上进行 finetune。也可以利用我们的数据集进行一些实验。


--

02/理解类模型


下面介绍理解类模型,这里主要介绍抠图模型。

语义分割、检测是图像理解里比较常用的模型。抠图可以把它理解为语义分割的一个精细版。语义分割是识别图像中不同区域的语义信息,有时它的边缘信息处理并不够好,如边缘精细达不到发丝级别。与语义分割相比,抠图对图像处理的精细度更高。人像分割是抠图的一个很重要分支,比如人像换背景,将人像抠出来重置到其他背景中,这其中我们不难发现,抠像对数据的要求是非常高的。如果进行有监督训练,需要大量标注数据,而且这种精细标注非常困难。

为了解决这个问题,我们采用了相对间接的方式实现,将任务划分为两个相对简单的子任务。第一个子任务做粗分割 ,这个任务是比较简单的,比如语义分割,另外这个过程标注成本比较低,而且可以从公开数据集上去获取大量数据。第二步通过一个粗 mask 之后,再做 refine,得到一个更精细的包括发丝边缘的数据。这类数据由于它是一个相对简单的任务,得到 mask 之后,可以通过合成的数据,如 PNG 数据有透明通道,可以把它贴到不同的背景上去,得到大量的合成数据。refine 任务是一个相对困难的任务,之后每一部分对数据要求都不是很高,这样就不需要标注大量数据。只需要通过公开的数据集和合成的数据集就可以达到训练目的。

总而言之,第一部分任务是粗分割网络,可以认为是一个语义分割网络。第二部分做 mask 质量统一处理,因为第一部分数据同时用了合成数据和公开数据。最后我们通过一个 refine 网络,基于原图和输出粗分割 mask,估计精细分割的 mask。



当然,这类方法不仅可以用于人像抠图,而且可以用在其他物品或者动物上,比如将它用在动物、植物、商品上。最终拓展到不同类别上,都可以取得较好的效果。



下面介绍人像抠图模型如何在 ModelScope 上使用。

首先进入社区找到抠图模块,启动 notebook。同时平台也提供了在线体验功能。



进入代码编辑,创建环境并安装相关依赖库,最后通过代码将模型加载调用以及结果保存执行就可以使用了。



--

03/编辑类模型


接下来介绍四个编辑类模型,风格迁移、人像美型、人像美肤和动漫化。

1. 风格迁移

风格迁移主要的任务将给定内容图形和风格图形作为输入,然后风格迁移模型自动地将内容图像的风格、纹理特征变换为风格图像的类型,同时保证图像的内容特征不变。

这里存在几个问题:出现扭曲,风格化不充分或者缺乏细节。比如人像风格化通常是比较倾向于保证脸部语义信息,风格化之后经常会出现人脸扭曲。

我们的工作在保留语义信息,尤其是脸部信息方面是做的是比较好的。我们的解决方法主要是加入了 attention 机制,保证人脸信息被注意到,这样脸部的细节会保持得更好。另外加入多笔触风格,保证它充分的风格化。



结合人像抠图和风格迁移,就可以实现一些比较有趣的玩法,比如把人像抠出来后贴到风格化背景上,就可以实现人在画中的效果。这就是理解类模型与编辑类模型相结合的一个应用。



大家也可以直接去 ModelScope 体验风格迁移的效果。



2. 人像美型

第二个编辑模型是人像美型。已有的工作存在两个问题,第一个问题是对于高分辨率图像处理存在困难,比如婚纱照的精修,需要对细节进行修改;第二是实际图像的处理效果。

针对这两个问题,我们使用了 pose 先验 。我们观察到很多图像与它的 pose 相关。第二是通过光流处理,不直接去估计每个像素信息,用光流的方法估计这部分的像素及偏移量,这样就避免了直接对高峰值像素进行处理。光流之后 Warp,可以很快速地处理高分变率图像。



下图中可以看到我们的方法和之前其它方法的对比,在处理高分辨率图像时,由于我们的方法不需要对原图做 resize,因此我们的高清的细节保持的非常好,美型的细节也和 ground truth 接近。

这里还有一个问题就是对应一些图片,直接进行人像美型可能使背景物品扭曲。为了解决这一问题,可以**首先用理解类模型,将人像抠出来,把前景和背景分离,前景用光流方法去做美型,再放到背景上。**这样就保证了处理前景美型之后,不会影响整体抠图的美观性,也不会影响背景结果。



同样,这一模型也已在 ModelScope 上线。



3. 人像美肤

接下来介绍人像美肤模型。需要解决的问题是,对过于平滑,缺少细节的问题进行处理,如人像美颜,我们不希望所有部位都变得平滑,对胡须等部位则需要保持其细节。第二个问题是对高清图处理慢。

我们提出了两个解决方法,首先是使用上下文感知层 ,处理高清图片可以更容易去感知它的全局语义信息。第二个方法是自适应混合金字塔,将不同层级的语义信息特征提取出来,去完成美肤。主要思路就是分层级提取特征。高层计算量相对较小,计算量较大的部分都放在底层,这样保证在处理高清图时也可以有较快的速度。



从下图中可以看到,一些瑕疵被很好地修复了,同时发丝、牙齿等细节则得到了很好的保留。



这一模型也可以同样方法去体验。另外在手机端也可以体验。



4. 动漫化

最后一个模型是动漫化模型。具体场景如将数字图像转成动漫风格。由于动漫风格多种多样,如何快速地把图片转成不同的风格,这其中有三个问题需要解决,第一个问题是如何保证与原图的相似度;第二是如何处理遮挡,比如人戴口罩,或者手等对人脸的遮挡等;第三个问题是如何处理全身图像。

我们采用的方案是 domain 对齐的方法。简单来说,把原图 domain 通过两个步骤进行对齐,第一个步骤是 content 对齐 ,通过这个步骤,可以将源空间和 domain 空间进行对齐;第二步骤是 geometry 对齐,保证对于不同旋转角度、姿态,都能有一个比较好的动漫画转化效果。



这个模型可以很容易拓展到不同风格,并且可以处理全身的效果。



同样,模型已在 ModelScope 上线。欢迎大家去体验。



--

04/更多模型


最后预告一下即将上线的一些模型。

第一个模型是换天空,简单来说,首先对天空区域做清晰的分割、抠图,再与它的背景做一个融合,最终融合效果非常逼真。



第二是视频抠图,可以应用于对视频处理。



以上就是今天分享的内容。谢谢大家。


▌2023数据智能创新与实践大会


第四届DataFunCon数据智能创新与实践大会将于⏰ 7月21-22日在北京召开,会议主题为新基建·新征程,聚焦数据智能四大体系:数据架构数据效能算法创新智能应用 。在这里,你将领略到数据智能技术实践最前沿的景观

欢迎大家 点击下方链接获取大会门票~
DataFunCon2023(北京站):数据智能创新与实践大会




本文地址:https://www.6aiq.com/article/1680336023646
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出