平码五不中公式规律
  • / 9
  • 下载费用:30 金币  

一种基于深度学习的高帧率视频生成方法及系统.pdf

关 键 ?#21097;?/dt>
一种 基于 深度 学习 高帧率 视频 生成 方法 系统
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
摘要
申请专利号:

CN201611241691.X

申请日:

2016.12.29

公开号:

CN106686472A

公开日:

2017.05.17

当前法律状态:

实审

有效性:

审中

法?#19978;?#24773;: 实质审查的生效IPC(主分类):H04N 21/845申请日:20161229|||公开
IPC分类号: H04N21/845(2011.01)I; H04N19/587(2014.01)I; H04N7/01; G06N3/04; G06N3/08 主分类号: H04N21/845
申请人: 华中科技大学
发明人: 王兴刚; 罗浩; 姜玉静; 刘文予
地址: 430074 湖北省武汉市珞喻路1037号华中科技大学
优?#28909;ǎ?/td>
专利代理机构: 武汉臻诚专利代理事务所(普通合伙) 42233 代理人: 向彬
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201611241691.X

授权公告号:

|||

法律状态公告日:

2017.06.09|||2017.05.17

法律状态类型:

实质审查的生效|||公开

摘要

本发明公开了一种基于深度学习的高帧率视频生成方法,包括:利用一个或多个原始高帧率视频片段生成训练样本集;利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,以获得优化后双通道卷积神经网络,所述双通道卷积神经网络模型为由两个卷积通道融合而成的卷积神经网络;利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。本发明方法整个过程是端到端的,不需要对视频帧进行后续的处理,视频帧率转换效果良好,合成的视频流畅度高,对于视频拍摄过程中存在的抖动、视频场景切换?#20219;?#39064;具有较好的鲁棒性。

权利要求书

1.一种基于深度学习的高帧率视频生成方法,其特征在于,所述方法包括以下步骤:
(1)利用一个或多个原始高帧率视频片段生成训练样本集,所述训练样本集中包括多
个视频帧子集合,所述每个视频帧子集合中包含两张训练帧和一张对照帧,所述两张训练
帧为高帧率视频片段中间隔一帧或多帧的两张视频帧,所述对照帧为所述两张训练帧中间
间隔的任意一帧;所述高帧率视频片段的帧率高于设定帧率阈值;
(2)利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,以获
得优化后双通道卷积神经网络;其中,所述双通道卷积神经网络模型为由两个卷积通道融
合而成的卷积神经网络,两个卷积通道分别用于输入视频帧子集合中的两张视频帧并分别
对输入的视频帧进行卷积,双通道卷积神经网络模型对两个卷积通道的卷积结果进行融合
并输出为预测帧,根据所述预测帧与所述视频帧子集合中的对照帧回归训练所述双通道卷
积神经网络模型;
(3)利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频帧生
成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。
2.如权利要求1所述的基于深度学习的高帧率视频生成方法,其特征在于,所述双通道
卷积神经网络模型中的每个卷积通道包括k个卷积层,其中k>0,每个卷积层的数学描述为:
Zi(Y)=Wi*Fi-1(Y)+Bi
其中i表示卷积层的层数,输入视频帧为第0层,*代表卷积操作,Fi-1表?#38236;趇-1层的输
出,Zi(Y)表?#38236;趇层卷积操作后的输出,Wi为第i层的卷积核?#38382;珺i为第i层的偏置?#38382;?br />
3.如权利要求2所述的基于深度学习的高帧率视频生成方法,其特征在于,在所述卷积
通道中,在前k-1个卷积层之后分别接有一个ReLU的激活层以保持网络的稀疏性,其数学描
述为:
Fi(Y)=max(0,Zi)。
4.如权利要求1或2所述的基于深度学习的高帧率视频生成方法,其特征在于,在所述
两张视频帧经过最后一个卷积层之后得到的特征响应图采用对应位置值相加的方式进行
融合。
5.如权利要求1或2所述的基于深度学习的高帧率视频生成方法,其特征在于,在所述
融合操作得到特征响应图之后接一个Sigmoid激活层以将图片的像素值?#25104;?#21040;0-1之间,其
数学描述为:
<mrow> <msub> <mi>F</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>
6.如权利要求2所述的基于深度学习的高帧率视频生成方法,其特征在于,采用均值为
0,标准差为1的高斯分布初始化卷积核?#38382;?#20559;置初始化为0,基准学习速率初始化为1e-6,
迭代m个周期后基准学习速率缩小10倍,其中m为预设值。
7.如权利要求1或2所述的基于深度学习的高帧率视频生成方法,其特征在于,根据所
述预测帧与所述视频帧子集合中的对照帧回归训练所述双通道卷积神经网络模型,具体
为:
利用预测帧与对照帧之间的误差,采用误差反向传播算法来训练所述双通道卷积神经
网络;其中采用最小平方误差为我们的优化函数,其数学描述为:

其中i表?#38236;趇张样本图片,n表示样本训练集的数量,Yi表示网络预测的视频帧,表示
相应视频帧的真实值。
8.如权利要求2所述的基于深度学习的高帧率视频生成方法,其特征在于,所述k取值
为3;第一个卷积层有64个9*9的卷积核,步长为1个像素,填充值为4,填充值是指在特征图
周边补零的圈数;第二个卷积层有32个1*1的卷积核,步长为1个像素,填充值为0;第三个卷
积层有3个5*5的卷积核,步长为1,填充值为2。
9.一种基于深度学习的高帧率视频生成系统,其特征在于,包括训练样本集生成模块、
双通道卷积神经网络优化模块以及高帧率视频生成模块,其中:
所述训练样本集生成模块,用于利用一个或多个高帧率视频片段生成训练样本集,所
述训练样本集中包括多个视频帧子集合,所述每个视频帧子集合中包含两张训练帧和一张
对照帧,所述两张训练帧为高帧率视频片段中间隔一帧或多帧的两张视频帧,所述对照帧
为所述两张训练帧的中间间隔的任意一帧;所述高帧率视频片段的帧率高于设定帧率阈
值;
所述双通道卷积神经网络优化模块,用于利用所述训练样本集中的多个视频帧子集合
训练双通道卷积神经网络模型,获得优化后双通道卷积神经网络;其中,所述双通道卷积神
经网络模型为两个通道融合的卷积神经网络,两个通道分别用于输入所述视频帧子集合中
的两张视频帧并对输入的视频帧分别进行卷积,双通道卷积神经网络模型的对两个通道卷
积的结果进行融合并输出为预测帧,根据所述预测帧与所述视频帧子集合中的对照帧回归
训练所述双通道卷积神经网络模型;
所述高帧率视频生成模块,用于利用所述优化后双通道卷积神经网络,根据低帧率视
频中的任意相邻两视频帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的
视频。
10.如权利要求所述的基于深度学习的高帧率视频生成系统,其特征在于,所述双通道
卷积神经网络模型中的每个卷积通道包括k个卷积层,其中k>0,每个卷积层的数学描述为:
Zi(Y)=Wi*Fi-1(Y)+Bi
其中i表示卷积层的层数,输入视频帧为第0层,*代表卷积操作,Fi-1表?#38236;趇-1层的输
出,Zi(Y)表?#38236;趇层卷积操作后的输出,Wi为第i层的卷积核?#38382;珺i为第i层的偏置?#38382;?br />

说明书

一种基于深度学习的高帧率视频生成方法及系统

技术领域

本发明属于计算机视觉技术领域,更具体地,涉及一种基于深度学习的高帧率视
频生成方法及系统。

背景技术

随着科技的发展,人们获取视频的方式越来越便捷,然而由于?#24067;?#30340;原因,大部分
视频都是非专业设备采集到的,帧率一般只有24fps-30fps。高帧率的视频具有极高的流畅
度,可以给人们带来更好的视觉体验。如果人们直接将高帧率的视频上传到网上,由于流量
消?#33041;?#22823;,人们的成本也随着增加。如果直?#30001;?#20256;输低帧率的视频,由于网络线路的原因,
视频在传输的过程中难免存在丢帧的问题,视频越大越容易出现这种现象,使得远端的视
频质量不能得到有效的保证,这极大地影响了人们的体验。因此有必要在远端采用合理的
处理方式对人们上传的视频进行后续处理,使得视频的质量能满足人们的需求甚?#20004;?#19968;步
提升人们的体验。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的高帧率
视频生成方法,其目的在于将低帧率的视频转换为高帧率的视频,由?#31169;?#20915;由于低帧率视
频在网路传输过程中的丢帧而造成视频质量下降给人们的体验带?#20174;?#21709;的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的高帧率视
频生成方法,包括以下步骤:

(1)利用一个或多个原始高帧率视频片段生成训练样本集,所述训练样本集中包
括多个视频帧子集合,所述每个视频帧子集合中包含两张训练帧和一张对照帧,所述两张
训练帧为高帧率视频片段中间隔一帧或多帧的两张视频帧,所述对照帧为所述两张训练帧
中间间隔的任意一帧;所述高帧率视频片段的帧率高于设定帧率阈值;

(2)利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,
以获得优化后双通道卷积神经网络;其中,所述双通道卷积神经网络模型为由两个卷积通
道融合而成的卷积神经网络,两个卷积通道分别用于输入视频帧子集合中的两张视频帧并
分别对输入的视频帧进行卷积,双通道卷积神经网络模型对两个卷积通道的卷积结果进行
融合并输出为预测帧,根据所述预测帧与所述视频帧子集合中的对照帧回归训练所述双通
道卷积神经网络模型;

(3)利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频
帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。

本发明的一个实施例中,所述双通道卷积神经网络模型中的每个卷积通道包括k
个卷积层,其中k>0,每个卷积层的数学描述为:

Zi(Y)=Wi*Fi-1(Y)+Bi

其中i表示卷积层的层数,输入视频帧为第0层,*代表卷积操作,Fi-1表?#38236;趇-1层
的输出,Zi(Y)表?#38236;趇层卷积操作后的输出,Wi为第i层的卷积核?#38382;珺i为第i层的偏置参
数。

本发明的一个实施例中,在所述卷积通道中,在前k-1个卷积层之后分别接有一个
ReLU的激活层以保持网络的稀疏性,其数学描述为:

Fi(Y)=max(0,Zi)。

本发明的一个实施例中,在所述两张视频帧经过最后一个卷积层之后得到的特征
响应图采用对应位置值相加的方式进行融合。

本发明的一个实施例中,在所述融合操作得到特征响应图之后接一个Sigmoid激
活层以将图片的像素值?#25104;?#21040;0-1之间,其数学描述为:


本发明的一个实施例中,采用均值为0,标准差为1的高斯分布初始化卷积核?#38382;?br />偏置初始化为0,基准学习速率初始化为1e-6,迭代m个周期后基准学习速率缩小10倍,其中m
为预设值。

本发明的一个实施例中,根据所述预测帧与所述视频帧子集合中的对照帧回归训
练所述双通道卷积神经网络模型,具体为:

利用预测帧与对照帧之间的误差,采用误差反向传播算法来训练所述双通道卷积
神经网络;其中采用最小平方误差为我们的优化函数,其数学描述为:


其中i表?#38236;趇张样本图片,n表示样本训练集的数量,Yi表示网络预测的视频帧,
表示相应视频帧的真实值。

本发明的一个实施例中,所述k取值为3;第一个卷积层有64个9*9的卷积核,步长
为1个像素,填充值为4,填充值是指在特征图周边补零的圈数;第二个卷积层有32个1*1的
卷积核,步长为1个像素,填充值为0;第三个卷积层有3个5*5的卷积核,步长为1,填充值为
2。

按照本发明的另一方面,?#22266;?#20379;了一种基于深度学习的高帧率视频生成系统,包
括训练样本集生成模块、双通道卷积神经网络优化模块以及高帧率视频生成模块,其中:

所述训练样本集生成模块,用于利用一个或多个高帧率视频片段生成训练样本
集,所述训练样本集中包括多个视频帧子集合,所述每个视频帧子集合中包含两张训练帧
和一张对照帧,所述两张训练帧为高帧率视频片段中间隔一帧或多帧的两张视频帧,所述
对照帧为所述两张训练帧的中间间隔的任意一帧;所述高帧率视频片段的帧率高于设定帧
率阈值;

所述双通道卷积神经网络优化模块,用于利用所述训练样本集中的多个视频帧子
集合训练双通道卷积神经网络模型,获得优化后双通道卷积神经网络;其中,所述双通道卷
积神经网络模型为两个通道融合的卷积神经网络,两个通道分别用于输入所述视频帧子集
合中的两张视频帧并对输入的视频帧分别进行卷积,双通道卷积神经网络模型的对两个通
道卷积的结果进行融合并输出为预测帧,根据所述预测帧与所述视频帧子集合中的对照帧
回归训练所述双通道卷积神经网络模型;

所述高帧率视频生成模块,用于利用所述优化后双通道卷积神经网络,根据低帧
率视频中的任意相邻两视频帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视
频的视频。

本发明的一个实施例中,所述双通道卷积神经网络模型中的每个卷积通道包括k
个卷积层,其中k>0,每个卷积层的数学描述为:

Zi(Y)=Wi*Fi-1(Y)+Bi

其中i表示卷积层的层数,输入视频帧为第0层,*代表卷积操作,Fi-1表?#38236;趇-1层
的输出,Zi(Y)表?#38236;趇层卷积操作后的输出,Wi为第i层的卷积核?#38382;珺i为第i层的偏置参
数。

总体而言,通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下
技术效果:

(1)本发明的特征提取和帧的预测都是通过训练样本的监督学习得到,无需人工
?#31245;ぃ?#22312;大规模数据的场景下能更好地拟合空间差异信息;

(2)本发明的整个过程是端到端的,利用卷积神经网络的自我学习能力,通过自我
学习的方式学得模型?#38382;?#31616;洁高效,克服了传统技术在处理视频帧率转换时耗时耗力且
效果不明显的特点。

附图说明

图1是本发明的基于深度学习的视频帧率转换方法的流程图,其中Fi表?#38236;趇层的
输出,Yt-1、Yt、Yt+1表示连续的三帧视频帧,Yt作为真实值用于计算误差,Prediction表示网
络预测的视频帧。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并
不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要
彼此之间未构成冲突就可以相互组合。

以?#29575;?#20808;就本发明的技术术语进行解释和说明:

卷积神经网络(Convolutional Neural Network,CNN):一种可用于图像分类、回
归等任务的神经网络,它的特殊性体现在两个方面,一方面是它的神经元间的连接是非全
连接的,另一方面同一层中某些神经元之间的连接的权重是共享的。网络通常由卷积层、池
化层和全连接层构成。卷积层?#32479;?#21270;层负责提取图像的层级特征,全连接层负责对提取到
的特征进行分类或者回归。网络的?#38382;?#21253;括卷积核以及全连接层的?#38382;?#21450;偏置,?#38382;?#21487;以
通过反向传导算法从数据中学习得到。

反向传导算法(Backpropagation Algorithm,BP):是一种与最优化方法(如梯度
下降法)结合使用的,用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损
失函数的梯度,这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。该算法主
要包含两个阶段:激励的前向、反向传播和权重的更新。

随着大数据时代的到来,视频数据库的规模也越来越大,这个问题的解决也越来
越迫切。深度神经网络能够以一种较好的方式模拟人类大脑的工作方式对数据进行分析,
近年来,深度学习在计算机视觉的各个领域都取得了成功的应用,但是对于视频帧率的转
换问题尚无明显的研究,鉴于传统的视频帧率转换方法过程复杂,时间人力成本较高,本发
明提出了一种基于深度学习视频帧率转换方法。该方法整个过程是端到端的,简便且高效,
对于视频的抖动、场景切换?#20219;?#39064;都具有较强的鲁棒性。

如图1所示,本发明基于深度学习的视频帧率转换方法,可以包括以下步骤:

(1)利用一个或多个原始高帧率视频片段生成训练样本集,所述训练样本集中包
括多个视频帧子集合,所述每个视频帧子集合中包含两张训练帧和一张对照帧,所述两张
训练帧为高帧率视频片段中间隔一帧或多帧的两张视频帧,所述对照帧为所述两张训练帧
中间间隔的任意一帧;所述高帧率视频片段的帧率高于设定帧率阈值;

具体地,可以提取高帧率视频片段得到视频帧集合,按照一定比例获得训练样本
集;

训练样本集是由多个视频帧子集合组成的,所述每个视频帧子集合中包含两张训
练帧和一张对照帧。对照帧选取为所述两张训练帧的最中间或靠近最中间的那一帧。一般
情况?#29575;?#25351;取连续3帧,中间一帧为对照帧,另两帧为训练帧;如果帧率足够高,则也可以取
相隔多帧(视帧率而定,不能太多)的两帧作为训练帧,而中间相隔的多帧中可选取中间间
隔的任意一帧为对照帧;例如用于训练的高视频帧率为60,该视频有N帧,那么按照间隔一
帧取样本训练的方式,从第2至第N-1帧里随机取一帧作为真实值(对照帧),并将该帧相邻
的两帧作为训练样本(两个训练帧)输入到网络里面。同理,也可以按照间隔多帧的方式来
训练样本,这样可以用于更低帧率的视频,即更低帧率的视频转换为高帧率的视频。

(2)利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,
以获得优化后双通道卷积神经网络;其中,所述双通道卷积神经网络模型为由两个卷积通
道融合而成的卷积神经网络,两个卷积通道分别用于输入视频帧子集合中的两张视频帧并
分别对输入的视频帧进行卷积,双通道卷积神经网络模型对两个卷积通道的卷积结果进行
融合并输出为预测帧,根据所述预测帧与所述视频帧子集合中的对照帧回归训练所述双通
道卷积神经网络模型;

首先要设计并实现一个双通道卷积神经网络,具体地:

所建立的双通道卷积神经网络模型为两个卷积通道融合的卷积神经网络,共包含
k个卷积层,k>0,优选为3,分别对两张视频帧图片(训练帧)单独进行卷积。第一个卷积层有
64个9*9的卷积核,步长为1个像素,填充值为4,填充值是指在特征图周边补零的圈数。第二
个卷积层有32个1*1的卷积核,步长为1个像素,填充值为0。第三个卷层有3个5*5的卷积核,
步长为1,填充值为2。卷积层的数学描述为:

Zi(Y)=Wi*Fi-1(Y)+Bi

其中i表示网络的层数,输入图像为第0层,*代表卷积操作,Fi-1表?#38236;趇-1层的输
出,Zi(Y)表?#38236;趇层卷积操作后的输出,Wi为第i层的卷积核?#38382;珺i为第i层的偏置?#38382;?br />

在所述3个卷积层中,第1和第2个卷积层之后分别接有一个ReLU的激活层以保持
网络的稀疏性,其数学描述为:

Fi(Y)=max(0,Zi)。

两张视频帧图片经过第三个卷积层之后得到的特征响应图采用对应位置值相加
的方式进行融合;

在所述融合操作之后,得到的特征响应图后接一个Sigmoid激活层以将图片的像
素值?#25104;?#21040;0-1之间,其数学描述为:


在训练所述双通道卷积神经网络之前,需要对视频帧中的每个像素值除以255进
行归一化处理,归一化后的像素值在0到1之间;

并且,在训练所述双通道卷积神经网络之前,需要初始化卷积神经网络?#38382;?#37319;用
均值为0,标准差为1的高斯分布初始化卷积核?#38382;?#20559;置初始化为0,基准学习速率初始化
为1e-6,迭代m个周期后基准学习速率缩小10倍,其中m为预设值;例如,m优选2,则在前1—m
个迭代周期中,学习速率=1e-6,迭代m个周期后,学习速率=1e-7,并一?#21271;?#25345;不变。

具体地,可以利用网络的预测值与对照之间的误差,采用误差反向传播算法来训
练双通道卷积神经网络。采用最小平方误差为我们的优化函数,其数学描述为:


其中i表?#38236;趇张样本图片,n表示样本训练集的数量,Yi表示网络预测的视频帧,
表示相应视频帧的真实值;

(3)利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频
帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以
限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换?#36879;?#36827;等,均应包含
在本发明的保护?#27573;?#20043;内。

关于本文
本文标题:一种基于深度学习的高帧率视频生成方法及系统.pdf
链接地址:http://www.pqiex.tw/p-6091631.html
关于我们 - 网站声明 - 网?#38236;?#22270; - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
平码五不中公式规律 北京十一选五开奖遗漏 体彩湖北11选5神彩通 吉祥棋牌下载地址 腾讯分分彩计划app 福建11选5投注 股票涨跌由谁控制 新疆喜乐彩开奖1000期 下一个吉祥棋牌棋牌 北京五分彩 官方信誉好的棋牌平台