一、数字视频中文字分割算法的研究(论文文献综述)
李红[1](2020)在《图像文字提取及基于Android的文字识别实现》文中研究表明在我们的实际生活场景中充满了各种带有高层语义信息的文字图像,如何从这些图像中提取人们感兴趣的文字信息成为了研究者们的关注的重点。图像文字识别技术包括文字定位、文字提取、文字识别等步骤,但在具体使用Android OCR软件进行文字识别时,可以设定手动截取文本区域的方式来实现文本区域定位,而且现在有很多成熟的文字识别引擎可以应用在Android平台文字识别软件的开发上,所以文字识别率主要是与文字提取有关,因此如何对文本图像进行高效的文字提取是非常重要的。文字提取主要包括文本图像的预处理以及文字切分这两部分。本文主要面向已经定位后的文本图像(文本图像来源于书籍、室内/外提示语、餐厅菜单以及商品外包装等),针对文本与复杂背景的分割、文字切分及基于Android的文字识别应用进行了深入研究,具体工作内容如下:(1)图像预处理:对定位之后的文本图像进行图像的预处理是文字提取必不可少的一步,其主要目的是实现文本与图像背景的分割。本文对文本图像采用了灰度化、降噪处理、消除不均光照、边缘检测等处理过程,针对目标文本与图像背景分割采用了改进的基于大津法(Otsu)的双阈值二值化图像分割算法。本文设计的算法在一定程度上对有着复杂背景、不均光照等特征的文本图像消除复杂背景以及噪声的干扰,很好的完成了目标文本与复杂背景的分割;(2)文字切分:为了提高文字识别率,针对获得的文本二值化图像,本文对文字切分算法进行了深入研究。在具体的文字切分过程中,首先使用水平投影法进行行切分,然后垂直投影法计算文本图像中单个字符近似宽度值(以汉字为主),最后根据字符近似宽度值,设计可变化模板并构造模板响应函数来切分字符。相比较单独使用投影法或模板法切分文字,在一定程度上克服了左右结构汉字和粘连字符容易被误分割的问题。(3)基于Android的文字识别实现:本文以图像文字提取算法作为技术手段,设计并实现了基于Android系统的汉字识别软件;除了文字识别功能外,在该软件的设计中还增加了实时显示汉字可视化图像以及语音播放功能。
李英[2](2018)在《面向互联网的图像敏感内容分析系统的关键技术研究》文中提出随着互联网、网络流媒体技术和多媒体信息检索的发展,图像和视频已成为当前多媒体信息交流和服务的主流信息载体。第四代(4G)数字通信网络的出现,微信等即时通信模式使信息传播具备更加快速、广泛的特点。互联网丰富的内容给网民带来便利的同时,内容安全也成为更加棘手的问题。政治反动、淫秽色情、商业机密以及个人隐私等敏感信息的传播对国家安全、社会稳定以及青少年的健康成长均有较大程度的影响。目前纯文本的敏感信息过滤已经相对成熟,但对图像内嵌文字的提取、敏感图像及视频的快速识别等问题仍然存在相当的挑战性。本文瞄准网络监控的内容安全重大需求,以图像内嵌文字为线索进行多媒体内容分析,重点研究场景图像中的文本检测和提取技术;针对本领域的敏感数据传输、存储安全要求,研究私有协议的文字及图像编解码算法,提升数据压缩效率同时兼顾数据信息安全;最终结合文字及图像信息,实现移动互联网多媒体的敏感内容监控。本文的主要研究成果可概括如下:1、针对复杂背景下的文字区域的检测问题,提出了一种基于Gabor纹理和神经网络的由粗到细的文字区域检测新方法,对多语种的文字区域取得较好的效果。针对图像背景复杂造成文字区域难以检测的问题,利用文字区域纹理的方向性,提出一种基于Gabor纹理和神经网络的由粗到细的文字区域检测新方法。首先,通过不同方向和尺度下的Gabor特征来描述原始图像中文字区域的方向性纹理;然后,将文字区域和非文字区域的Gabor特征输入到BP(Back Propagation,反向传播)神经网络训练文字区域分类器,训练好的分类器用于图像和视频中文字区域的检测。实验结果表明,本文算法显着提高了文字区域检测算法的准确性和鲁棒性,对中、英文等多语种的文字区域检测均有较好效果。2、针对图像内嵌文字的提取问题,提出一种基于小波纹理同质空间映射的图像文本提取方法,取得了86%的提取精度。针对图像内嵌文字的提取方法,研究了一种基于小波纹理同质空间映射的图像内嵌文字快速提取算法,内嵌文字的图像作为研究对象,通过图像增强函数来突出图像的边缘和纹理特征;利用小波包提取24维度的纹理特征向量,同时用Sobel算子提取增强图像边缘特征信息;对纹理特征和边缘特征来构造图像的同质性并映射得到特征图像,利用非文本和文本区域同质性之间的差异来进行区分,从而抑制非文本区域信息,突出文本区域特征;再利用同质性空间对文本样本图像进行训练得到文本区域检测器来检测文本区域,大大减少了计算量;最后通过字符分割和字符识别单元完成文本的提取。为了验证算法的有效性和实用性,实验结果文字识别率86%略高于业界水平,该算法为运营商的不良信息监控提供保障。3、针对网上敏感文本信息的压缩、传输与安全问题,提出一种基于Glomb参数局部优化的文本数据压缩算法,获得了优于Winzip的压缩性能。针对政治类等敏感文本数据,数据在存储、传输、应用过程中的安全保障是一个棘手的问题,私有协议的数据编解码算法在兼顾数据压缩效率的同时提供了必要的安全保障。提出了一种基于Glomb参数局部优化的文本数据压缩算法,将扫描产生的偏移量,匹配数据长度等全局优化问题转化为局部优化问题,并从Glomb编码思路出发,推导出一种参数选择算法;对LZ77算法进行修正,提出一种预测编码方法,获得预测参数。对预测参数、偏移量、数据匹配长度、保留文本数据使用MQ(Message Queue)算术编码器进行编码,针对不同类型数据,设计出不同的编码算法和相应的上下文算法。实验结果表明对纯文本数据、Word文档数据、C语言程序代码,图像数据等,本压缩算法都优于Winzip;在纯文本数据、Word文档数据、C语言程序代码压缩方面与WinRar相当或者略好,但在图像压缩方面的性能与WinRar相比略有不足。4、针对网上敏感图像数据的压缩传输及安全问题,提出一种基于JPEG-LS算法的误差优化编码的图像压缩算法,取得了良好的压缩效果。为了保障互联网敏感图像数据在传输和存储过程的安全,需要研究私有压缩算法来保障数据安全,实现对高精度图像进行高效压缩,同时确保重建图像有较好的视觉质量。提出了一种基于JPEG-LS算法的误差优化编码的图像压缩算法,使用JPEG-LS压缩算法对高精度图像数据进行压缩,对游程编码产生误差数据进行量化,对量化值进行数据分解,去除量化值之间的相关性,分解后的数据进行算术编码。根据量化间隔重建反量化值,对重建量化值进行反量化,与JPEG-LS解码数据相加,然后进行滤波。理论分析和实验结果验证,效果良好。5、针对4G通信中的敏感文字信息及不良视频过滤问题,研究开发了基于文字与肤色关键语义的敏感影像检测应用系统研究,并应用于广东移动现网系统。为了满足移动互联网的实际应用要求,研究基于敏感文字和不良图像视频的快速识别应用系统十分必要,主要研究4G通信中的敏感文字信息及不良视频过滤技术,主要包括政治类敏感文字和淫秽图像。视频的关键帧是视频的梗概,对关键帧进行敏感性判别将减少计算量。针对淫秽图像的识别,肤色非常重要的人体特性,人类肤色在彩色空间具有一定的聚类性,因此利用肤检测复杂背景中的人体更符合实际应用需求。结合人脸、人体器官特征等方法来判别多媒体的敏感性,并跟踪敏感的关键帧以判断整个视频的敏感性,将为移动运营商的互联网管道上的内容安全提供安全保障。
毕建伟[3](2017)在《复杂图像中的涉密文字检测技术研究》文中进行了进一步梳理随着计算机科学与技术和互联网的快速发展,计算机泄密事件的情况时有发生,各种形式的泄密问题严重威胁着企业和个人的权益。图像中都含有大量的信息,承载的内容也非常丰富,其中带有文字的图像所能表达的信息就会更加的有针对性和目的性。因此,在涉密检查的工作中,能够识别出图像中包含的涉密文字是是涉密检查非常重要的一步。在复杂背景图像中,涉密的文字常常是隐含在复杂的图像环境中,这就使文字检测变得更加困难。针对这种情况,怎样才能在复杂背景的干扰中,检测出图像中包含的文字就是本文的主要工作。本文针对以上情况,提出一种解决复杂背景中涉密文字识别的算法,算法首先自适应的对所要处理的图像进行分类,如果是简单背景的图像,可以在预处理之后直接进行OCR识别在加上字符串匹配即可识别出涉密文字;如果具有复杂背景的图像,本文中提出了一种结合文字检测和图像匹配的算法。先从图像从文字定位、文字分割、OCR识别和字符串匹配进行展开,然后在使用基于SURF算法的图像匹配方法。本文算法对于多种类型图像都具有很高的识别率,能够准确的识别出复杂背景图像中的涉密文字,另外本算法还能针对不包含文字的涉密图像进行匹配识别。实验表明在针对不同情况下的复杂背景图像本算法都有很高的识别率,另外本算法具有良好的实际应用价值。
杨珺[4](2016)在《基于边缘和区域融合的图像分割方法及其应用研究》文中进行了进一步梳理图像分割技术从1970年以后便开始受到人们的极大关注,虽然研究人员针对图像的成像原因、图像用途等各种问题提出许多解决办法,但至今仍很难找到一个普遍适用的理论和方法。在图像分割的方法中研究较多的两类分别是基于边缘检测的分割方法和基于区域的分割方法,究其原因,图像的边缘上存在着很多重要的信息,从人眼的角度来分析对边缘差异比较敏感,可以据此来分析图像;但是图像边缘有些是不连续的,而利用了图像空间信息的区域分割方法则可以克服这个问题。由于单一的分割方法效果不甚理想,研究学者试着将多种分割方法结合起来,通过分析图像的多种特征设计分割算法。本文就此出发,取两种方法的优点进行融合,同时针对应用的不同领域,提出分别适用于复杂背景图像中文字分割的方法和适用于医学图像中主动脉的分割方法。详细的内容如下:(1)针对传统的文字分割算法对提取文本的颜色、大小以及图像的复杂背景较敏感而造成的提取效果不理想和传统投影分割对单字分割误差较大的问题,本文通过分析文字的边缘特征,加入stroke滤波来提取文字区域,之后再从文字区域特征出发,利用连通域分析及垂直投影来进行去燥以及确定文本的区域范围。同时本文还提出一种新的上下边缘投影分割算法,既保证了文字的分割效率,又提高了文字分割准确率。最后对提出的算法的分割效果进行验证。(2)针对医学图像分辨率高,分割目标与背景差别小及其他灰度值相似区域的干扰等问题,本文以当前研究较热的基于水平集方法的几何活动轮廓模型为基础,提出一种融入边缘和区域信息的CT图像主动脉的分割算法。在算法中外部能量项除了包含传统CV模型中的边缘梯度信息,还加入了图像的区域信息,同时通过分析主动脉横切面的形状加入形状能量约束项,提高了分割精度。最后以医院实际拍摄的患者心血管CT图像为实验数据,对本文分割算法的正确性及有效性进行实验验证。(3)为了研究成果的可视化和使用方便,本文构建了一个研究成果的系统原型,包括实验数据的一些简单处理及算法的运行。
闫海娜[5](2014)在《新闻视频语义概念检测》文中研究表明在视频数据量激增的今天,如何在庞大的视频数据库中快速准确地找到用户需要的内容,目前来讲仍然是一个具有挑战性的研究课题。与视频低层特征不同,视频语义可以揭示视频所包含的深层含义,比如视频要表达的情感和视频中物体之间的联系,所以基于语义的视频检索更接近人类对视频的理解方式。新闻视频是一类特殊的视频,包含了重要的时事信息,与人们的生活联系紧密。新闻视频语义概念检测技术可以用于视频标注和视频检索,从而提高视频浏览效率,对基于新闻视频的各种应用具有重要意义。论文主要通过对新闻视频内容进行分析来挖掘其隐含的高层语义。本文综合利用视觉信息、音频信息、文本信息对新闻视频进行分析,涉及的主要技术包括视频关键帧提取技术、视频字幕提取技术、视频场景检测技术,具体来讲,本文的研究内容包括以下几个方面:1.研究了新闻视频关键帧提取技术。本文针对新闻视频的部分镜头切换点与静音点一致的特点,提出一种结合静音检测的镜头分割方法,以降低后续处理的复杂度。在镜头分割的基础上,根据镜头变化率提取镜头内的关键帧,实验证明这种算法提取的关键帧查全率较高且具有较低的重复率。2.研究了新闻视频字幕提取技术。由于新闻视频的字幕区一般出现在视频帧的下方,所以可以只在视频帧下方五分之一区域内进行文字提取,从而缩小处理范围,提高提取速度。本文采用角点检测算法进行文字区检测,用形态学算法对文字区增强,通过对整个算法的实现证明此方法对新闻视频字幕提取简单有效。3.研究了基于图像分类的新闻视频场景检测技术。图像特征采用经典的Dense Sift特征,特征映射在当前流行的BOF算法上改进,本文提出对特征描述子的概率密度函数梯度进行直方图统计的算法来提高对图像描述的准确度,并对图像分层分块进行特征整合,克服了传统方法中特征的空间信息缺失的缺点;分类器采用经典的效果较好的SVM分类器,并用格拉姆(Gram)矩阵对特征向量进行处理,以降低分类过程的计算复杂度。
汪波[6](2014)在《复杂背景图像中的文字提取算法研究》文中进行了进一步梳理随着互联网和计算机技术的发展,图像随处可见。图像中包含着丰富的信息,文字是图像信息中非常重要的一方面,对图像起着说明和诠释的作用。因此,近年来对图像中文字的识别越来越引起人们的重视。提取和识别图像中的文字对图像分析、智能交通、机器视觉、智能控制等方面有非常重要的意义。而图像中的文字通常是叠加在复杂背景上的,一般的OCR软件很难直接对图像中的文字进行识别,从而使图像中的文字信息不能有效的利用。如何从图像中提取文字成为解决该问题的关键,也成为一个重要的研究课题。本文对复杂背景图像的文字提取主要以静态图像为对象,对于复杂背景图像中的文字定位提出了一种基于形态学和连通域标记算法相结合的方法。首先,利用sobel算法提取边缘;然后对图像进行灰度化、二值化、平滑滤波等一系列处理;最后,先利用形态学的腐蚀、膨胀、开运算和闭运算使文字信息连接在一块,然后利用连通域标记获得候选文字块区域并且根据一定的规则筛选、提取出文字块。实验证明,该方法能迅速、准确的定位文字块。在提取出文字块之后,还需将文字块从复杂的背景中分割出来,使用OSTU算法得到自适应的阈值,得获得干净、清晰的二值图像,接着对文字块内的文字进行单个字符的分割。介绍了投影法和回归式字切分的方法,先采用水平投影进行行切分并获得字符的高度信息,用来估计字符的宽度,以预测下一个字符出现的位置,然后利用回归式字切分进行单个字符的分割从而获得可以直接利用OCR软件识别的字符。实验表明,该方法可以达到比较满意的分割结果。
董越[7](2014)在《视频中的文字提取技术》文中研究表明视频中的高层语义信息很大程度上体现了视频的内容,而在视频中,文字信息均包含了丰富的高层语义信息。如若这些文字能被自动地检测、分割和识别出来,则对图像高层语义的自动理解、索引和检索是非常有价值的。视频的文字提取系统主要分为四个部分,文字事件检测、文字区域定位、文字分割与字符识别。本文针对文字区域定位与文字分割的算法进行研究。首先在文字区域定位算法方面,本文提出了两种算法,一种是基于小波变换的定位算法,运用了角点响应图像和小波变换高频子带综合图像,提取统计特征向量并作分类,然后利用字符的特征设定启发式规则来筛选误判区域,由于运用无监督学习的分类方法,该算法避免了样本训练等步骤。另一种是基于Gabor变换的定位算法,针对中文文字的定位,由于中文的笔画主要分布在四个方向,综合不同尺度的Gabor变换分类结果,得到比较理想的文字区域,实验表明,即使在检测定位低对比度的文字区域时,该算法也有比较好的稳定性。另一方面,文字分割是在文字定位之后、识别之前的关键步骤,为了从OCR得到更好的识别结果,文字分割要把文字区域的背景像素与文字像素分隔开。本文在文字分割方面提出一种基于彩色空间的文字分割算法,利用了经典的OTSU(大津法)和RGB彩色空间对像素先进行初步分类,再运用K-means聚类算法再对初步划分为文字像素的区域作分类,最终获取很干净的文字像素二值图像。实验表明,与其他经典的阈值类算法相比,该算法有更好的分割结果。
李丽洁[8](2012)在《视频中文本信息提取技术研究》文中认为视频是一种综合图像、文本、声音多种模态信息的媒体数据,具有数据量大、信息丰富的特点。随着计算技术、多媒体处理技术、网络技术的发展,视频数据急剧膨胀,传统的基于人工标注的视频内容分析技术已经无法满足海量视频数据的管理和检索需求,人们希望计算机能实现视频内容的自动提取,随之基于内容的视频检索技术应运而生。然而视频文件具有非结构化的数据组织方式,是以像素的形式存储目标对象的颜色、亮度和位置等低层信息,缺乏对高层语义信息的直观描述,而且数据量巨大、表现内容多样,因此关于如何实现计算机自动从视频数据中提取高层语义内容的研究成为了视频数据的自动化、智能化管理和检索领域的热点。视频中的文本不仅与视频内容高度相关,为视频内容的自动理解提供了非常重要的线索,而且相比于其它信息更易于提取,因此实现视频中文本信息的自动提取识别对于基于内容的视频数据检索研究具有重要的意义。实现视频中文本信息的自动提取并非易事,文本通常嵌在复杂的背景当中,即使在同一视频中,文本的语言、字体、颜色也表现多样化。本文针对视频中文本信息提取的关键技术进行了深入研究,包括视频图像中文本区域的检测、定位,连续多帧出现的同一文本区域的跟踪,以及文本字符的分割。针对视频中文本的检测和定位问题,提出了一种融合小波特征和局部二值模式特征由粗检测到精确定位实现的视频文本检测定位的方法。首先结合边缘和角点在视频图像中完成潜在文本区域的检测,然后融合小波特征和局部二值模式特征描述纹理并运用基于流行学习的等距离映射法(Isometric mapping, ISOMAP)进行特征降维,最后采用支持向量机(Support Vector Machine, SVM)方法实现文本区域的精确分类并基于梯度密度图实现单个文本行的精确定位。算法通过多特征、多步骤实现视频中文本区域的检测和定位。为了提高视频中文本区域检测定位的效率,提出一种基于模版匹配的视频文本区域跟踪算法。文本区域图像经小波重构所得的边缘图像作为匹配模版,利用基于相关性的归一化的互相关(Normalized Cross-correlation, NCC)测度作为模版匹配度量标准实现视频文本的跟踪,同时应用金字塔匹配策略进行分层次匹配。有效地利用视频中文本的时间冗余特性,实现快速高效的文本区域跟踪,可以避免在每一帧中都执行文本区域检测定位,加快整个视频文本信息提取的速度。视频中的文本通常处于复杂背景当中,本文提出了一种基于多帧融合的视频文本分割算法。首先选择同一文本图像序列中背景简单的图像进行融合,极性判断后得到适合OCR软件的反对色文本图像。针对字符笔画结构多样性的特点,综合考虑字符的灰度特性和边缘特性,对传统的二维最大条件熵进行改进,将基于非降采样Contourlet变换(Non-subsampled Contourlet Transform, NSCT)的最大二维条件熵作为适应度评价函数,利用细菌觅食优化(Bacterial Foraging Optimization, BFO)算法高效的全局寻优能力计算图像分割的最佳阈值。算法有效地减少了复杂背景对文本分割的影响,提高了分割阈值的精确性和视频文本的识别率。另外,本文还提出了一种基于脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)的视频文本分割算法。充分研究了PCNN在图像分割应用中的优良特性,针对视频文本分割具体应用,对简化的PCNN网络模型的参数和输出标准进行改进,在文本分割过程中,基于PCNN的方法不同于传统的阈值分割方法,能够有效地缩小灰度值相近的相邻像素的差别。本文的视频文本分割方法有效可行,对于复杂背景同样具有较强的鲁棒性。
孙福生[9](2012)在《视频图像文字检测研究》文中指出随着当今数字化进程的推进,多媒体以及通信行业在日常生活中的应用都有着飞速的发展,数字视频、图像逐渐成为信息交互的主流媒体,各种数字化视频与图像无处不在,对应的数据量不断增加。为了满足人们日益增长的不同需求,对数字视频图像进行处理的各种技术也有了长足的进步。当前的数字视频图像源主要是数字电影、网络视频、医学图像以及用于其他用途的监控视频,对这些多媒体数据的各种处理技术正受到广泛的重视,并且有着巨大的商业潜力。视频图像中文字检测与分割是近年来图像分析与处理领域倍受关注的研究热点。本文主要围绕视频图像中文字的检测与分割问题开展研究。主要工作包括以下三个方面:(1)论文首先对目前各种常用的文字检测算法进行了综述,比较和分析了各种方法的优缺点。(2)在视频文字检测和定位方面,本文提出依据视频图像背景的复杂度对视频图像进行归类,对视频图像文字区域进行自适应的检测和定位方法,不但保证了检测结果的精度,而且提高了算法的效率,并降低了算法的复杂度。尤其是对于复杂的背景的视频,本文进行了深入的分析和研究,根据其特点提出了基于时间域的视频帧的文字检测和定位算法,有效的排除了一些单纯依据特征无法排除的虚警区域,提高了算法检测的精度。(3)在视频文字分割方面,首先分析总结了各种常用方法的主要适用范围以及优缺点;在此基础上,本文提出了一套系统的文字分割算法,包括:投影分析缩小定位区域,判断文字块的极性,多帧融合和基于笔画滤波的分割等。论文对于上述算法经过了大量视频图像数据的测试,测试结果表明,所提方法无论在效率还是在效果方面,均取得了较好的效果。
王琦[10](2011)在《视频文本提取技术研究及在虚拟卡拉OK中的应用》文中进行了进一步梳理视频中的文字包含了丰富的语义信息,文字提取对于基于视频内容的分析、检索等研究领域具有重要作用。如果能自动地将视频文字检测、分割、识别出来,则对视频高层语义的自动理解、检索是非常有价值的。视频文本不同于普通扫描文档可以直接使用OCR识别提取,视频文本在大小、形状、颜色等属性上存在很大的差异,多数情况下文字还处于复杂背景之中,这些都成为文字提取过程很大中的阻碍。如何利用视频文本的特性,在已有研究的基础上更好地将文本提取出来,成为了本文研究的重点。对于视频中可能存在几种颜色字幕的情况,本文提出了一种综合利用文字颜色、边缘、几何特征的方法。首先采用梯度法检测连续多帧文字位置,然后将位置映射到原始视频帧中,这样可以获取大量准确可靠的文字颜色信息,根据这些颜色信息,采用GMM (Gaussian Mixture Model)对颜色建模,在后续帧中利用模型提取文字颜色层,同时更新模型。根据视频具有的时间冗余性,提出了“与”掩码图的方法判断有无新的文本对象产生。该方法综合利用了文字的多种特性,在视频中背景与文字颜色差距较大时能有效提取文字。针对视频中的静止文字时间和空间上的冗余特性,本文提出了一种检测-跟踪的方法。首先对视频帧进行边缘检测获取文字区域,然后以文字区域的边缘位图为匹配特征跟踪文字,精化检测结果,实现了对文字对象快速有效的定位。同时文字跟踪也避免了对每帧进行分割、识别,减少了计算量。在分割阶段,针对视频文本的分辨率较低的情况,先是采用了多帧融合方法增强文字区域然后进一步对文字进行插值放大。本文设计了一个虚拟卡拉OK系统,将卡拉OK视频文字提取与人物检测联系起来。在卡拉OK视频文本定位中,采用了小波变换与形态学相结合的方法。对视频帧进行Harr小波分解后开、闭操作分解子图,选择了在最大程度上去除了背景噪声的斜向高频带映射到原始视频中定位字幕区域。该方法不敏感于颜色,能更好的定位卡拉OK文本。在人物分割上,选用了单高斯背景建模的背景差法。最后将提取的文本和分割出的人物与任意选取的场景中进行图像融合,可对人物边缘做模糊化处理以达到较好的视觉效果。本文提出的两种方法都选用了几种不同类型的视频进行了性能测试,实验结果表明这几种方法都具有较高的检测性能,能够较好地提取不同类型视频中的文字。
二、数字视频中文字分割算法的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、数字视频中文字分割算法的研究(论文提纲范文)
(1)图像文字提取及基于Android的文字识别实现(论文提纲范文)
摘要 |
Abstract |
变量注释表 |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 汉字可视化图像概述 |
1.4 本文的研究内容和结构安排 |
2 相关基础理论 |
2.1 数字图像处理基础知识 |
2.2 图像文字识别流程 |
2.3 Android系统构架及开发特色 |
2.4 本章小结 |
3 图像预处理算法研究 |
3.1 灰度化 |
3.2 降噪处理 |
3.3 削弱不均匀光照 |
3.4 边缘检测 |
3.5 二值化 |
3.6 本章小结 |
4 文字切分算法研究 |
4.1 水平投影法确定文本行 |
4.2 垂直投影切分法 |
4.3 确定单字符近似宽度值 |
4.4 模板切分法切分字符 |
4.5 实验与分析 |
4.6 本章小结 |
5 基于Android的文字识别实现 |
5.1 系统识别汉字流程 |
5.2 系统功能模块 |
5.3 系统性能测试 |
5.4 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简历 |
致谢 |
学位论文数据集 |
(2)面向互联网的图像敏感内容分析系统的关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 课题背景与意义 |
1.2 图像文本特征与内容分析 |
1.2.1 图像文本的特征分析 |
1.2.2 图像文本提取框架 |
1.3 敏感图像分析系统的框架及关键技术 |
1.3.1 图像文本提取技术 |
1.3.2 数据压缩技术 |
1.4 研究内容与章节安排 |
第二章 基于Gabor纹理和神经网络的由粗到细的文字区域检测方法 |
2.1 引言 |
2.2 基于Gabor变换的文字区域粗检测 |
2.2.1 相关的图像变换简介 |
2.2.2 基于Gabor特征文本区域粗检测 |
2.3 基于反向传播神经网络的文字区域精检测 |
2.3.1 BP神经网络结构简介 |
2.3.2 算法步骤 |
2.4 实验结果与分析 |
2.5 小结 |
第三章 基于小波纹理同质空间映射的图像文本提取方法 |
3.1 引言 |
3.2 基于小波纹理同质空间映射的图像内嵌文本提取 |
3.2.1 图像非线性动态增强 |
3.2.2 基于小波包纹理的图像同质特征提取 |
3.2.3 基于熵函数的同质性映射 |
3.2.4 基于AdaBoost的文本区域检测 |
3.2.5 基于边缘投影字符阈值分割 |
3.2.6 字符二值化与识别 |
3.3 实验结果与分析 |
3.4 小结 |
第四章 基于Glomb编码的参数优化文本压缩算法 |
4.1 引言 |
4.2 基于Glomb编码的参数优化文本压缩算法 |
4.2.1 基于Glomb编码的参数优化选取 |
4.2.2 基于文本重复规律的预测编码 |
4.2.3 基于算术编码的熵编码 |
4.3 实验结果与分析 |
4.4 小结 |
第五章 基于JPEG-LS算法误差优化编码的图像压缩算法 |
5.1 引言 |
5.2 基于JPEG-LS算法误差优化编码的图像压缩算法 |
5.2.1 基于游程编码的自适应像素值筛选 |
5.2.2 基于视觉质量的非均匀区间量化与编码 |
5.2.3 基于算术编码的熵编码 |
5.3 实验结果与分析 |
5.3.1 Near参数对本算法性能影响 |
5.3.2 Limit参数对总体码率影响 |
5.3.3 算法压缩效率比较 |
5.3.4 重建图像的PSNR比较 |
5.3.5 重建图像的弱目标区域视觉质量比较 |
5.4 小结 |
第六章 基于文字与肤色关键语义的敏感影像检测应用研究 |
6.1 引言 |
6.2 基于关键语义信息提取的敏感视频快速识别算法 |
6.2.1 基于肤色空间聚类的视频关键帧提取方法 |
6.2.2 基于高斯混合模型的视频关键帧中肤色区域提取 |
6.2.3 基于主动样本学习的关键语义和不良敏感视频帧检测 |
6.2.4 基于张量分解的不良敏感视频判别 |
6.3 敏感内容监控系统应用研究 |
6.3.1 敏感文字识别系统 |
6.3.2 敏感图像识别系统 |
6.3.3 敏感视频识别系统 |
6.3.4 系统部署 |
6.4 小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
作者简介 |
(3)复杂图像中的涉密文字检测技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题研究目的与意义 |
1.2 国内外研究现状 |
1.2.1 图像中的文字检测 |
1.2.2 图像中的文字分割 |
1.2.3 图像匹配算法 |
1.3 本文的主要研究内容 |
1.4 论文的组织结构 |
第2章 基于文字检测和图像匹配的涉密文字检测算法研究 |
2.1 基于文字检测和图像匹配的文字检测算法 |
2.2 基于图像复杂度和纹理特征的自适应判别方法 |
2.2.1 复杂度相关概念 |
2.2.2 灰度级的出现情况描述 |
2.3 实验与分析 |
2.3.1 实验设计 |
2.3.2 实验步骤 |
2.3.3 实验结果与分析 |
2.4 本章小结 |
第3章 基于MSER的图像中涉密文字检测算法研究 |
3.1 引言 |
3.2 最稳定极值区域(MSER)算法 |
3.2.1 MSER的定义 |
3.2.2 MSER的提取方法 |
3.2.3 MSER拟合椭圆 |
3.3 基于MSER的文字检测算法 |
3.3.1 文字块定位 |
3.3.2 文字分割 |
3.3.3 OCR识别 |
3.3.4 字符串匹配 |
3.4 实验与分析 |
3.4.1 数据集 |
3.4.2 实验步骤 |
3.4.3 实验结果与分析 |
3.5 本章小结 |
第4章 基于SURF的图像中涉密文字检测算法研究 |
4.1 引言 |
4.2 图像匹配算法相关概念 |
4.2.1 图像匹配概念 |
4.2.2 尺度空间 |
4.2.3 高斯尺度空间 |
4.2.4 SIFT算法 |
4.3 基于SURF的文字检测算法 |
4.4 实验与分析 |
4.4.1 实验设计 |
4.4.2 实验步骤 |
4.4.3 实验结果与分析 |
4.5 本章小结 |
第5章 实验与分析 |
5.1 实验设计 |
5.2 数据集 |
5.3 实验流程 |
5.3.1 计算图像复杂度 |
5.3.2 对图像进行处理识别 |
5.4 实验结果 |
5.5 实验总结 |
5.6 本章小结 |
结论 |
参考文献 |
致谢 |
(4)基于边缘和区域融合的图像分割方法及其应用研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 图像分割研究背景及意义 |
1.2 图像分割及其应用研究现状 |
1.2.1 图像分割算法研究现状 |
1.2.2 图像分割技术的应用相关性 |
1.3 本文研究问题的提出 |
1.4 本文主要工作及章节安排 |
第2章 相关理论介绍 |
2.1 图像分割的概念 |
2.2 基于边缘的图像分割算法 |
2.2.1 并行微分算子法 |
2.2.2 基于曲面拟合的方法 |
2.2.3 基于形变模型的方法 |
2.3 基于区域的图像分割算法 |
2.3.1 阈值法 |
2.3.2 区域生长和分裂合并 |
2.3.3 分水岭方法 |
2.4 边缘和区域相结合的分割方法 |
2.5 水平集方法介绍 |
2.5.1 曲线演化理论 |
2.5.2 水平集方法简介 |
2.6 本章小结 |
第3章 基于边缘和区域融合的文字分割算法研究 |
3.1 复杂背景图像中文字提取简介 |
3.2 算法原理 |
3.2.1 基于图像文本边缘信息的stroke滤波 |
3.2.2 基于图像区域信息的连通域分析及去噪 |
3.2.3 改进的垂直投影分割算法 |
3.3 实验结果 |
3.4 本章小结 |
第4章 基于边缘和区域融合的主动脉分割算法研究 |
4.1 医学图像简介 |
4.2 相关能量模型 |
4.2.1 Chan-Vase模型 |
4.2.2 测地轮廓线模型 |
4.2.3 LBF模型 |
4.3 融合边缘和区域信息的CT图像主动脉分割算法 |
4.3.1 内部能量项 |
4.3.2 外部能量项 |
4.3.3 先验能量项 |
4.3.4 水平集演化方程 |
4.3.5 水平集演化的终止准则 |
4.3.6 算法步骤描述 |
4.4 实验结果 |
4.4.1 灰度分布均匀图像分割实验 |
4.4.2 与CV模型和LBF模型的实验对比 |
4.5 本章小结 |
第5章 系统原型设计 |
5.1 文字分割系统原型设计与分析 |
5.1.1 原型功能 |
5.1.2 功能应用与分析 |
5.2 医学图像分割系统原型设计与分析 |
5.2.1 原型功能 |
5.2.2 功能应用与分析 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 下一步研究计划 |
致谢 |
参考文献 |
附录A |
个人简历、在校期间发表的学术论文与研究成果 |
(5)新闻视频语义概念检测(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 视频语义概念检测关键技术 |
1.3 国内外研究现状 |
1.4 本文主要工作和章节安排 |
第二章 新闻视频关键帧提取技术 |
2.1 镜头分割 |
2.1.1 镜头分割定义 |
2.1.2 镜头分割方法 |
2.1.3 阈值设置方法 |
2.2 关键帧提取方法 |
2.3 音视频结合的关键帧提取算法 |
2.3.1 镜头分割 |
2.3.2 关键帧提取 |
2.3.3 实验结果 |
2.4 本章小结 |
第三章 新闻视频字幕提取技术 |
3.1 视频文字提取方法 |
3.1.1 文字区检测方法 |
3.1.2 文字区定位方法 |
3.1.3 文字分割方法 |
3.2 基于角点检测的视频字幕提取算法 |
3.2.1 角点检测 |
3.2.2 字幕分割 |
3.2.3 实验结果 |
3.3 本章小结 |
第四章 新闻视频场景检测技术 |
4.1 视觉特征提取技术 |
4.1.1 全局特征提取方法 |
4.1.2 局部特征提取方法 |
4.1.2.1 SIFT描述子 |
4.1.2.2 HOG描述子 |
4.1.2.3 BOF特征提取算法 |
4.1.2.4 空间金字塔匹配算法 |
4.2 SVM分类器原理 |
4.3 基于Hopdfg的图像分类算法 |
4.3.1 特征提取 |
4.3.2 SVM分类 |
4.3.3 算法框图 |
4.3.4 实验结果 |
4.3.5 实验结果 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 论文总结 |
5.2 进一步研究工作 |
致谢 |
参考文献 |
(6)复杂背景图像中的文字提取算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题背景 |
1.2 复杂背景图像中文字提取简介 |
1.3 国内外研究现状 |
1.3.1 图像中的文字检测 |
1.3.2 图像中的文字分割 |
1.3.3 图像中的字符分割 |
1.4 本文的主要研究内容 |
1.5 论文的组织结构 |
第二章 文字检测的研究 |
2.1 本章算法介绍 |
2.2 算法流程 |
2.2.1 预处理 |
2.2.2 后处理 |
2.3 实验结果和分析 |
2.4 本章小结 |
第三章 文字分割的研究 |
3.1 文字分割 |
3.1.1 文字分割算法流程 |
3.1.2 文字前景判断 |
3.1.3 滤波处理 |
3.2 实验结果和分析 |
3.3 本章小结 |
第四章 字符分割的研究 |
4.1 算法原理 |
4.1.1 投影法 |
4.1.2 回归式字切分 |
4.2 实验结果和分析 |
4.3 本章小结 |
总结和展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(7)视频中的文字提取技术(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景与意义 |
1.1.1 文字的特征 |
1.1.2 文字检测和提取的难点 |
1.2 作者工作和论文安排 |
1.2.1 作者工作 |
1.2.2 论文安排 |
第二章 视频中的文字检测与分割算法综述 |
2.1 文字提取系统 |
2.2 文字事件检测算法综述 |
2.2.1 帧差法 |
2.2.2 多帧综合法 |
2.2.3 时空切片法 |
2.3 文字区域检测定位算法综述 |
2.3.1 基于纹理的方法 |
2.3.2 基于边缘的方法 |
2.3.3 基于连通域的方法 |
2.3.4 基于机器学习的方法 |
2.4 文字区域分割算法综述 |
2.4.1 基于阈值的算法 |
2.4.2 基于连通域的算法 |
第三章 基于小波变换的文字检测、定位与分割算法 |
3.1 二维小波变换 |
3.2 角点及角点响应 |
3.3 k-means 聚类 |
3.4 基于小波变换与角点响应的文字检测算法 |
3.4.1 算法步骤 |
3.4.2 实验结果 |
3.4.3 实验数据分析 |
3.5 基于彩色空间的文字分割算法 |
3.5.1 分割算法步骤 |
3.5.2 文字分割算法比较 |
第四章 基于 Gabor 变换的中文文字检测算法 |
4.1 Gabor 变换 |
4.2 基于 Gabor 变换的文字检测算法 |
4.2.1 算法步骤 |
4.2.2 实验结果 |
4.2.3 实验数据分析 |
第五章 全文总结 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(8)视频中文本信息提取技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景及意义 |
1.2 视频文本信息提取相关知识 |
1.2.1 视频文本信息提取系统 |
1.2.2 视频文本的分类及特点 |
1.3 国内外研究现状 |
1.3.1 视频文本检测定位研究现状 |
1.3.2 视频文本跟踪研究现状 |
1.3.3 视频文本增强和分割研究现状 |
1.3.4 视频文本信息提取研究存在的困难 |
1.4 论文的主要工作与组织结构 |
第2章 视频中文本信息提取相关技术 |
2.1 基于内容的视频检索 |
2.2 文本对象纹理提取相关技术 |
2.2.1 文本对象纹理特征分析与描述 |
2.2.2 小波变换原理 |
2.2.3 非降采样 Contourlet 变换原理 |
2.3 高维特征降维技术 |
2.4 文本对象纹理分类技术 |
2.5 本章小结 |
第3章 视频文本检测与定位 |
3.1 引言 |
3.2 基于边缘和角点密度的潜在文本区域粗检测 |
3.2.1 边缘和角点特征提取 |
3.2.2 潜在文本区域粗检测 |
3.3 基于纹理特征的文本区域精确定位 |
3.3.1 小波分解及多尺度特征提取 |
3.3.2 局部二值模式特征提取 |
3.3.3 基于 IOSMAP 的高维特征向量降维 |
3.3.4 SVM 文本分类器训练和分类 |
3.4 文本行定位 |
3.5 实验结果及分析 |
3.6 本章小结 |
第4章 基于多帧的视频文本跟踪和分割 |
4.1 引言 |
4.2 基于模版匹配的视频文本跟踪 |
4.2.1 基于小波重构的文本匹配模版 |
4.2.2 文本模版匹配度量标准 |
4.2.3 金字塔分层匹配 |
4.2.4 基于 NCC 测度模版匹配的文本跟踪 |
4.3 多帧融合文本区域增强与极性判断 |
4.4 基于改进的二维条件熵的视频文本分割 |
4.4.1 基于 NSCT 的改进二维条件最大熵 |
4.4.2 BFO 算法原理 |
4.4.3 基于 NSCT 最大熵和 BFO 的文本分割 |
4.5 实验结果及分析 |
4.5.1 文本跟踪实验结果及分析 |
4.5.2 文本分割实验结果及分析 |
4.6 本章小结 |
第5章 基于改进 PCNN 的视频文本分割 |
5.1 引言 |
5.2 PCNN 模型基本原理及应用 |
5.2.1 PCNN 模型及原理特性 |
5.2.2 PCNN 在图像分割中的应用 |
5.3 基于改进 PCNN 模型的文本分割方法 |
5.3.1 改进的 PCNN 模型及参数设置 |
5.3.2 基于最大类间方差的输出选择标准 |
5.4 实验结果及分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文和取得的科研成果 |
个人简历 |
致谢 |
(9)视频图像文字检测研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 视频文字检测的研究背景及意义 |
1.2 视频文字的分类和特点 |
1.3 视频文字检测与分割的流程 |
1.4 国内外研究现状及发展趋势 |
1.5 本文的主要内容和章节安排 |
2 视频文字检测方法 |
2.1 基于文字结构特征的方法 |
2.2 基于纹理特征的方法 |
2.3 基于统计特征的方法 |
2.4 时间域的多帧融合的方法 |
3 视频文字检测和定位算法研究 |
3.1 背景分类 |
3.2 简单背景的文字检测和定位算法 |
3.3 中等复杂度背景的文字检测和定位算法 |
3.4 复杂背景的文字定位算法 |
3.5 基于时间域的视频帧文字检测和定位算法 |
3.6 本章小结 |
4 视频文字分割算法研究 |
4.1 投影分析 |
4.2 极性判断 |
4.3 基于多帧融合文字分割 |
4.4 基于笔画滤波的文字分割 |
4.5 实验结果与分析 |
4.6 本章小结 |
5 总结和展望 |
5.1 全文总结 |
5.2 下一步工作 |
致谢 |
参考文献 |
(10)视频文本提取技术研究及在虚拟卡拉OK中的应用(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要工作和内容安排 |
第二章 视频文字提取的主要方法 |
2.1 视频文字的特点 |
2.2 视频文字提取 |
2.3 文字检测的主要方法 |
2.3.1 边缘检测 |
2.3.2 纹理特征提取 |
2.3.3 基于连通区域的方法 |
2.3.4 机器学习的方法 |
2.3.5 基于视频的多帧平均方法 |
2.4 文字分割的主要方法 |
2.4.1 预处理和文字增强 |
2.4.2 基于颜色阈值的方法 |
2.4.3 基于统计模型的方法 |
2.4.4 无监督聚类的方法 |
2.5 文字识别 |
2.6 本章小结 |
第三章 利用颜色建模实现视频字幕提取 |
3.1 引言 |
3.2 方法描述 |
3.3 获取文字位置 |
3.3.1 边缘检测原理 |
3.3.2 边缘检测常用算法 |
3.4 提取文字颜色层 |
3.5 文字后处理 |
3.6 文字事件检测 |
3.7 实验结果分析 |
3.8 本章小结 |
第四章 基于多帧图像的视频文字提取 |
4.1 图像中的文本定位 |
4.2 视频中的文本定位 |
4.2.1 视频监测 |
4.2.2 文字跟踪 |
4.3 文本增强 |
4.3.1 基于视频多帧信息的文本增强 |
4.3.2 基于图像的文本增强 |
4.4 实验结果与分析 |
4.5 本章小结 |
第五章 虚拟卡拉OK设计 |
5.1 框架设计 |
5.2 基于小波和形态学的MTV字幕定位 |
5.2.1 小波理论概述 |
5.2.2 小波分解 |
5.2.3 形态学运算 |
5.2.4 算法流程 |
5.2.5 实验效果与分析 |
5.3 前景分割 |
5.3.1 背景介绍 |
5.3.2 运动检测常用方法 |
5.3.3 基于差分的背景建模 |
5.4 实验结果 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录 |
详细摘要 |
四、数字视频中文字分割算法的研究(论文参考文献)
- [1]图像文字提取及基于Android的文字识别实现[D]. 李红. 山东科技大学, 2020(06)
- [2]面向互联网的图像敏感内容分析系统的关键技术研究[D]. 李英. 西安电子科技大学, 2018(07)
- [3]复杂图像中的涉密文字检测技术研究[D]. 毕建伟. 哈尔滨工程大学, 2017(10)
- [4]基于边缘和区域融合的图像分割方法及其应用研究[D]. 杨珺. 华侨大学, 2016(02)
- [5]新闻视频语义概念检测[D]. 闫海娜. 电子科技大学, 2014(03)
- [6]复杂背景图像中的文字提取算法研究[D]. 汪波. 长安大学, 2014(01)
- [7]视频中的文字提取技术[D]. 董越. 天津大学, 2014(05)
- [8]视频中文本信息提取技术研究[D]. 李丽洁. 哈尔滨工程大学, 2012(01)
- [9]视频图像文字检测研究[D]. 孙福生. 华中科技大学, 2012(07)
- [10]视频文本提取技术研究及在虚拟卡拉OK中的应用[D]. 王琦. 杭州电子科技大学, 2011(10)