近日,众安信息技术服务有限公司(以下简称“众安科技”)数据科学实验室的两篇论文分别被国际多媒体图像分析峰会(以下简称“ICMR”)和第24届国际模式识别大会(以下简称“ICPR”)录用,获得国际认可。
深度学习进入视频学习时代
论文“Dense Dilated Network for Few Shot Action Recognition”(《基于密集扩展网络的少样本视频动作识别》)被ICMR录用,这是深度学习在视频分类领域的创新应用,在驾驶行为分析、视频检索等领域有重要的业务价值。
深度学习是机器学习中一种基于对数据进行表面特征的方法,其概念源于人工神经网络的研究。目前,深度学习的主要素材来源于文字、图片,而随着智能手机等设备的发展,视频沉淀了大量深度学习素材。近年来人工智能、神经网络的发展更是促进了视频的分类、识别的研究。
和其他网络架构相比,众安科技的这款神经网络架构利用每层与之前所有层相连的方式,可以得到从最初局部特征到总体视频的所有特征信息。而每层网络使用了扩张卷积(dilated convolution),相比原始的卷积方式,可以更加充分利用时空信息。因此不需要很深的层数,在少量数据下就可以训练效果较好的网络。
以目前动作类别数、样本数较多的数据库之一UCF101为例,众安科技在此数据库的通用视频数据集上进行了大量实验,在仅有20%的训练数据时(模拟对新任务的快速学习),利用该神经网络架构,机器仍然可以学到每类视频的高层语义特征。
保险理赔进入人工智能时代
论文“CG-DIQA: No-reference Document Image Quality Assessment Based on Character Gradient”(《基于字符梯度的无参考文本图像质量评估》)被ICPR录用,ICPR是人工智能和模式识别领域顶级盛会,每2年举办一届,迄今已有45年历史。
随着智能手机的普及,在业务流程智能化服务中上传手机拍摄的文本照片成为一种趋势。然而,有些用户拍摄的文本照片过于模糊,后续的字符识别(OCR)算法基本无法识别照片中的文本,会大大降低业务处理速度。
针对实际业务的特点,数科室团队模拟人眼视觉认知照片质量的过程,设计了一种基于字符梯度的算法,在文本照片质量的评估过程中重点关注有实际意义的字符,忽略其它干扰信息,能更好的预测文本照片模糊程度。该方法与字符识别精度的线性相关性系数(国际通用评价指标)达到0.9841(数值越接近1表示算法性能越好),远超其它国际同行(目前最好水平0.935)。该算法应用于保险理赔等业务流程中,可以自动评估手机拍摄上传的图像质量,避免用户上传低质量的理赔文档资料,进而降低人工审核成本,提升业务流程处理效率。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!