互联网内容越来越朝着视频化方向发展,短视频处于爆发期,一些不法分子试图利用视频风口牟利。3月底,深圳警方打掉了一起以短视频APP为载体,大肆从事淫秽传播、网络赌博以及网络诈骗等犯罪活动。
最近,阿里安全图灵实验室就发布了一项关于社会文化的最新技术研究,这是一种新型视频描述生成技术SGR,可用于视频内容安全和视频检索等场景,助力建设互联网清朗环境,该研究成果被人工智能国际顶会CVPR 2021(oral)收录。
阿里前沿技术让AI做“阅读理解”
SGR可以实现两类基本功能,一是让AI对视频内容做“阅读理解”,生成一段长文本描述视频中心内容,二是可以根据描述性的文本精准匹配视频中的相关片段。
相较于此前必须人工定义关键词词库后,才能“指挥”AI命中检索,这项AI技术的目标是仅通过输入自然语言就能实现检索,对AI“说句话”,就能找到相应片段。
“视频中如果有人拿起鼠标,点击电脑,然后脱掉衣服,呈现黄赌毒等相关违规信息,以前的技术路径上,AI可能还要分析脱掉衣服之前的动作,其实拿鼠标和点击电脑与后面的违规内容没什么关联,无需提取这些信息。”该研究第一作者、阿里安全图灵实验室实习算法工程师青崧介绍道。
SGR解决了这个问题。给定一个视频,AI可对视频的关键候选片段无缝衔接成一个完整的故事,保证了密集型描述的连贯性,且减少了冗余。
该研究共同作者、阿里安全图灵实验室高级算法工程师雍秦介绍,虽然目前这个技术还无法做到“1分钟讲清楚一部电影”,但可做到“两句话讲清楚一个10分钟以内的短视频”,这意味着通过该技术未来可迅速判断整个视频的关键信息是否包含黄赌毒等违规内容。
更快更准识别违规风险内容
通过这两个功能,AI能快速识别、准确定位违规片段,无需人类鉴黄师反复回看确认。
雍秦透露,在SGR技术研究基础上,阿里安全近期还将研发低门槛、高可用的“鉴黄”AI工具,让AI对视频不同片段打出“危险指数”,依赖信息提取直接关联高亮风险片段,让AI鉴黄更智能、高效。
未来,在实际应用场景中,通过AI来进行不良内容识别的研判准确性和效率将大幅提高,比如判断视频内容中是否有“一个穿着暴露萝莉装的女孩鸭子坐着在录吃播”,以往要形成“暴露萝莉装”“鸭子坐”“吃播”三个标签,每次依据一个标签进行一轮审核,判断视频内容是否涉嫌低俗,三轮审核交叉验证。创新工具应用后,AI只用输入“一个穿着暴露萝莉装的女孩鸭子坐着在录吃播”这句话进行一轮研判,准确性也更高。