千万别让AI自动生成字幕：满屏“脏话”不忍直视

阅读需：0

AI自动生成的字幕有多离谱？

他不仅把“螃蟹”误认为“垃圾”，还当场粗鲁地说：

你甚至可以把“玉米”翻译成p*RN

关键是这些是AI为儿童节目自动生成的字幕。

AAAI2022的一项新研究发现，在7013个儿童视频中，近40%的节目出现了诸如儿童不当或脏话之类的词语。

即使在113集的儿童机器人学习专栏中，AI“破解”103次，接近平均每集一次！

YouTube正在接受这一点《连线》采访中的回应：我们为13岁以下的儿童开发了YouTubekids。此应用程序将关闭字幕生成功能。

但如果需要字幕，我们如何才能找到减少AI一代错误的方法呢？

让我们看看。

亚马逊和谷歌都非常“Zuan”

让我们来看看本文的发现。

研究人员从管道中总共选择了24个儿童频道，并记录了这些频道的广播和订阅数量。

可以看出，视频播放量基本上达到了100万，用户数量也很多。

然后，研究人员尝试了谷歌和AWS（亚马逊网络服务）的字幕生成效果。

结果显示，AI字幕中“不适合儿童”的比例令人震惊：

在7013个视频中，谷歌的AI有2768个错误的字幕，将近40%。

亚马逊的AI字幕错误率更高，达到3672次，超过52%。

具体来说，AI和AI都容易在这些“不恰当”的词语上犯错误：

△亚马逊在左边，谷歌在右边

在这些数据集中，有一些词特别“不适合儿童”，例如一些辱骂性脏话：

经过作者的手动检查（例如，确认原始视频是否真的说脏话），发现AI在以下情况下容易出错：

背景音乐很吵

演讲者是个婴儿

演讲者是个孩子

说话者把英语作为第二语言

演讲者正在唱歌

△包括但不限于这些情况

那么，有没有办法减少这种情况？

词序连贯中的错误更容易纠正

研究人员提出了一个新的数据集，该数据集使用近音词来构建禁忌词的“替代”选项。

例如，对于可能的“脏话”，研究人员设置了发音相似的单词，如crab和craft，以便AI在出错时可以替换。

具体来说，他们在诸如BERT、XLM和xlnet等NLP模型上对“完形填空”任务进行了再培训，也就是说，他们用[mask]覆盖了一些单词，并要求AI填写相应的内容。

结果表明，AI在语序正常、前后有逻辑拷贝的视频中的替换准确率较高（蓝色是正确的替换词）：

然而，在一些逻辑性较弱的文案中，成功替换的效果并不太好：

最后，Megatron（AndyLau）和莱文施泰因（Levenshtein）等机型的修复效果最好，亚马逊AI（AmazonJetLi）的正确修复率超过25%，谷歌AI（GoogleJetLi）的正确修复率超过28%。

从字幕生成能力来看，AI还有很长的路要走。

论文地址：https://github.com/sumeetkr/UnsafeTranscriptionofKidsContent/blob/main/YouTube_Transcription_Final.pdf

参考链接：https://www.dailymail.co.uk/sciencetech/article-10553233/YouTube-AI-播放清晰的语言字幕视频-aimed-儿童html