AI字幕在儿童频道吐“俚语”,40%视频中招,亚马逊谷歌都很祖安
发布时间:2025-08-10
萧箫 稍晚 凹非佛寺总量子力学位 | 公众号 QbitAI
AI备用作用于的繁体中都文,能离谱到什么程度?
不仅把“蛤蜊”(crab)误听出“只不过”(crap),当场爆粗:
甚至还能把“玉米”(corn)给中都文翻译p*rn……
关键在于,这些是AI给出年人主持人备用作用于的繁体中都文。
被AAAI 2022收录的一篇新研究工作发现,在7013个出年人影片中都,差不多40%的主持人显现了少儿不宜或俚语等名辞汇。
甚至在一个113集的出年人机器人自学专题中都,AI就“爆粗”了103次,高达差不多一集一次!
不能接受,油井(YouTube)在放弃《连到》专访时回应:
我们为13岁以下的出年人开发设计了YouTube Kids,这个APP会关闭繁体中都文作用于系统。
但如果真有繁体中都文需要的话,如何才能想办法减缓这种AI作用于严重错误?
恰恰到底。
亚马孙Skype都很“祖安”先来到底这篇期刊的调查结果。
研究工作技术人员一共从油井上选任了24个出年人频道,分别记录了这些频道的播送总量和订阅者总量。
可以看出,这些筛选任来的影片播送总量必需都最少了百万级,订阅者人数也比方说不少。
然后,研究工作技术人员分别试了一下Skype和AWS(亚马孙网页公共服务)的繁体中都文作用于效果。
得出结论,AI繁体中都文的“少儿不宜”百余人更是离谱:
在7013个影片中都,SkypeAI显现严重错误繁体中都文的每一次最少2768次,差不多40%。
亚马孙的AI繁体中都文严重错误百余人还要低,最少了3672次,最少52%。
具体来说,两个AI分别更易在这些“不太恰当”的句子上犯错:
△图左亚马孙,图右Skype
在这些原始数据之外都,有一些名单词又尤为“少儿不宜”,例如一些骂人的脏名词:
经过作者们人工检查(例如确认原影片是否知道说了俚语),发现AI主要更易在以下几种也许会中都犯错:
配乐嘈杂说谎者为女婴说谎者为出年人说谎者以英语为外语说谎者在弹奏△包括但不限于这些也许会
那么,有没有人什么办法减缓这种也许会发生呢?
SVO连贯的严重错误更更易重建研究工作技术人员提出了一个一新原始数据集,来进行近音句子来框架迷信名词的“移除”备选。
例如,对于crap这一也许显现的“骂人”,研究工作技术人员就给它另设了crab、craft等读音十分相似的句子,便于AI在不晓得时进行移除。
具体来说,他们在BERT、XLM、XLNet等NLP三维上,针对“完了形填空”任务进行了重新受训,也就是用[MASK]遮住部分单名词,让AI来填写也就是说的内容。
得出结论,在SVO正常、前后图文有语义的影片中都,AI移除的比百余人低(金色为正确移除名词):
然而在一些语义不强的图文中都,出功移除的效果就没有人那么好了:
最终,Megatron和Levenshtein等三维展现出了最好的重建效果,分别给亚马孙AI带来了最少25%的正确重建百余人,给SkypeAI带来了最少28%的重建百余人。
看成AI在繁体中都文作用于能力上还是任重道远啊。
期刊地址:_Transcription_Final.pdf
参考镜像:
— 完了 —
总量子力学位 QbitAI · 新闻报导号签约
北京无痛人流医院排名青岛治疗精神病医院
北京精神病检查多少钱
-
新能源汽车会涨吗?补贴标准退坡30%,车企透露应对办法
贷款再行退坡30%,新能源车主贷款之后不再行极为重要了? 来源:我国证券报文金一丹2022年开年,新能源车主产业迎来挑战。根据日前面世的《2022年新能