一群人围坐在会议室周围,眼睛盯着大屏幕上播放的视频。
这实际上是《每日经济新闻》每日内容审查会议。
但这一次的背后,却是一场“暗流涌动”的较量。
和往常一样,内容团队仔细研究了主持人在灰色测试视频中播放的新闻。
但与此同时,同一屋檐下的技术团队的同事们正在紧握拳头,冒着冷汗:
“没有发现任何线索…”
是的,正是这种看似正常的新闻广播成为了这场“竞赛”的根源
因为视频中的主持人小黑,Ta不是个人,而是人工智能技术合成的数字虚拟人。
在公众作出反应后,这件事就结束了《每日经济新闻》内部迅速爆炸。后来,有人甚至问“视频的哪一部分是人工智能”?
技术团队给出的解释如下:
从表情到姿势,再到文字,都是如此。
后来,这项技术悄然上线70天,但即使是目光敏锐的观众也没有发现任何异常。
当真相公之于众时,其结果可想而知,并立即引起了广泛关注。
《每日经济新闻》它被放在官方微博的顶部,这可以从关注度上看出来。
这一切背后的技术是小冰团队的小冰框架;(小冰化身框架)
但说真的,小冰的团队已经不是第一次在公众面前让虚拟人大吃一惊了。
我感觉不到你是不是一个人
在创造小黑的同时,小冰还宣布了另一个Ai-N小白。
可以说,他们在虚拟锚世界中的自然程度第一次提高到了更接近人类的程度。
从他们在视频中的表现不难看出,他们在播放新闻时的表情、嘴巴的变化,甚至身体动作的配合都是一致的。
和小黑一样,小白在被“公开”之前已经进行了70天24小时的新闻直播,这也是一种没有发现的新闻。
但正如刚才提到的,小黑和小白只是小冰众多虚拟人中的一个角落。
近日,万科员工崔筱盼获得总部优秀新人奖的消息爆出了朋友圈。
没有其他原因,因为崔筱盼不是个人,而是小冰框架下创造的虚拟人。
据报道,崔筱盼早在2021年2月就加入了Vanke。在任职期间,主要负责各种应收/逾期提醒和工作异常检测。
在系统算法的支持下,她可以学习如何以惊人的速度发现流程和数据中的问题。
她最终的工作成果是人的效率的数千倍,她正在催促应收账款逾期核销率达到91.44%。
而崔筱盼的形象也是爆炸的原因之一。
许多网民将她的形象评为“智慧之美”,而且,“傻子说不出”她是由真人形象还是人工智能创造的。
然而,与现实主义和美感相比,崔筱盼的形象更为独特,因为他是发自内心的。
是的,小冰的画框并不是凭空塑造她的形象,而是与她自己的商业能力相匹配。
(难怪崔筱盼在工作中流露出一种坚强女性的感觉)
当然,除了上面提到的虚拟人,比如说方言很重的“山东大哥”:
人工智能山东大哥音频:00:00/00:42
毕业于杨梅,最近代表中国参加迪拜世博会的夏语冰,都是小冰创作的:
……
不难看出,小冰创造的许多虚拟人都有自己的“家政技能”。
那么下一个问题是——
小冰是如何做到的,不仅现实,而且多样化,而且工厂化生产?
就像一个人,这并不容易
小冰的虚拟人,无论是静态照片还是动态新闻主播,都可以说很难区分真假。
但说真的,尤其是在打造小黑和小白时,小冰的团队一开始也遇到了很多挑战。
因为在那之前,我们可以看到所谓的人工智能虚拟人锚仍然是假的。
例如,主持人的表情不够自然,下半身几乎不动,语言广播也是“机械的”。
甚至到《每日经济新闻》团队成员对此提出了一个大问号:
我们为什么要在上面放这么一个假的虚拟人?
在这方面,小冰的团队在技术路线上进行了核心变革,以达到人类首次无法辨别的程度。
总体而言,小冰的框架仍然是核心。
这次的关键技术变化是可视化优化。
在过去,我们可以在电影中看到的真实效果要么是传统的3D建模方法,要么是CG后期渲染。
然而,这两种方法在时间周期和资金成本方面的缺点也非常明显。
基于这种情况,小冰的团队提出了一种新方法——深度神经网络渲染技术;(XNR)
简而言之,该技术主要包括三个步骤。
第一步是建立两个专家模型。
首先是语音专家模型。其基本思想是使用大量数据来学习和理解人类语言。
例如,当一个人对说话感到兴奋时,他的嘴形状会发生明显的变化,语音专家模型就是要学习这项技能。
第二个是专家模型,它通过收集摄像机和其他设备拍摄的人物视频数据,学习如何在说话过程中,在人的嘴巴和眼睛和脸部的其他肌肉的变化之间产生微妙的联系变化。
这样,虚拟人的整个面部表情可以在交谈时变得自然流畅。
第二步是渲染。
即将语音输入到深度神经网络渲染模型中,然后逐帧渲染自然人脸,形成动态过程。
然而,在这个过程中,前两个专家模型也将发挥监督作用,以使整体效果自然。
第三步是自动化流程。
也就是说,当输入文本时,它将通过TTS(文本到语音)将文本转换为语音。
当机器接收到这些语音信号时,它会将它们与虚拟人的所有手势、动作和表情联系起来,最终生成一个完整的视频。
也正是这一技术路线的改变,最终使小冰的虚拟人欺骗了人眼。
……
在谈到其背后的技术之后,许多朋友还必须提出以下问题:
当小冰看起来如此人性化时,她想做什么?
让我们以小黑/小白为例。
一旦它们的效果出来,它们就会让《每日经济新闻》内容团队的态度发生了360度的变化--
从质疑和反抗开始,它直接转变为积极的接受。
后来他们直接接下需求,找到小冰团队的技术人员,说:
我们现在需要人工智能来播放这些内容
这是因为他们发现虚拟人广播新闻,不仅可以像人一样真实,而且可以是7x24小时。
这样,本身非常及时的新闻传播就变得非常准确,高效,释放了大量的人力物力。
甚至到《每日经济新闻》我的同事会私下问他们,“你什么时候变成24小时制的?”
……
不仅仅是新闻主播。如果我们从更高的角度来看,不难发现人工智能虚拟人已经成为一种普遍趋势。
例如,不久前短视频柳夜熙,一个在平台上一夜之间爆炸的虚拟人,当她只发布一段视频时,她是来自全国各地的围观者。
△资料来源:柳夜熙官员短视频数字
作为一名虚拟美女博主,她不仅是一个精彩的故事,还因为她高超的捏脸技术,使她呈现出东方古典与现代时尚元素完美结合的效果。
另一个例子是虚拟人阿亚伊(ayayi),他突然在互联网上流行起来,只有一张“身份证照片”(当天有224万次浏览)。
△资料来源:ayayi官方平台
与之前的虚拟形象不同,她更接近人类。无论是皮肤、头发还是微表情,她都实现了对真人的高度还原。
这证实了人工智能虚拟人正逐渐迎合公众的审美和品味。
从商业角度来看,仅在2021,就有10以上的虚拟人力融资渠道。可以说,具有敏锐嗅觉的VC已经抛出橄榄枝,开始布局。
除了这种可视虚拟人,就语音而言,Gartner预测到2023年,25%的员工和应用程序之间的交互将通过语音进行,但2019年这一数字将不到3%。
从表面上看,这一切背后的原因是虚拟人技术的不断迭代和发展。
但如果我们深入挖掘,我们仍然可以看到它能带来和创造的价值。
除了释放虚拟锚等人力和物力资源外,夏语冰的绘画和创作能力还可以打破人类有限的创造力。
一言以蔽之,现阶段总结虚拟人可能有三大趋势,再明显不过了:
虚拟人从长时间的逼真到逼真的声音和姿势;
虚拟人从“愚弄一段时间”发展到“愚弄一辈子”;
虚拟人已经从黑色科技和肌肉秀等词汇中脱颖而出,进入各行各业。
当这三大趋势结合在一起时,它们实际上指向了另一个更大的趋势--
虚拟人正迎来质的变化。
如果在2021,“有虚拟人是新闻”,那么2022可能是“谁在任何领域都没有虚拟人”。
还有一件事
看看小冰的虚拟人形象,不难发现其背后的规律:
小冰总是“先做后说”,即先让虚拟人偷偷“上班”,然后用结果悄悄地给大家惊喜。
小冰的团队还透露,除了公众的“声称”,现在还有一个虚拟人长期“潜伏”在人类中间。
很快,它将带来另一种突如其来的理解。
那么小冰对虚拟人技术有信心吗?还是在这样的重复之后,让每个人对虚拟人“脱敏”,从而成功实现“人工智能与人的混合生活”?
你不妨猜猜看?有很多人感兴趣。我们去找小冰的团队来解决~