OGB(开放图形基准)在知识地图领域的“世界杯”wikikg2列表再次刷新!
名单上的球队第一次赢得了冠军,在前五名中占据了两个席位。在过去两年里,中国科技公司在人工智能领域取得了巨大进步,赢得冠军似乎是合理的。
但出乎意料的是,这个团队来自一家“非典型技术公司”——一家在公众心目中被贴上“数字安全”标签的公司360。
乍一看,这三位参赛者并不是明星和神的最佳组合:2019年刚毕业的硕士、去年加入该公司的“新人”和实习生。
然而,这样的团队击败了三大人工智能巨头LeCun和约书亚·本吉奥的metafair实验室和MILA实验室,从Facebook、阿里巴巴和第四范式等国内外知名的顶级人工智能研究团队中脱颖而出。
即使是最好的结果,也可以通过几乎最小参数的模型实现:
△OGB-维基百科排名数据
所以问题来了。。。,360为什么提交和开放的竞争模式能够击败一组竞争对手,使其名列前茅?为什么是赢家360?
让我们从团队使用的TripleRE+nodepiece方法开始。
在模型达到顶峰后,它继续被“利用”
所谓的songZuying+nodepiece是在团队开发的原始模型songZuying和现有nodepiece算法的基础上提出的一种创新方法。
其中,TripleRE模式是他们这一次胜利的关键。
TripleRE全名为“通过Triple关系向量嵌入知识图”,通过三个关系向量直接翻译为嵌入知识图。
首先,解释知识地图的嵌入。
众所周知,知识地图是连接各种信息的关系网络。它是一种抽象描述现实世界及其关系的方法。
节点和边是其组成的基本元素。一个头部实体、一个关系实体和一个尾部实体可以组成一个三元组来表示“知识”或“事实”。
虽然三元组可以有效地表示结构化数据,但其底层符号的特性会使知识地图难以操作,并且常常导致知识地图不完整。
这需要一种补充方法:知识地图嵌入。
这种方法也称为知识表示学习(KRL)。具体来说,它将知识地图的实体和关系嵌入到连续向量或矩阵空间中。它可以学习知识地图的低维表示,同时保留实体和关系的语义。
以及开头提到的三个关系向量;它是实现知识地图嵌入的一种具体方法。
以前的知识地图嵌入方法,如2020年提出的PairRE模型,主要是通过两个用于关系表示的向量将头部和尾部实体投影到欧洲空间,然后最小化投影向量的距离:
TripleRE的模型将向量分为三部分。两部分学习PairRE等投影特征,一部分学习翻译特征。这是“向量的三部分嵌入”,这与模型的名称一致。
通过引入三段关系表示,TripleRE的模型可以提取更多的关系特征。
在此基础上,,360参与团队还在知识模型领域引入了一种新方法,即去年6月刚刚提出的nodepiece。其核心是嵌入具有较小子实体的大型实体。
最后,该方案实现了“小参数模型上榜”的效果。
值得注意的是,这种模式不仅仅是“炫耀技能”或“刷清单”的产物。参加比赛的TripleRE并非“失业”。
由于第一次模拟考试能够更好地表达知识,因此它也是解决知识地图领域中数据提取和合并困难等问题的一种新思路和新方法。
目前在360它可以在许多应用场景中看到。例如360该模型已应用于搜索,提高了信息搜索的准确性。
“白帽军团”的极客基因
在第一次模拟考试之后,有十几个算法团队,主要阵容是三个。
除了一名实习生,开头提到的2019年刚毕业的硕士生叫俞龙,主要负责玩游戏。他以硕士学位毕业于武汉大学,并于同年加入该校360,负责实体推荐、知识抽取、垂直领域知识地图构建等。
另一个“新人”是刘焕勇,他负责比赛中的技术评估和讨论。2017年毕业于北京语言文化大学,获硕士学位。他曾在中国科学院软件研究所工作,去年8月刚刚加入360,他是算法专家,也是知识地图算法组的负责人。
在谈到TripleRE的模式及其未来计划时,刘焕勇非常谦虚。他认为,TripleRE的模式目前仍是一个阶段性成果,还有很多方面值得优化。
具体而言,他们将继续关注360许多内部大规模知识地图构建和应用场景是迭代开发的,并进一步扩展到企业地图、安全和其他业务。
然而,当被问及他对获奖的感受时,他改变了画风,揭示了一些年轻人的天性,并反复开玩笑说自己“激动人心”。
停留360在内部,这是一个令人兴奋的成就,而外部世界,除了旁观者的赞扬,也或多或少是正确的360网球场上的“常胜将军”对赢得人工智能比赛的冠军有点惊讶。
可在360人工智能研究所“360人工智能研究所所长邓亚峰(AndyLau)表示,“这是团队内部的长期研发方向之一。”
为什么?就这样360三层降水。
首先,互联网、物联网和安全等多种服务并行实施360,它有一个大规模的应用场景和大量的数据。
例如,在互联网领域,包括360保安、浏览器、导航、搜索等方面,所涉及的数据还包括复杂的图形和视频信息流,这些信息流是实时更新的,不会中断。
在数字安全领域,,360积累了2EB的海量安全大数据,包括180亿个恶意网站、5万亿以上幸存网站、300亿个样本文件等。随着2019年政企安全工作的深入,安全数据在更复杂的场景中不断得到验证、培训和补充。
拥有如此广泛的业务覆盖范围,难怪刘焕勇第一次被问及他对该公司最深刻的印象时脱口而出:数据量特别大,尤其是安全数据,这对我有很大影响。
其业务范围广泛,运营多年,提供了大量有价值的数据积累,涉及计算机视觉、语音语义对话、自然语言理解、机器人运动、智能安全等主流人工智能研究方向。
在以数据为资源的人工智能时代,这些业务场景数据无疑是人工智能研发的绝佳“训练场”。
让我们以“搜索”为例。
近年来,,360一方面,知识图谱技术用于自动提取搜索查询词和网页内容中的实体、属性和关系,并构建实体之间的关联,通过知识图谱矢量化技术帮助提高搜索和推荐效果;
另一方面,采用自然语言预训练模型提高语义理解能力,应用于搜索引擎的各个环节,整体提升近20%。此外,通过图形交叉模态技术,图像搜索的错误率降低到原来的1/4。
这种跨模态技术也应用于化学领域,360新的化合物识别方法Kress是基于深度学习分别表示核磁碳谱和分子结构公式,然后将这两种表示映射到一个空间,然后计算相似度:
此外,与运动引擎相关的AI技术,如定位、映射和路径规划,也为清扫机器人等智能设备提供技术支持。
除了自身的技术实力外,它还支持如此大量和丰富的应用的登陆360与整体极客精神有关。
这也是360第二层降水。
“拿”360对于AI研究所来说,作为公司的科研机构,衡量其一年工作的KPI对部门利润没有具体的金额要求,而是价值要求。
如何体现价值?
即更加关注研究是否能促进公司的业务和产品特性,甚至是否能应用于公司业务以外的地方,如与医疗、化学等传统行业相结合,以发挥工业和民生的实用价值。
邓亚峰主席嘲笑了设定这一价值指数的大老板周鸿祎:
周是一是一个非常有趣的人。如果你直接跟他谈钱的事,他会生气的。
这种务实的语气直接反映在360关于人才的“偏好”。
喜欢360在人工智能研究机构中,获奖工程师俞龙等学校招聘的“培养部工程师”和当地工程师的比例非常高。在当今教育门槛越来越高的人工智能产业中,360他仍然认为“英雄不问出处”,更喜欢能在特定场景中创造性地解决问题的人才。
在谈到TripleRE模型团队未来的优化目标和长远规划时,两位一线技术人员一致认为,一定会围绕知识地图的具体应用场景进行前沿探索。
该团队旨在吸引务实和积极的成员。进入团队后,继续“提供”业务场景,并将其与技术相结合,以创造新的价值。其应用创新将继续吸引新的人才。
这形成了一个良性循环、技术和应用创新的温床。
360人工智能研究所所长邓亚峰是去年加入的“新人”。
他曾担任百度深度学习研究所的科学家,在人工智能和计算机视觉领域拥有近20年的经验。
作为人工智能领域的专家,他在加入我们之前已经听说过很多这方面的知识360成绩,,360AI团队的论文和登陆成果不断更新,在行业内也有着深刻的影响。
技术积累是360第三层降水。
除了在人工智能领域的成就之外,360更为外界所知的是,“安全能力”被列入微软、谷歌、苹果、特斯拉等国际知名公司的白帽感谢名单,360由于发现了一系列关键漏洞,安全团队全年都处于前列。
在世界顶级安全会议和比赛中,360它还赢得了许多奖项。
2019年,在被称为“全球白帽黑客奥斯卡”的Pwnie奖上,360它已成为中国第一家获得最佳权利奖的企业。
在2021年的Pwnie奖上,360他又一次获得了两项“最佳权力提升漏洞”提名和一项“史诗成就”提名。到目前为止,“东半球最强的白帽军团”已经成为360同义词。
△史诗成就提名
2020年,,360研究还发现,以一个大国的情报机构为基础的apt攻击组织已经在中国的关键地区潜伏了11年。
到目前为止,360共抓获并监控了46名外国黑客3600次攻击,涉及20000多个攻击目标。在今天日益激烈的网络攻击中,360将此安全功能用于保护政府和企业用户。
当人工智能逐渐兴起时,360早期也进行了探索。
回到2010年,360在人工智能算法的基础上,推出自主研发的第三代杀毒引擎QVM人工智能引擎,使杀毒引擎具备“自学习、自进化”的能力,从根本上解决了“不升级病毒库就无法杀死新病毒”的技术难题,这在世界上尚属首例。
回首360事实上,这一奖项在知识地图领域可以发现,这是一项经过继承和积累的必要技术。
周鸿祎带队,技术团队“上山下海”
近年来,人工智能和数字安全领域如雨后春笋般涌现,人工智能和安全相互促进。
无论是让人工智能更安全,还是使用人工智能提高安全性,两者的结合才刚刚开始。
如你所见,360最近,凭借经验丰富的优势进入该行业已开始取得成功。从人工智能进入数千个行业的角度来看,360事实上,各种行动被用来证明他们继承了互联网时代安全官员的角色,并提供了护航。
周鸿祎曾在2021年世界互联网大会上说:
科技企业只有承担起“上山下海”的新使命,突破技术壁垒,赋予传统企业权力,承担起国家战略科技力量,才能获得更大的发展空间,创造更大的价值。
所谓上山,就是通过自主研发原创创新的新技术、新模式,追求先进技术,解决行业共性问题。
所谓出海,就是“数字蓝海”。在取得技术成果后,必须使其产生真正的落地价值,使最前沿的技术能够惠及传统企业乃至普通百姓的数字化转型。
结合人工智能产业的发展势头,老周的豪言壮语并非空话。
而且360在内部,这不仅仅是一个口号。
公司内部的具体“三年计划”或长期使命愿景已经开始实施。
比如,为了推动人工智能的大规模登陆,360一些关于自动机器人的研究正在进行中。他们不仅喜欢扫地机器人的实体,还喜欢语音语义对话的虚拟机器人。
例如,在邓亚峰院长预测的“基于自我监督预训练的跨模态统一框架”技术趋势下,他们继续在视觉理解、自然语言处理、知识图谱、语音语义对话和机器人运动等领域进行新的探索,涵盖了以人工智能和深度学习为核心技术,不断拓展跨模式表示和自学习的技术边界,监督预培训等研究,并将其应用于互联网信息发布、智能生活、数字安全等业务中。
关于360对于技术人员来说,他们对“上山下海”的理解非常简单:他们不仅要开发行业一流的技术,还要实现行业价值。
除了公司本身,从更宏观的角度来看,数字安全领域的领先制造商“上山下海”,这不仅赋予人工智能能力,还为国家关键领域的数字化提供了保障。它的自主开发过程和创新勇气也为人工智能行业提供了更多的技术推广和发展模式。
360,已经在通往未来的路上了。