2018年3月,搜狗搜索联合清华大学计算机系、国家超级计算无锡中心、数学工程与先进计算国家重点实验室、卡塔尔计算研究所、国家并行计算机工程技术研究中心等国家级科研单位,共同研发推出了世界上首个基于超级计算机的超大规模图计算系统——神图。神图系统大幅提升了图计算系统所能够支持的最大数据量和计算复杂度,这标志着超大规模图数据的计算能力实现了巨大的飞跃,同时,也为搜索领域的用户体验开创了新的篇章。
神图系统的运行环境是神威·太湖之光国产超级计算机,2016年6月至今,神威·太湖之光已连续4次获得世界高性能计算机排行榜第一名,是目前世界上最快的计算机。基于神威·太湖之光超级计算机的先进架构,神图攻克了大规模图计算系统面临的多项核心技术难题,针对超级计算机的运行特点进行了深度优化,充分挖掘了神威·太湖之光的超宽并行架构的计算能力,将真实任务的应用性能提升了两个数量级。
搜狗搜索始终着力于对前沿技术成果的推动、创新,致力于为用户带来便捷、丰富的个性化搜索体验,满足用户的多元化搜索需求。搜狗搜索智能的用户分析系统为神图系统的研发提供了不可或缺的、全方位多角度的用户实用场景。
过去,超级计算机主要用于科学与工程计算,还比较缺乏面向超大规模数据分析的非数值计算应用。图(Graph)能够表达丰富关联的关系,是搜索和人工智能领域中常用的数据结构之一。基于图的数据挖掘算法已经广泛应用于搜索系统的网页链接关系分析、文档主题建模、用户点击行为分析、实体与关系挖掘、搜索意图理解等任务中。互联网应用的数据规模和用户使用频度均在持续快速增长,这对图计算系统的横向扩展能力提出了全新挑战。现有分布式图计算系统普遍采用按点划分或按边划分的分布计算模式,但由于互联网环境下数据分布遵从幂律分布,顶点度数存在极大的不平衡性,两种方式都面临严重的性能问题。超级计算机先进的体系架构和超高的计算能力为超大规模图计算任务既带来了机遇,也提出了挑战。
从2017年开始,搜狗搜索联合清华大学计算机系等单位,共同研发了面向超大规模图计算的神图系统。研发团队通过深入分析神威·太湖之光的系统大容量的内存、领先的通信能力、以及大容量且能快速访问的外存系统的优势,并同时充分结合超大规模图算法的实际需要,创新性地提出分化的消息传播技术、基于分组的消息分发技术、无锁数据分发技术、基于内存检查点的高可用系统等多项新技术,成功研发出可支持BFS/WCC/PageRank等核心图计算算法的神图系统,计算规模可以扩展到神威·太湖之光全部4万个节点。在实际应用中,神图能够充分利用上千万核的运算能力和各节点之间通信网络,在12万亿条边的真实中文网页图上完成PageRank算法的一轮计算迭代仅需21秒,与文献中报道的业界最先进水平系统相比,(如微软的GraM系统处理1.2万亿条边的合成图每轮PageRank迭代需要140秒),所处理图数据规模增加了一个数量级,计算耗时反而缩短了一个数量级,综合性能提升超过百倍,实现了图计算节点规模、图数据规模以及运行速度上的巨大突破。
神图系统的研发成功,在扩展了国产超级计算机在大数据分析领域的应用能力的同时,提供了更加迅捷的实验、优化超大规模图算法的运算环境。神图系统更加强大的计算能力给人工智能等相关领域提供了更广阔的探索空间。
搜狗搜索研发团队已经将神图系统集成、渗透到搜索大数据平台中,新系统将为搜狗搜索持续优化提供强有力的技术支撑和系统保障,为用户实现更精准便捷的搜索体验。同时,搜狗搜索作为人工智能领域的领跑者,将继续致力于推进国产超级计算机和国产处理器产业,加速扭转我国计算机领域核心技术和信息安全上受制于人的局面。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!