传统数据湖面临性能挑战
随着数据分析和人工智能应用的普及,企业数据量大增,创新业务层出不穷,企业对数据分析灵活性、性能和成本的要求越来越高,传统大数据Hadoop系统搭建的数据分析平台已无法满足企业的要求。越来越多的企业以数据湖为基础构建大数据处理平台,数据湖的典型特征是存储和计算分离,能够降低系统成本同时获得更好的系统扩展性。
数据湖架构使得企业可以在一份数据上拓展创新业务,而不必每发展一个新业务就做一次数据拷贝,但传统数据湖方案在性能上仍然存在明显的缺点,传统数据湖依赖云存储,虽然降低了存储成本,但在数据分析的过程中完全依靠云存储自身的吞吐能力进行数据扫描,这种方式只适用于ETL、批量计算等时延不敏感的应用,却无法支撑秒级数据检索、时序数据分析等低时延的分析场景。
数据湖支撑大数据分析和机器学习平台
除了服务传统的Hadoop/Spark大数据分析平台,数据湖还需要满足AI算法的模型训练和推理、数据归档的需求,这要求存储系统支持多种协议以提升处理效率。比如在自动驾驶模型训练及分析场景中,车辆采集的视频、雷达数据需要通过文件或对象接口导入存储,然后通过HDFS接口对数据预处理,预处理结果再通过文件接口由计算服务器进行AI训练和高性能仿真,从而得到新的算法和模型进行下一轮测试。这些需求不是单一的对象存储或HDFS存储能够支撑的,需要更专业的存储平台提供服务。
杉岩数据的MOS海量对象存储通过异构纳管的方式,可以整合管理已有的HDFS数据源和NAS数据源,通过混合云存储方案,可以将存储在公有云的数据也纳入到MOS对象存储池统一管理。杉岩数据近期发布的MosFS高性能数据湖文件网关在系统架构中位于MOS对象存储池之上,为Hadoop/Spark大数据分析平台和TensorFlow/PyTorch/Caffe等机器学习平台提供原生的HDFS接口、S3/OSS对象接口、POSIX文件接口。
图1:数据湖文件网关架构
MOS对象存储和MosFS文件网关组合构建的数据湖架构为企业统一管理众多的数据源,实现高性能存储和数据治理提供了坚实的基础。
· 高效率的多数据源管理
MOS可以纳管第三方的NAS存储、对象存储和HDFS数据源,并通过映射的方式对上层提供数据服务,可以在现有的IT架构中实现存储系统的快速割接,漫长的数据迁移可以在后台异步执行。统一管理的数据可以为多套平台和应用服务,不需要多重复制,减少对存储空间的需求。
· 内容感知的多级缓存加速
机器学习平台在模型训练中要求数据的超高吞吐量和超低延迟,MosFS可以和上层应用联动,通过标签感知与应用关联度高的数据,机器学习平台可以通过路径、数据标签、多策略组合等方式得到相关性高的数据集。在实际运行中,MosFS把上述数据映射成目录,并通过内存和SSD多级缓存来加速数据访问。比如在自动驾驶的训练中,算法需要所有车辆在白天的四车道上捕获的视频和图片,MosFS就可以通过这些数据特征对应的标签,将MOS存储资源池中的相关数据映射为一个目录,并通过多级缓存提供给训练算法。
· 多策略数据映射简化管理
MosFS的数据映射能力实现了数据访问的虚拟化,并通过全局命名空间将数据呈现给上层应用,基于时间、标签、文件名前缀等多粒度策略可以简化对数据的管理。
性能逼近本地全闪存的分布式数据湖文件网关
MosFS文件网关与MOS对象存储可以合设也可以分离部署,为了满足机器学习平台超高吞吐量和超低延迟的性能要求,通常将MosFS分布式部署于计算服务器,在这种情况下,MosFS将计算服务器的本地预留内存和SSD组成一个分布式的缓存层以加速训练。传统分布式NAS作为机器学习后端存储的方案具有成本高昂、数据与其它类型存储不能互通等缺点,数据管理复杂造成训练效率低下,相比而言MosFS的方案可以管理MOS、原有NAS和HDFS存储,统一所有数据视图,且分布式数据缓存可以将训练效率提升多倍,性能接近于使用计算服务器的本地SSD。
图2:数据湖文件网关分布式部署于计算服务器
HDFS协议增强实现大数据存算分离
HDFS作为传统的数据仓库存储平台在数据湖场景下面临性能和成本的问题。在实际应用中,在10~20PB以上的数据规模下,HDFS的性能下降严重,另外HDFS基本只支持多副本的存储模式,对纠删码的支持效果不佳。MosFS和MOS组合构建的数据湖存储兼容HDFS接口和S3协议,可以实现存储和Hadoop计算平台的分离,帮助客户把HDFS的数据统一归集到MOS存储中,实现非结构化数据、半结构化数据和结构化数据的统一管理。MosFS提供的原生HDFS接口100%兼容主流平台,并在内部实现了S3/OSS与HDFS接口协议的互通转换,避免数据多次拷贝。
图3:数据湖架构实现存算分离
大数据分析和AI训练推理融合的需求越来越多,传统的大数据存储仅提供HDFS接口,大数据分析的结果如果用于AI训练,需要把数据拷贝到其它存储中处理,导致数据分析整体效率的低下,也浪费了存储空间。杉岩新型数据湖架构既能提供HDFS接口用于大数据分析,又能提供文件和对象接口用于AI训练推理,大数据分析结果可直接通过文件接口访问,无需拷贝和等待,很大程度上提升了融合场景的大数据分析效率。
AI训练实践案例
类脑智能技术及应用国家工程实验室是由中国科技大学组建,由中科院、复旦大学、微软、百度等机构共同承建的国家工程实验室,中科类脑成立于2017年,是该实验室的产业化平台,通过搭建“先进人工智能算法+公有计算云+私有部署云”的智能混合云平台,对外提供计算资源、人工智能技术、智能化解决方案等服务。
中科类脑开发的类脑云OS提供了大规模算力、数据和智能技术,有效降低人工智能创业门槛,能够促进人工智能应用生态的发展,赋能各行业完成智能升级转型。目前该平台已经汇聚了180项AI前沿算法、100类通用数据集,具备丰富的平台建设和行业落地经验。
杉岩新型数据湖架构已经在类脑云OS得到应用,根据中科类脑的训练方案,数据集分别放在本地SSD、分布式NAS存储和杉岩MosFS+MOS上,性能对比测试结果表明,MosFS训练耗时与本地SSD接近,对比分布式NAS,MosFS在单GPU节点下读取性能提升62.5%,双GPU节点分布式训练的性能提升75.8%。集群规模越大,杉岩数据湖方案的性能越能得到体现,表现出了优秀的扩展性。
图4:本地SSD、MosFS、NAS的模型训练性能对比
小结:智能应用和大数据分析需要智能的新型数据湖
数据基础设施正在走向智能和融合。数据湖如果不能实现有效的数据管理,就会变成“数据沼泽”,智能管理要求存储提供多维度的检索能力、生命周期管理能力以及数据可视化能力,实现数据的合理分类与管理,加速数据清洗、转换、流动的过程。存储与计算架构实现分离,结构化数据、半结构化数据、非结构化数据统一存放在数据湖中,海量的数据得以在数据湖中实现融合,不同类型数据存储的界限逐渐模糊。
人工智能和大数据分析应用的融合使得一份数据能够同时提供给多个计算及分析流程使用,新一代数据湖存储平台必须具备多源数据管理能力,包括混合云能力与异构纳管其它存储的能力,以及可智能感知内容的高性能多协议数据服务能力。新型数据湖架构必将为数据分析和智能应用的开发和运行带来巨大的便利,加快迭代分析过程,简化基础设施需求,提供综合的数据服务能力,方便人们高效率地提取数据价值。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
随着数字中国战略的步步落实,大数据已经成为锚定战略定位、抢得市场先机的重要基础元素。为彰显行业发展现状,遴选、推荐优秀企业,长城战略咨询近日在2023中国国际大数据产业博览会期间,重磅发布《中国大数据独角兽企业榜单》,根据独角兽企业国家推荐性标准,筛选出259家2022年中国大数据(潜在)独角兽企业
2023年6月15日至18日,2023北京健康医疗大数据论坛、医促会华夏健康数据与数字医学高峰论坛、第三届中华预防医学会肾脏病预防与控制专业委员会学术会议将同期于北京举行。论坛以“学术引领数智健康”为主题,着眼国家战略需求,聚焦前沿科技在健康医疗领域的发展与实践,荟萃全球顶尖学术观点,促进多方跨界融
近日,北京市科学技术委员会、中关村科技园区管理委员会公示了北京市2023年第2批科技型中小企业名单,谷器数据借助优秀的科技自主创新能力成功入选。此次评价指标围绕科研人员、研发投入、科技成果等三个维度,成功入选科技型中小企业是对谷器数据专业化发展、自主创新能力、产品技术实力的激励与肯定。科技型中小企业
评审寄语面向车间现场生产制造过程的数字化管理,谷器数据SupplyX·MES通过推动更有效的工厂运行和现场效率,提供从接收生产计划到制成最终产品全过程的生产活动实现优化的信息,成为新型工业化的标杆力量!近日,由中国科学院《互联网周刊》、中国社会科学院信息化研究中心等机构联合主办的“2023(第八届)
在如今这个数字化转型时代,大数据在企业发展的过程中发挥了至关重要的作用,大数据技术以更高效和有效的方式提供最好的服务,同时还可以提高生产力、提高客户满意度和更高效的智慧化运营。其中,成都四方伟业软件股份有限公司(以下简称“四方伟业”)以优秀的大数据产品和服务获得了多项行业荣誉。去年,2022数博会数
把脉中国数据智能化
2023年,几乎可以被定义为中国互联网公司的“大模型元年”。ChatGPT的全球爆红,彻底点燃国内的大模型赛道,曾经的“创业英雄”、如今的商业领袖们亲自下场,接连发布生成式人工智能产品与大模型布局。大模型火了,沉寂许久的互联网行业又有了新的“战事”。同时,大模型的快速发展也改变了云市场的现状,企业对
近日,数字化市场研究咨询机构爱分析发布了《2022爱分析·数据智能厂商全景报告》,爱分析从技术研发能力、服务客户数量、收入规模等维度对厂商进行了全面专业的评估
2022年11月18日,首个国家级大数据产业创新赛事——2022第一届中国大数据大赛圆满落幕。工业和信息化部信息技术发展司数字经济推进处处长张建伦,中国电子技术标准化研究院副院长孙文龙出席颁奖典礼并致辞
2022年11月17日,在厦门市工业和信息化局的指导下,以“数据确权”为主题的2022数据资产(厦门)论坛在厦门成功举办。本次论坛以“数据确权”为主题,由厦门市互联网域名应用服务产业协会和构信网(公信.中国)联合主办
近日,国内知名数字化市场研究咨询机构爱分析正式发布《2022爱分析·信创厂商全景报告》(以下简称“报告”)。报告综合考虑企业关注度、行业落地进展等因素,遴选出在信创市场中具备成熟解决方案和落地能力的厂商。
10月31日下午,由数博会执委会主办、数据观(北京)传媒科技有限公司承办、贵阳大数据交易所协办的第四期数博思享会“实践先行观公共数据价值与应用”活动成功举办。
近日,由中国国际数字经济博览会组委会主办,中国电子技术标准化研究院、河北省工业和信息化厅承办的“第一届中国大数据大赛”(简称大数据大赛)正式启动。
广州光点信息科技有限公司自主研发的数据中台产品GI大数据中台V2.0产品是国内率先推出符合新创标准的中台产品,基于“大数据+AI”等技术全新打造,集数据采集、融合、治理、服务、管理为一体的旗舰平台。
广州光点信息科技有限公司自主研发的数据中台产品GI大数据中台V2.0产品是国内率先推出符合新创标准的中台产品,基于“大数据+AI”等技术全新打造,集数据采集、融合、治理、服务、管理为一体的旗舰平台