数据时代
在数据时代,数据和业务的保护、数据的管理成为企业发展所必需的基础条件。据有效统计,当前,数据量增长、重要性呈指数级激增。据国外媒体报道,来自国际数据公司和数据存储公司希捷的一份新报告显示,随着云计算、大数据、物联网等技术产业的快速发展,数据流量增长速率正在不断加快,到2025年,预计新增数据总量将从2018年的33ZB增加到175ZB。在过去几年,全球的数据量以每年40%以上的速度增长,在未来这个速度会更快。庞大的数据量中非结构化数据占80%左右。通常我们认为大小在1MB以内的文件称为小文件,百万级数量及以上称为海量小文件,由此量化定义海量小文件。
海量小文件的应用在生活中已越来越常见,社会化网络、移动通信、网络视频音频、电子商务、传感器网络、科学实验等各种应用产生的数据,不仅存储容量巨大,而且数据类型繁多、数据大小变化幅度大、流动快等显著特点,往往能够产生千万级、亿级甚至十亿、百亿级的海量小文件。
技术挑战
数据即资产,庞大的数据资产对各企业的重要性不言而喻,需要对这些海量小文件提供保护方案来保证数据资产的安全性。但是传统的文件备份是通过基于二叉树遍历的文件系统的遍历后进行单通道的数据传输实现的。如果全部是几K的文件,磁盘的遍历时间远远大于实际的数据读取时间。这给高效的实现海量小文件备份带来了挑战。
用户故事
三甲医院A每天有上万的病人,每个病人每天产生的病例文件(包括病例、影像等文件)平均为1M,医院平均每天的病人有1万人,那一年的文件的大小是3.4TB、365万数据左右。按医院门诊病例保存要求15年,那就有51TB、5475万个数据。
该三甲医院还要十几个分院,而当前的数据中台和大数据建设需要该医院的总部将所有分院的数据进行汇聚和融合,初步评估数据中台和大数据的底层数据是PB级别(1PB=1024TB)。
法院B有一个电子文件的项目,该法院有100TB左右的数据,想要建设该市所有法院的电子文件的统一管理平台,粗略评估后总数据有3.6PB,并且有很多几kb的小文件,如果按平均文件大小100KB来算,总共有396亿左右的数据量。
我们再看一下网速,千兆网下网络的峰值基本只有100+M/S,按照平均速度100M/s来进行数据传输,100TB的数据在千兆网下,需要12天才能传完数据。
但是使用传统的文件备份方式在文件数量达到千万级时对业务系统的影响会很大,如果业务系统是运行很久的服务器,资源不充足的情况下甚至会导致业务系统卡顿;而文件大小低于100KB的海量小文件,在用传统的文件备份方式进行备份时速度会迅速降低,之前测试1kb的千万个小文件的备份速度只能以kb/s进行传输。
所以如何能够面对海量小文件、海量小文件的时候能够快速、低影响的进行备份就成了当前急需解决的技术问题。
浪擎解决方案
浪擎DAYS灾备系统全面破解海量小文件备份难题,高效守护企业数据资产安全。
磁盘级备份
磁盘级备份是指采用磁盘块的方式进行数据的备份,备份文件所在的磁盘或者分区,并且恢复的时候可以自定义所需的文件进行恢复。通过磁盘级备份能够解决海量小文件备份过程中频繁的IO访问对业务系统带来的影响,是海量备份方案中对业务系统影响最小的方案之一。并且由于采用磁盘级的备份,无论文件数量有千万还是百亿,大小是1M还是1KB,对整体的备份速度都没有影响,即千兆网下,磁盘级备份速度可以一直保持峰值(平均100M/S)进行传输。
并行多通道备份
当文件数量达到千万级别时,以传统的单通道式文件备份的形式来进行海量小文件备份,备份速度会越来越慢。针对这种情况,浪擎自主研发了并行多通道的方式进行备份,通过初始化遍历所有的文件,然后将文件平均分配给多个通道进行数据传输,数据传输完后进行数据落盘的操作来实现并行多通道备份。并且即使采用最普通的8核CPU服务器进行海量小文件备份也能同时用16个通道进行海量小文件的数据传输。10万以上的文件采用并行多通道的方式进行备份,备份时间是单通道的一半,并且文件数量越多,备份效率越高。
分布式多通道备份
当文件数量达到千万级别并且文件的大小差异很大,从几KB到几十MB都有,这种大小差异很大的海量小文件备份时的难度更大,即使采用并行多通道的方式也会由于文件数据大小差异过大,导致不同通道传输的数据总量不同,部分通道会有闲置的情况,最终导致数据传输时间相对较长。
针对这种情况,浪擎在并行多通道备份的基础上做了深度的优化,提出分布式多通道备份方案,实现多通道备份的负载均衡,让每个通道都能够满负荷进行数据传输,并行合并数据再结合实时的数据交互减少初始化的时间,达到整体的性能提高和最优化的海量小文件备份方案。
多节点、多任务、多网卡传输
除了采用多种备份方式进行海量小文件的备份外,为了充分利用现有资源和提供备份的速率,浪擎还采用了多节点、多任务、多网卡的方式进行数据传输。多节点是通过将多个服务节点进行数据存储,减少单节点的性能的局限性对备份数据传输的影响;多任务是并行多个任务来实现数据传输,充分利用时间资源;多网卡是充分利用单节点上的多个网卡资源采用多个网卡进行数据传输,让并行任务整体的备份效率提高。
关于浪擎
浪擎科技以“最大化数据价值”为使命,致力于数据安全与智能领域的产品研发和技术服务,从而推动数字化转型发展的大变革。2011年投身灾备产品研发,2015年进军全国市场,浪擎科技现已在上海与成都建立了两大研发中心,在北京、浙江、江苏、江西、四川等20余省市部署了事业办事处
数据安全产品线为重要业务和数据提供全生态、全栈式的备份保护,实现云上云下云间的数据安全与管理;数据智能产品线为用户构建数据中台提供全环境的、敏捷智能的数据汇聚融合与共享管理,助力数据驱动业务。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
日前,北京佳格天地科技有限公司与农业农村部大数据发展中心签订联合实验室协议。双方将充分利用遥感、AI等技术,以及人才队伍、技术产品等优质资源,开展农业农村领域相关基础模型、作物农情遥感监测产品及农业气象服务等方面的合作研究。
日前,2022世界数字农业大会举行。大会以“种铸强芯,数领未来”为主题,开设多场数字农业云端专题论坛,北京佳格天地科技有限公司受邀出席”农业农村大数据应用论坛“,同与会嘉宾分享了农业大数据的创新应用。
毫无疑问,随着以Kubernetes为代表的云原生技术得到广泛应用和普及,云原生数据量和重要性不断提高,使得企业对云原生数据库服务的需求日渐增长。
近期,由中国工业设计协会、中国技术交易所双重指导,UXPA中国主办的2022年第六届GXA好体验奖评选结果揭晓,元年科技凭借元年数据智能管理平台荣获“最佳企业赋能奖”,该奖项旨在挖掘当代杰出用户体验作品,表彰利用创新思维、坚持以用户体验为中心的企业,填补了国内专业级别用户体验社会化奖项的空白。
近日,秦淮数据集团位于马来西亚柔佛州的秦淮数据马来柔佛超大规模数据中心(以下简称“MY06”)一期盛大开园。从规划、设计到建造,秦淮数据集团中国、新加坡、马来西亚三地团队紧密合作,共同完成马来西亚最大的国际超大规模数据中心交付
把脉中国数据智能化
2023年,几乎可以被定义为中国互联网公司的“大模型元年”。ChatGPT的全球爆红,彻底点燃国内的大模型赛道,曾经的“创业英雄”、如今的商业领袖们亲自下场,接连发布生成式人工智能产品与大模型布局。大模型火了,沉寂许久的互联网行业又有了新的“战事”。同时,大模型的快速发展也改变了云市场的现状,企业对
近日,数字化市场研究咨询机构爱分析发布了《2022爱分析·数据智能厂商全景报告》,爱分析从技术研发能力、服务客户数量、收入规模等维度对厂商进行了全面专业的评估
2022年11月18日,首个国家级大数据产业创新赛事——2022第一届中国大数据大赛圆满落幕。工业和信息化部信息技术发展司数字经济推进处处长张建伦,中国电子技术标准化研究院副院长孙文龙出席颁奖典礼并致辞
2022年11月17日,在厦门市工业和信息化局的指导下,以“数据确权”为主题的2022数据资产(厦门)论坛在厦门成功举办。本次论坛以“数据确权”为主题,由厦门市互联网域名应用服务产业协会和构信网(公信.中国)联合主办
近日,国内知名数字化市场研究咨询机构爱分析正式发布《2022爱分析·信创厂商全景报告》(以下简称“报告”)。报告综合考虑企业关注度、行业落地进展等因素,遴选出在信创市场中具备成熟解决方案和落地能力的厂商。
10月31日下午,由数博会执委会主办、数据观(北京)传媒科技有限公司承办、贵阳大数据交易所协办的第四期数博思享会“实践先行观公共数据价值与应用”活动成功举办。
近日,由中国国际数字经济博览会组委会主办,中国电子技术标准化研究院、河北省工业和信息化厅承办的“第一届中国大数据大赛”(简称大数据大赛)正式启动。
广州光点信息科技有限公司自主研发的数据中台产品GI大数据中台V2.0产品是国内率先推出符合新创标准的中台产品,基于“大数据+AI”等技术全新打造,集数据采集、融合、治理、服务、管理为一体的旗舰平台。
广州光点信息科技有限公司自主研发的数据中台产品GI大数据中台V2.0产品是国内率先推出符合新创标准的中台产品,基于“大数据+AI”等技术全新打造,集数据采集、融合、治理、服务、管理为一体的旗舰平台