伴随着5G、大数据、人工智能、物联网等技术的飞速发展,各行各业的业务场景日益复杂,数据呈现出大规模、多样性的特点,特别是非结构化数据呈现出爆发式的增长态势。企业对数据库技术的需求不再局限于结构化的OLTP数据交易,而是需要进一步扩展到对多样化数据进行实时处理的场景。传统的数据湖在事务一致性及实时处理方面有所欠缺,而数据仓库也无法应对高并发、多数据类型的处理,因此,支持事务一致性、提供高并发实时处理及分析能力的湖仓一体架构应运而生。湖仓一体架构在成本、灵活性、统一数据存储、多元数据分析等多方面具备优势,正逐步转化为下一代数据管理系统的核心竞争力。
湖仓一体是一种新型的开放式架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。湖仓一体可在数据入湖后原地进行数据处理与分析,能有效避免数据冗余及流动导致的算力、网络及成本开销,可以作为超大型ODS存储贴源数据,实现全量数据的实时处理。
湖仓一体架构在数据管理中主要具有以下几大关键特征:
一是支持分析多种类型数据。 湖仓一体架构可为多应用程序提供数据的入库、转换、分析和访问。数据类型包括结构化与非结构化类型,如文本、图像、视频、音频等,以及半结构化数据,如JSON等。
二是数据可治理,避免产生数据沼泽。 湖仓一体架构可以支持各类数据模型的实现和转变,支持DW模式架构,例如星型模型、雪花模型等,可保证数据的完整性,同时具有健全的治理和审计机制,能够避免数据沼泽现象的出现。
三是事务支持。 在企业中,数据库往往要为业务系统提供并发的数据读取和写入。湖仓一体架构对事务ACID的支持,可确保并发访问,尤其是SQL访问模式下的数据一致性、正确性。
四是BI支持。 湖仓一体支持直接在源数据上使用BI工具,这样可以提高分析效率,降低数据延时。另外,相比于在数据湖和数据仓库中分别操作两个副本的方式,湖仓一体更具成本优势。
五是存算分离。 湖仓一体采用存算分离架构,可使系统能够扩展到更大规模的并发能力和数据容量,能满足新时代对于分布式数据架构的要求。
六是开放性。 湖仓一体采用开放、标准化的存储格式(例如行存、列存、块存),能提供丰富的API支持。因此,各种工具和引擎(包括机器学习和Python/R库)可以高效地对数据进行直接访问。
从落地性来看,湖仓一体技术架构落地目前有三种方式:
第一个融合方向是基于Hadoop体系的数据湖向数据仓库能力扩展,湖中建仓,从数据湖进化到湖仓一体。湖仓一体结合了数据湖和数据仓库特点,直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。目前主要有Netflix等开源企业在探索此技术路线。
第二个是基于自身云平台或第三方对象存储(如OSS、S3、Ceph等),基于Hadoop或自研技术进行湖仓一体能力的搭建。探索此技术路线的通常是各大云厂商,如AWS、阿里云、华为云等。
第三个融合方向是以数据库技术为基础,自研分布式平台,从调度、计算到存储不依赖第三方平台,形成可以灵活在公有云、私有云、裸金属等场景独立部署使用的能力。技术方向上更注重于实时高并发场景及非结构化数据数据治理,并逐步向更广泛的分析场景发展,主要厂商以Snowflakes、Databricks、巨杉数据库等为代表。
三个技术方向均是厂商依托自身技术优势进行的架构融合,均有自身优劣势及技术特性,能够满足不同场景下的客户需求。
同时,本报告指出了湖仓一体架构未来的发展趋势:一是随着企业对海量大数据的实时处理需求越来越迫切,湖仓一体架构将成为越来越多用户的主流选择,助力各行各业数字化转型;二是以人为轴的数据开发和优化,将越来越难以满足企业实际需求,届时人工智能技术将介入数据库的自动调优、自动整理过程,助力提升湖仓一体架构的智能化。
在报告的最后,赛迪顾问对用户和厂商提出了一些发展建议。对用户而言,要重视专业化服务能力和成功案例的可移植性,选择适合自身情况的数据管理产品。对厂商而言,要重视研发投入,加快产品与新兴技术融合,同时不断提高专业化服务水平,重视实施与交付能力的提升。
关于巨杉数据库
在此次报告中,巨杉数据库作为湖仓一体典型厂商入选。基于湖仓一体的架构特性,巨杉数据库可构建数据基础设施平台,整合结构化、半结构化、非结构化数据的统一存储与管理,为面向全量数据业务提供:SQL、NoSQL、Object等多种接口。此外,通过特有的跨引擎事务能力,可以有效简化多团队开发流程中对不同引擎、不同结构的数据管理,打通ACID事务支持,提升业务开发、数据处理、运维管理能力,释放全量数据价值,提升企业数据处理的“人效”及“能效”。目前,巨杉数据库已经在超过100家金融银行客户规模化上线使用,全面覆盖国有银行、股份制银行、省级农信、城商行、保险、证券等金融客户。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
5月17日,IOTE®2023国际物联网展·上海站,在上海世博展览馆如期开幕,这场物联网行业盛宴汇聚来自全球超350+家行业企业参展。厦门星纵物联科技有限公司(以下简称“星纵物联”)作为专业的数字感知产品提供商,携公司全系列产品及多个行业产品解决方案,亮相3号馆3C30展位,开展2日来,吸引了诸多合
近日,2022“物联之星”物联网行业年度榜单的结果正式公布!青云科技(qingcloud.com,股票代码:688316)凭借着卓越的产品和应用,脱颖而出,在众多优秀企业中名列中国物联网企业投资价值50强。“物联之星”评选活动始于2007年,历经15个年头的发展和沉淀,是中国物联网行业规格隆重、影响
2023年5月17日-19日,IOTE®2023国际物联网展·上海站将在上海世博展览馆盛大开幕。星纵物联受邀参展,届时将亮相3号馆3C30展位。星纵物联展位图作为专业的数字感知产品提供商,星纵物联以前沿视角洞悉行业未来发展,并在物联网领域持续深耕多年。展会期间,星纵物联全系列产品将亮相展台,从感知层
中国经济周刊-经济网讯(记者宋杰)4月27日,第六届数字中国建设峰会在福州开幕,同期举行的还有数字中国建设成果展览会,本届峰会以“加快数字中国建设,推进中国式现代化”为主题,集中展示数字中国建设最新成果和优秀实践案例,分享发展经验。其中,作为央企中国电科集团旗下的数据库国家队,人大金仓今年展出面积从
随着全球物联网、大数据、人工智能等新技术的发展,“智慧园区”建设已成为发展趋势,全球产业园区逐渐向着智慧化、创新化、科技化转变。基于深耕物联网行业的丰富经验和对智能化场景应用的长期洞察,4月20日,由厦门星纵物联科技有限公司主办,博锐尚格科技股份有限公司、北京目视科技有限公司、北京思诺文通讯技术有限
把脉中国数据智能化
2023年,几乎可以被定义为中国互联网公司的“大模型元年”。ChatGPT的全球爆红,彻底点燃国内的大模型赛道,曾经的“创业英雄”、如今的商业领袖们亲自下场,接连发布生成式人工智能产品与大模型布局。大模型火了,沉寂许久的互联网行业又有了新的“战事”。同时,大模型的快速发展也改变了云市场的现状,企业对
近日,数字化市场研究咨询机构爱分析发布了《2022爱分析·数据智能厂商全景报告》,爱分析从技术研发能力、服务客户数量、收入规模等维度对厂商进行了全面专业的评估
2022年11月18日,首个国家级大数据产业创新赛事——2022第一届中国大数据大赛圆满落幕。工业和信息化部信息技术发展司数字经济推进处处长张建伦,中国电子技术标准化研究院副院长孙文龙出席颁奖典礼并致辞
2022年11月17日,在厦门市工业和信息化局的指导下,以“数据确权”为主题的2022数据资产(厦门)论坛在厦门成功举办。本次论坛以“数据确权”为主题,由厦门市互联网域名应用服务产业协会和构信网(公信.中国)联合主办
近日,国内知名数字化市场研究咨询机构爱分析正式发布《2022爱分析·信创厂商全景报告》(以下简称“报告”)。报告综合考虑企业关注度、行业落地进展等因素,遴选出在信创市场中具备成熟解决方案和落地能力的厂商。
10月31日下午,由数博会执委会主办、数据观(北京)传媒科技有限公司承办、贵阳大数据交易所协办的第四期数博思享会“实践先行观公共数据价值与应用”活动成功举办。
近日,由中国国际数字经济博览会组委会主办,中国电子技术标准化研究院、河北省工业和信息化厅承办的“第一届中国大数据大赛”(简称大数据大赛)正式启动。
广州光点信息科技有限公司自主研发的数据中台产品GI大数据中台V2.0产品是国内率先推出符合新创标准的中台产品,基于“大数据+AI”等技术全新打造,集数据采集、融合、治理、服务、管理为一体的旗舰平台。
广州光点信息科技有限公司自主研发的数据中台产品GI大数据中台V2.0产品是国内率先推出符合新创标准的中台产品,基于“大数据+AI”等技术全新打造,集数据采集、融合、治理、服务、管理为一体的旗舰平台