数据收集的操作行为受到越来越多的关注,也变得越来越复杂。网络抓取以及自动获取过程总体来说极大地改变了数据收集的性质,旧的挑战得到解决,而新的问题也随之浮现出来。
其中一个问题就是关于动态性的数据选择。由于现在我们能够在几秒内收集难以想象的巨量信息,进行特定采样不再是问题。此外,在业务上,我们常常会反复搜寻相同来源,以监控友商、品牌以及对于行业相关的其他任何内容。
因此,数据动态性就是一个优化问题。在一些情况下,特定字段可能不会频繁更新,或者对于用例来说这些更改并不重要,因此可能不需要每次刷新数据。
静态与动态数据
静态数据可以通过两个方面来定义。作为信息对象,静态数据是不会(频繁)变化的对象。这种来源的例子可能包括社论文章、国家/地区或城市名称、活动和场所说明,等等。事实新闻报道一经发表,就不大可能在未来发生改动。
另一方面,动态数据是不断变动中的对象,常常是由于外部因素而发生变化。经常遇到的动态数据类型可能是产品定价、库存数量、预订数量,等等。
它们中间存在两大定义的模糊地带,正如企图将一切东西都放入整整齐齐的小盒子那样。产品说明、文章元标题和内容商业片段等信息对象有一定的变化频率。
这些到底属于静态还是动态数据,取决于预期用途。无论数据类型如何,项目或多或少会利用具体的参考来源。例如,SEO 工具可能发现定价数据的价值较低,但会希望更新元标题、描述和其他许多功能。
另一方面,定价模型则很少用到频繁更新的产品描述。它们可能需要抓取该信息一次,以进行产品匹配。如果将来出于 SEO 目的对其进行更新,那么仍然没有理由再次访问描述。
规划数据
每个数据分析和收集项目都有其必要性。回到前面的定价模型例子,这需要两个技术功能:产品比对和定价数据。
产品需要进行比对,因为任何自动定价实施都需要准确性。错配的产品和变化的定价可能会对营收造成巨大损失,尤其是如果这些变化得不到解决的情况下。
大部分比对工作是通过产品标题、描述和规格进行的。前两者会经常变化,尤其是在电商平台中,其中关键词优化是一项重要的排名因素。不过,它们不会影响比对产品编号的能力,因为基础功能不会变化(例如,iPhone 始终是 iPhone)。
因此,描述和标题可以视为静态数据,即使它们有一点动态性质。就项目用途而言,变化的影响力不够大,不值得继续监控。
可能显而易见的是,定价数据不仅自然而然地在不断变化,而且捕捉发生的任何变化对于项目也十分重要。因此,它当然应该视为动态数据。
通过规划降低成本
无论采用的是内部还是外部集成方法,数据收集和存储实践的成本都非常高。此外,大部分公司将使用基于云的存储解决方案,其中可能会将所有写入操作包括到总体成本中,这意味着更新数据将会削减预算。
规划数据类型(即静态还是动态)可以通过多个途径优化数据收集过程。首先,页面可以分为静态数据、动态数据或混合数据。虽然第一个类别可能有点肤浅,但它仍表示不需要频繁再访问这些页面。
利用混合页面可能也更容易降低写入操作和存储成本。降低从一个地方传输到另一个地方的数据量,这本身就是一种优化形式,但这些在考虑到带宽、读写和存储成本时会变得更加有意义。
不过,由于爬虫通常会下载整个 HTML,对 URL 的任何访问都会将整个对象存储在内存中。使用外部提供商时,通常会针对每个请求分配成本,因此更新所有数据字段与仅更新动态字段之间没有区别。
然而,在一些应用场景中,历史数据可能是必要的。每个时间段下载并更新含有相同数据的相同字段会无缘无故地增加写入操作和存储成本。可以实现一个简单的比较函数来检查是否有任何更改,并仅在更改时执行写入操作。
最后,使用内部抓取系统时,上述全部情况仍然适用,但程度要大得多。想要优化成本,可以减少不必要的抓取,限制写入操作数量,并仅解析 HTML 的必要部分。
最后,开发框架是实现真正优化的第一步措施。它们可能一开始过于理论化,就像这个框架那样,但框架让我们能够更好地解读已经实施到位的过程。
作者:Julius Cerniauskas,Oxylabs 首席执行官
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2023年6月1日至4日,第三届全国生物相分离和相变学术研讨会暨中国生物物理学会生物大分子相分离与相变分会年会在上海成功举办,荣联科技集团携冷冻电镜数据分析整体解决方案亮相活动,云生数据副总经理田凤进行了精彩的报告分享。本次盛会由中国生物物理学会生物大分子相分离与相变分会主办,中国科学院上海有机化学
如今,诸多企业开始进入数据应用阶段,开始追求数据对业务的实质性提升。然而,一些企业虽然认识到了数据的价值,却由于缺乏一套高效好用的数据分析工具,导致数据应用效果并不理想。在一些企业中,尤其是中小企业,由于缺乏预算,仍然在使用Excel等传统工具进行数据分析和可视化展现,需要手动整合和处理数据,耗时耗
近日,中国互联网协会副秘书长裴玮,中国互联网协会中互网来总经理宛严,中国互联网协会中互数智总经理李晓昂一行到访极光公司总部,现场参观极光发展历程、极光荣誉墙、极光价值观文化墙等
11月22日,惟客数据主办的「唤醒数据,更懂客户经营」新一代产品发布峰会圆满收官。本次峰会发布了惟客数据全新一代的3款家族产品,包含惟数5.0,惟客5.0,昆仑2.0,为全面拥抱Allinone数字化客户经营解决方案赋能。
SequoiaDB从「多模数据湖」、「实时数据湖」发展到「湖仓一体」架构,为客户提供「数据核心」所需的全量数据存储,实时对客服务,及基于统一数据源的分析能力,充分激活客户的离线数据。
信创即信息技术创新,是指通过自主研发、技术创新等方式,实现信息技术的自主可控,降低对外部技术的依赖,提高国家信息安全保障能力。
第三届828B2B企业节正在全国如火如荼进行中。作为中国首个以“提升企业数字化能力、助力企业稳健快速成长”为目标的B2B企业节,828B2B企业节由华为云联合上万伙伴共同发起,目的是为了打通数字化供需天堑,让科技企业和有数转智改需求的中小企业能在一站购平台上完成对接,实现成就好生意,成为好企业的节日
当今世界经济局势复杂多变,企业面临着越来越激烈的市场竞争。在生产方式不断随着科技水平的发展而提升的同时,各个行业企业产品之间的差距越来越小,企业单纯依靠产品很难在如今的市场竞争中取胜。因此,如何为企业寻求更加富有竞争力的销售能力提升办法,成为了企业普遍更加看重的问题。赵峰,现任北京正信启德管理顾问有
零售经营者正处在一个历史性的转折点上。一方面,中国的零售产业已经发展到门店渠道饱和的状态,优胜劣汰会是零售产业未来一段时间内的主旋律;一方面,中国消费者的价值观出现了显著变化,零售快消市场已经进入“性价比时代”。为此,百望云总结服务诸多零售快消经营者的经验,集合产品与技术,推出了数字化解决方案,并取
受限于三元材料以及磷酸铁锂电池在能量密度、安全性、循环寿命等多方面的限制,纯电汽车产品始终无法完成对传统燃油车的致命一击。在此背景下,优势明显的固态电池被寄予厚望,众多车企以及电池企业纷纷加码这一细分领域,以求占领技术制高点。目前,业界普遍将全固态电池小批量量产上车的时间节点定在2027年左右,大规
嘿,朋友们!矢量智控(南京)科技有限公司官网www.ivcon.cn8月31日正式启用啦!这将是矢量智控的重要里程碑,期待为AI+工业与制造业带来更深入、更全面的服务。矢量智控作为南栖仙策旗下工业智能决策品牌,专注为高端装备和复杂流程工业提供自主智能控制产品和方案。产品积淀前沿AI技术我们根据产品的
北京时间9月2日凌晨,科沃斯机器人CEO钱程的一条朋友圈引起业内关注,抢先揭示了科沃斯将在2024德国柏林IFA展推出其地宝X系列新品。从简短的内容中可以窥见,科沃斯内部对于这款新品的信心和期待。从钱程朋友圈流出的图片来看,猜测科沃斯此次新品将重点围绕地面顽垢清洁的提升以及二次污染的问题解决。截至上
经过多年坚持不懈的努力,以色列AudioPixels公司和中国地球山微电子公司双方联合研制的数字像素级MEMS扬声器技术取得重大突破。据AudioPixels官方发布消息显示:新研制的第二代MEMS扬声器(GEN-II)所达到的声压级(SPL或“响度”)已被验证符合其商业化可行性的数字声音重建(DS
2024年8月29日,深圳国际3D打印、增材制造展览会(Formnext+PMSouthChina)在深圳国际会展中心13号馆隆重举行。本次展会以其丰富的活动与论坛,再次彰显了3D打印技术在商业发展中的广泛应用,尤其是在新兴的“3D打印农场”建设领域,纵维立方的两款新品在农场主群体中备受关注,并宣布
8月30日,招商银行在上海举办了“招银浦江数字金融生态大会”,拓元智慧科技有限公司(以下简称“拓元智慧”)应邀参加本次大会。拓元智慧以其在人工智能领域的深厚积累与前沿探索,吸引了众多行业内外人士的关注。公司首席科学家王广润博士在论坛上发表了题为《新型多模态大模型的前沿技术及产业化实践》的报告,深入探