英特尔研究院发布全新AI扩散模型，可根据文本提示生成360度全景图

　阿里云优惠券先领券再下单

英特尔研究院宣布与Blockade Labs合作发布LDM3D（Latent Diffusion Model for 3D）模型，这一全新的扩散模型使用生成式AI创建3D视觉内容。LDM3D是业界领先的利用扩散过程（diffusion process）生成深度图（depth map）的模型，进而生成逼真的、沉浸式的360度全景图。LDM3D有望革新内容创作、元宇宙应用和数字体验，改变包括娱乐、游戏、建筑和设计在内的许多行业。

英特尔研究院人工智能和机器学习研究专家Vasudev Lal表示：“生成式AI技术旨在提高和增强人类创造力，并节省时间。然而，目前的大部分生成式AI模型仅限于生成2D图像，仅有少数几种可根据文本提示生成3D图像。在使用几乎相同数量参数的情况下，不同于现存的潜在扩散模型，LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计中的标准后处理方法相比，LDM3D能够为图像中的每个像素提供更精准的相对深度，并为开发者省去了大量用于场景开发的时间。”

封闭的生态系统限制了规模。英特尔致力于推动AI的真正普及，通过开放的生态系统让更多人从这项技术中受益。计算机视觉领域近年来取得了重大进展，特别是在生成式AI方面。然而，当今许多先进的生成式AI模型只能生成2D图像。与通常只能根据文本提示生成2D RGB图像的现有扩散模型不同，LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计（depth estimation）中的标准后处理（post-processing）方法相比，LDM3D在使用与潜在扩散模型Stable Diffusion几乎相同数量参数的情况下，能够为图像中的每个像素提供更精准的相对深度（relative depth）。

这项研究有望改变我们与数字内容的互动方式，基于文本提示为用户提供全新的体验。LDM3D生成的图像和深度图能够将诸如宁静的热带海滩、摩天大楼、科幻宇宙等文本描述转化为细致的360度全景图。LDM3D捕捉深度信息的能力，可以即时增强整体真实感和沉浸感，使各行各业的创新应用成为可能，包括娱乐、游戏、室内设计、房产销售，以及虚拟博物馆与沉浸式VR体验等。

6月20日，在IEEE/CVF计算机视觉和模式识别会议（CVPR）的3DMV工作坊上，LDM3D模型获得了“Best Poster Award”

LDM3D是在LAION-400M数据集包含一万个样本的子集上训练而成的。LAION-400M是一个大型图文数据集，包含超过4亿个图文对。对训练语料库进行标注时，研究团队使用了之前由英特尔研究院开发的稠密深度估计模型DPT-Large，为图像中的每个像素提供了高度准确的相对深度。LAION-400M数据集是基于研究用途创建而成的，以便广大研究人员和其它兴趣社群能在更大规模上测试模型训练。

LDM3D模型在一台英特尔AI超级计算机上完成了训练，该超级计算机由英特尔®至强®处理器和英特尔®Habana Gaudi® AI加速器驱动。最终的模型和流程整合了RGB图像和深度图，生成360度全景图，实现了沉浸式体验。

为了展示LDM3D的潜力，英特尔和Blockade的研究人员开发了应用程序DepthFusion，通过标准的2D RGB图像和深度图创建沉浸式、交互式的360度全景体验。DepthFusion利用了TouchDesigner，一种基于节点的可视化编程语言，用于实时互动多媒体内容，可将文本提示转化为交互式和沉浸式数字体验。LDM3D是能生成RGB图像及其深度图的单一模型，因此能够节省内存占用和降低延迟。

LDM3D和DepthFusion的发布，为多视角生成式AI和计算机视觉的进一步发展铺平了道路。英特尔将继续探索如何使用生成式AI增强人类能力，并致力于打造一个强大的开源AI研发生态系统，让更多人能够使用AI技术。延续英特尔对开放AI生态系统的大力支持，LDM3D正在通过HuggingFace进行开源，让AI研究人员和从业者能对这一系统作出进一步改进，并针对特定应用进行微调。

在2023年6月18日至22日举行的IEEE/CVF计算机视觉和模式识别会议上，英特尔将发表这项研究成果。欲了解更多信息，请参考论文《LDM3D: Latent Diffusion Model for 3D》。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

首次部署英特尔Max系列GPU，极光超算将推动人工智能实现突破性进展

阿贡国家实验室和英特尔于近日宣布，Aurora超级计算机的10,624个刀片的安装已经完成，该系统将于2023年晚些时候上线。该机器使用数万个XeonMax“SapphireRapids”处理器，配备HBM2E内存以及数以万计的数据中心GPUMax“PonteVecchio”计算GPU可实现超过2F

标签：

英特尔
英特尔锐炫：驱动持续进步，尽展硬件潜力

发布之初，英特尔锐炫A770和A750显卡就已展现出不错的实力。几个月过去，它们已然成长为同价位最好的显卡之一。AMD和英伟达微弱的代际改进，再加上较高的价格，让用户很难在1500至2500元左右价位找到一款满意的显卡，不过英特尔锐炫显卡悄悄地填补了这一空白。虽然锐炫A770和A750没有主打旗舰级

标签：

英特尔
英特尔锐炫Pro图形显卡发布新品，集丰富的内容创作功能于一身

英特尔推出两款全新英特尔锐炫Pro图形显卡；搭载英特尔锐炫ProA40图形显卡的系统现已出货。全新发布：英特尔今日宣布英特尔锐炫™ProA系列专业级图形显卡新增两款产品——英特尔锐炫™ProA60和ProA60M。上述两款产品的性能在现有英特尔锐炫Pro系列的基础上更进一步，为专业级工作站用户精心设

标签：

英特尔
英特尔发布全新量子芯片Tunnel Falls，硅自选量子比特有望更快实现量产

今天，英特尔发布包含12个硅自旋量子比特（siliconspinqubit）的全新量子芯片TunnelFalls，继续探索量子实用性，以解决重大难题。TunnelFalls是英特尔迄今为止研发的最先进的硅自旋量子比特芯片，利用了英特尔数十年来积累的晶体管设计和制造能力。在英特尔的晶圆厂里，Tunne

标签：

英特尔
英特尔亮相2023开放原子全球开源峰会:秉持全栈软件开放战略,助推科技创新

在数字时代的今天，面对日益复杂的应用场景和业务发展需求，开源已经成为推动全球科技创新新模式。在《“十四五”软件和信息技术服务业发展规划》中，明确提出了“建设2~3个有国际影响力的开源社区”的要求，充分证明中国对开源社区和开源技术的重视与支持，快速推动着开源技术和开源社区的飞速发展。6月11-13日，

标签：

英特尔

当前位置：首页 > 科技 > IT业界 > 正文

英特尔研究院发布全新AI扩散模型，可根据文本提示生成360度全景图

相关文章

首次部署英特尔Max系列GPU，极光超算将推动人工智能实现突破性进展

英特尔锐炫：驱动持续进步，尽展硬件潜力

英特尔锐炫Pro图形显卡发布新品，集丰富的内容创作功能于一身

英特尔发布全新量子芯片Tunnel Falls，硅自选量子比特有望更快实现量产

英特尔亮相2023开放原子全球开源峰会:秉持全栈软件开放战略,助推科技创新

热门排行

信息推荐

编辑推荐

阿里一元店是新解“囊”杂货铺？

亿企联解答互联网广告的存在意义何在？

热门标签