英伟达最新算法Magic3D!文本生成高质量三维模型!论文/代码速递2022.11.22!

AI算法与图像处理

共 2146字,需浏览 5分钟

 ·

2022-11-24 22:52


强烈推荐:2000核时免费领,立刻开启云上高性能计算 ☞,注册即送200元计算资源,https://www.bkunyun.com/wap/console?source=bkykolaistudy
当服务器有可视化界面,直接起飞!

整理:AI算法与图像处理
CVPR2022论文和代码整理:https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo
ECCV2022论文和代码整理:https://github.com/DWCTOD/ECCV2022-Papers-with-Code-Demo
欢迎关注公众号 AI算法与图像处理,获取更多干货:


大家好,  最近正在优化每周分享的CVPR$ECCV 2022论文, 目前考虑按照不同类别去分类,方便不同方向的小伙伴挑选自己感兴趣的论文哈
欢迎大家留言其他想法,  合适的话会采纳哈! 求个三连支持一波哈

建了一个知识星球,计划不定期分享最新的成果和资源!感兴趣可以扫描体验,另外还有50个一年免费体验名额,可以添加微信nvshenj125 申请。

最新成果demo展示:


标题:Magic3D: High-Resolution Text-to-3D Content Creation

论文:https://arxiv.org/abs/2211.10440

主页:https://deepimagination.cc/Magic3D/

摘要: 

DreamFusion 最近展示了使用预训练的文本到图像扩散模型来优化神经辐射场 (NeRF) 的实用性,实现了显着的文本到 3D 合成结果。然而,该方法有两个固有的局限性:(a)NeRF 的优化极慢和(b)NeRF 上的低分辨率图像空间监督,导致处理时间长的低质量 3D 模型。在本文中,我们通过利用两阶段优化框架来解决这些限制。首先,我们使用低分辨率扩散先验获得粗略模型,并使用稀疏 3D 哈希网格结构进行加速。使用粗略表示作为初始化,我们进一步优化了纹理 3D 网格模型,该模型具有与高分辨率潜在扩散模型交互的高效可微渲染器。我们的方法被称为 Magic3D,可以在 40 分钟内创建高质量的 3D 网格模型,比 DreamFusion 快 2 倍(据报道平均需要 1.5 小时),同时还实现了更高的分辨率。用户研究显示 61.7% 的评分者更喜欢我们的方法而不是 DreamFusion。结合图像条件生成功能,我们为用户提供了控制 3D 合成的新方法,为各种创意应用开辟了新途径。


最新论文整理


   ECCV2022

Updated on : 22 Nov 2022

total number : 4

Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval

  • 论文/Paper: http://arxiv.org/pdf/2211.11351

  • 代码/Code: https://github.com/bmezaris/TextToVideoRetrieval-TtimesV

Rooms with Text: A Dataset for Overlaying Text Detection

  • 论文/Paper: http://arxiv.org/pdf/2211.11350

  • 代码/Code: None

Task-Specific Data Augmentation and Inference Processing for VIPriors Instance Segmentation Challenge

  • 论文/Paper: http://arxiv.org/pdf/2211.11282

  • 代码/Code: None

Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular Depth Estimation

  • 论文/Paper: http://arxiv.org/pdf/2211.11066

  • 代码/Code: None



    CVPR2022


   NeurIPS

Updated on : 22 Nov 2022

total number : 2

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

  • 论文/Paper: http://arxiv.org/pdf/2211.11427

  • 代码/Code: None

Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models

  • 论文/Paper: http://arxiv.org/pdf/2211.10966

  • 代码/Code: None




浏览 29
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报