您的位置：中国食品网络台 > 深度观点 > 正文

32篇论文硬核盘点2022年度AI热点

2023-01-08 08:59:53 来源：IT之家阅读量：6952

2022超级综合AI圈研究合集来了！知名博主路易·布沙尔自己做了视频解释和简短分析，对小白也是超级友好。

尽管世界仍在复苏，但研究并没有放缓其疯狂的步伐，尤其是在人工智能领域。

此外，今年人们对AI伦理，偏见，治理和透明度有了新的关注。

人工智能，我们对人脑的认识及其与人工智能的联系都在不断发展在不久的将来，这些改善我们生活质量的应用将大放异彩

知名博主路易·布沙尔也在其博客中列出了2022年的32项AI技术突破。

接下来，让我们来看看这些惊人的研究。

你一定经历过这种情况:你和朋友拍了一张很棒的照片结果你发现后面有人，毁了你想发到朋友圈或者小红书的照片但是现在，这已经不是问题了

一种基于傅立叶卷积的具有鲁棒分辨率的大规模掩模修复方法可以使用户容易地移除图像中不必要的内容人和垃圾桶都很容易消失

就像你口袋里的专业ps设计师，轻轻一按就能轻松通关。

虽然看似简单，但图像修复是很多AI研究者长期需要解决的问题。

你一定有过这样的经历:看电影的时候，你会发现电影里的演员看起来比自己年轻很多。

双子杀手的威尔·史密斯

事实上，许多技术可以让你微笑，看起来更年轻或更老，所有这些都是使用基于人工智能的算法自动完成的它在视频中被称为基于人工智能的面部操作，代表了2022年的最新技术水平

人类很容易通过图像来理解物体的物理形态，因为我们知道真实世界但对于只能看到像素的机器来说，这是完全不同的挑战

生成的模型如何适应新场景如果照片的光照条件和角度不同，生成的模型也会发生变化我该怎么办这些都是Snapchat和USC在这项新研究中需要解决的问题

对于图像，基于机器学习的修复技术不仅可以去除内容，还可以根据背景信息填充图像缺失的部分。

对于视频修复，挑战不仅在于保持帧之间的一致性，还在于避免产生虚假的伪像同时，在你成功地将某人踢出视频后，你也需要删除他/她的声音

为此，谷歌研究人员提出了一种新的语音恢复方法，可以纠正语法，发音，甚至消除视频中的背景噪音。

有没有一些因为年代久远而质量模糊的珍藏老照片别担心，有了盲面修复技术，你的记忆将永存

这种全新的免费AI模型可以在一瞬间修复你的大部分旧照片即使还原前的画质很低，也能很好的工作这在以前通常是一个相当大的挑战

更酷的是，你可以用你喜欢的方式去尝试他们已经开放了源代码，并创建了一个演示和在线应用程序供大家尝试

自动驾驶汽车如何擦亮眼睛。

你可能听说过汽车公司正在使用激光雷达传感器或其他奇怪的相机但是他们是如何工作的，他们是如何观察这个世界的，他们实际上看到的和我们相比有什么不同

与特斯拉只使用摄像头来了解世界不同，大多数自动驾驶汽车制造商，如Waymo，都使用普通摄像头和3D激光雷达传感器。

它们不像普通相机那样生成图像，而是3D点云利用RGB传感信息，他们测量物体之间的距离，并计算投射到物体上的脉冲激光的传播时间

可是，我们如何有效地组合这些信息并使车辆理解它呢车辆最后会看到什么自动驾驶足够安全吗Waymo和谷歌的一篇新研究论文将回答这些困惑

如何通过照片模拟世界。

使用人工智能模型，人们可以将捕捉到的图像转化为高质量的3D模型这项具有挑战性的任务允许研究人员通过2D图像在三维世界中创建物体或人的外观

基于哈希编码的神经原语，Nvidia实现了5秒的NeRF训练，取得了较好的效果在不到两年的研究中，NeRF的训练速度提高了1000多倍

去年，OpenAI发布了DALL，一个文本图像生成模型现在，Dalle2的升级版又来了

Dalle2不仅可以从文本生成逼真的图像，其输出分辨率是前者的4倍！

不过性能上的提升似乎还不足以让OpenAI满意为此，他们还让Dalle2学习了一项新技能:图像恢复

谷歌和特拉维夫大学提出了一个非常强大的DeepFake技术有了它，你几乎可以做任何事情

这既令人惊讶又令人恐惧，尤其是当您看到生成的结果时。

GPT—3如此强大的原因在于它的架构和大小。

它有1750亿个参数，是人脑神经元数量的两倍！如此庞大的神经网络使得这个模型能够学习互联网几乎所有的内容，以及我们如何书写，交换和理解文本。

就在人们惊叹GPT—3的强大功能时，Meta向开源社区迈出了一大步。他们发布了一个同样强大的模型，而且这个模型已经完全开源了！

该模型不仅拥有超过1000亿个参数，而且OPT—175B比GPT—3更加开放和可访问。

对于如何描述一个场景，Adobe研究团队给出了一个新方法:BlobGAN。

甘使用斑点来描述场景中的对象研究人员可以移动这些斑点，使它们变大，变小甚至删除它们，这将对图像中斑点所代表的物体产生相同的效果

现在，BlobGAN的代码已经开源，感兴趣的朋友，赶紧试试吧！

DeepMind建造了一个单一的通用代理加托。你可以玩雅达利游戏，制作字幕图像，与人聊天，控制机械臂！

更令人震惊的是，它只需训练一次，使用同样的重量，就能完成所有任务。

加托是一个多模态代理人这意味着它不仅可以为图像创建字幕，还可以作为聊天机器人回答问题

虽然GPT 3号也能和你聊天，但很明显加托能做的更多毕竟会聊天的AI是随时可用的，而会陪它玩游戏的AI却不是随时可用的

如果你认为Dalle2非常优秀，那么就来看看Google Brain—Imagen的这个新模型能做什么吧。

DALL E很惊艳，但是生成的图像往往缺乏真实感，这是Google团队开发的Imagen要解决的问题。

按照比较文本到图像模型的基准，Imagen在大语言模型的文本嵌入和文本到图像合成方面取得了显著的成绩生成的图像既富有想象力又真实可信

一组小扎的惊悚片一度在推特上走红这组三的疯狂作品是达勒米尼的

作为dalle家族的青春版，dalle mini比免费开源要好代码已经留下，下一个被魔变攻击的人会是谁

该研究的亮点是研究者将大多数低资源语言训练提升了几个数量级，取得了200+语言翻译的SOTA成果。

声音能被看见吗。

这项获得CVPR 2022最佳论文荣誉奖的研究提出了一种新颖的双快门方法，通过使用慢相机同时检测多个场景源的高速表面振动，并捕捉音频源引起的振动来实现。

因此，可以实现诸如乐器分离和噪声消除的各种要求。

大闹一场不仅仅是另一个玩笑。

虽然DALL E可以根据文字提示生成随机图像，真的很酷，但是也限制了用户对生成结果的控制。

Meta的目标是促进创造性表达，将这种文本到图像的趋势与之前的草图到图像的模式相结合，从而产生Make—A—Scene:文本与草图条件图像生成的奇妙融合。

今年火的图像生成模型DALL E，Imagen和Stable Diffusion，这些强大的图像生成模型有什么共同点它们都基于相同的扩散机制，除了计算成本高和大量的训练时间

扩散模型最近在大多数图像任务中实现了SOTA结果，包括使用dalle E的文本到图像，以及许多其他与图像生成相关的任务，例如图像恢复，风格转换或图像超分辨率。

AI可以帮助你准确的识别图像中的物体，但是要理解物体和环境的关系就没那么容易了。

为此，南洋理工大学的研究人员提出了一个基于全景分割的全景图生成的课题。

与传统的基于检测帧的场景图生成相比，PSG任务要求综合输出图像中的所有关系，并用精确的分割块定位物体。

今年各大厂商的形象生成模型可谓是八仙各显神通，但是如何让模型生成特定风格的形象作品呢。

特拉维夫大学和英伟达的学者联合推出了个性化图像生成模型，可以DIY你想要的图像。

毫无疑问，视觉文本模型的学习已经取得了巨大的成功，但如何将这种新的语言图像预训练方法推广到视频领域仍然是一个悬而未决的问题。

微软和中科院的学者提出了一种简单有效的方法，使预训练的语言图像模型直接适应视频识别，而不是从头开始预训练新模型。

画家在画布上自由地绘画如此清晰流畅的画面，你能认为视频的每一帧都是AI生成的吗

Meta推出的Make—A—Video，只需输入几个字，就能在几秒钟内生成不同风格的视频称之为视频版DALL E并不为过

你有没有想过有一个翻译软件，可以快速翻译视频中的语音，甚至是那些你自己都听不懂的语言。

Whisper是一个OpenAI源代码AI，可以做到这一点。

Whisper在超过68万小时的多语言数据上进行训练，可以在嘈杂的背景下识别多语言声音，并将其转换为文字此外，它还能胜任专业术语的翻译

谷歌的DreamFusion可以通过使用预先训练好的2D文本到图像扩散模型，一键生成3D模型在数十亿个图像到文本对上训练的扩散模型促进了文本到3D模型合成的最新突破

比如，我们可以改变一个人的姿势和构图，同时保留其原有的特征，或者我想要一只站立的狗坐下来，一只鸟展开翅膀。

比DALL E和稳定扩散更强的图像合成模型来了！

这是英伟达的eDiffi，可以更准确的生成更高质量的图像此外，添加画笔模具可以为您的工作增加更多的创造力和灵活性

来自谷歌和康奈尔大学的学者将这种想象变成了现实，即InfiniteNature—Zero，它可以从单一图像中生成自然场景的无限视图。

Meta开发的Galactica是一个大型语言模型，它的大小相当于GPT—3，但它的专业领域是科学知识。

该模型可以编写政府白皮书，新闻评论，维基百科页面和代码，它还知道如何引用和编写方程这对人工智能和科学来说是一件大事

自从DeepFake和NeRF的出现，AI的变脸似乎是家常便饭，但是有一个问题有时候，AI的变脸是因为和口型不匹配而暴露出来的

RAD—NeRF的出现可以解决这个问题可以合成视频中说话人的实时画像，还支持自定义头像

2022年AI的重量级作品ChatGPT怎么能少了呢这种通用模型已经风靡网络，并被网民开发出各种应用程序，如书写黄色小字和键入代码

最近几天，迪士尼发布了首个实用的，全自动化的方法FRAN，可用于制作视频图像中的复龄人脸，正式宣布电影中化妆师改变演员年龄视觉效果的技术终结。

参考资料:

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

上一篇：低度酒“百家争鸣”，谁能俘获年轻人的芳心？
下一篇：返回列表

美食新闻

美食推荐

热点推荐

32篇论文硬核盘点2022年度AI热点

相关新闻