Meta 新技术将可解决 AI 绘画「手指」问题

2023 年 10 月 10 日

相信，很多人也知道 AI 绘图最大的「困难」就是人类的手指，如果大家试过叫 AI 生成一个 Give me Five 的手势，它很可能会出现 6 只手指。为了解决一些 AI 生成图的问题，近日 Meta 公布了一个能够透过学习识别图像，并建立相关知识的计算视觉模型，使人工智能操作更流畅，而且降低了成本。

该模型名为「图像联合嵌入预测架构」（Image Joint Embedding Predictive Architecture，简称 I-JEPA），其工作原理是建立外部世界的内部模型，然後比较图像的抽象表现，而非直接比较像素。

据 Meta 在其网志上解释，I-JEPA 在多种计算视觉任务上表现出强大的效能，并且比其他广泛使用的计算视觉模型在计算效率上有着显着的优势。在 72 小时内，Meta 利用 16 颗 Nvidia A100 GPUs 训练出了一个具有 6.32 亿参数的视觉转换模型。该公司声称，这种模型在使用 ImageNet 数据集进行低样本分类时，比其他方法（如 Data2vec、Context Autoencoders 和 Masked Autoencoders）有更好的效果。

Meta 称，与其他的自我监督学习方法相比，I-JEPA 需要更少的 GPU 训练时间，并且在相同数据量下，其错误率更低。Meta 的科学家（包括着名的 AI 先驱 Yann LeCun）在一篇名为「自我监督学习的图像联合嵌入预测架构」的论文中解释，I-JEPA 是通过尝试预测图像部分区域中的缺失信息来工作的。此模型操作的区块足够大，足以传达语义细节，赋予图像片段更多的意义。由於这些片段能传达它们相邻区块的相关信息，模型可以利用这些信息进行更精确的预测。

I-JEPA 的结果显示，生成图像时较不容易出错——例如创建有多余手指的手。Meta 表示，这是因为生成架构尝试在没有场景概念基础的情况下填充每一个信息，因此在处理人手时常会出现问题。

科学家们称，I-JEPA 展示了一种学习竞争性的现成图像表现的架构的潜力。I-JEPA 已经以Creative Commons Attribution-NonCommercial 4.0 International Public License 发布。

Meta 新技术将可解决 AI 绘画「手指」问题

相关文章

相关推荐

Comments

热门文章

Meta 新技术将可解决 AI 绘画「手指」问题

相关文章

相关推荐

4 个改进 ChatGPT Prompt 的技巧 让 AI 为你工作

系列经典重制《METAL SLUG X ACA NEOGEO》现已登上行动装置

Comments

热门文章

4 个改进 ChatGPT Prompt 的技巧 让 AI 为你工作

系列经典重制《METAL SLUG X ACA NEOGEO》现已登上行动装置

彭博：iPad Pro 及 iPad Air 将於 5 月第二周正式发布

4 个改进 ChatGPT Prompt 的技巧　让 AI 为你工作

4 个改进 ChatGPT Prompt 的技巧　让 AI 为你工作