苹果发布开源 AI Model

苹果近日发布了一款新的开源 AI Model，名为「MGIE」，能够根据自然语言指令来编辑影像。MGIE 的全名为 MLLM-Guided Image Editing，它运用多模态大型语言模型（MLLMs）来解读使用者命令，并进行像素级的操作。该 AI Model 能够处理各种编辑方面，包括 Photoshop 风格的修改、全局照片优化以及局部编辑。

MGIE 是 Apple 与加州大学研究人员合作的成果，这 AI Model 在 2024 年的 ICLR（国际学习表示会议）上被接受发表，ICLR 是 AI 研究领域的顶尖会议之一。论文展示了 MGIE 在提升自动度量和人类评估方面的有效性，同时保持了竞争性的推理效率。

MGIE 的基础理念是运用能够同时处理文本和影像的强大人工智能模型——多模态大型语言模型（MLLMs），来增强基於指令的影像编辑。MLLMs 在跨模态理解和视觉感知的回应生成方面展现出了显着的能力，但它们尚未广泛应用於影像编辑任务上。

MGIE 以两种方式将 MLLMs 整合进影像编辑过程中：首先，它使用 MLLMs 从用户输入中导出富有表达力的指令。这些指令简洁明了，为编辑过程提供了明确的指导。例如，给定输入「使天空更蓝」，MGIE 能够产生「将天空区域的饱和度增加 20%」的指令。

其次，它使用 MLLMs 生成视觉想像，即所需编辑的潜在表徵。这一表徵捕捉了编辑的本质，可以用来指导像素级的操作。MGIE 采用了一种新颖的端到端训练方案，共同优化指令导出、视觉想像和影像编辑模块。

外界指出，WWDC24 重点之一就是

苹果生成式 AI 技术将於 WWDC 现身　范围包括 Siri、Apple Music、Xcode、Pages 等应用
Apple 禁止员工使用 ChatGPT 及其他生成式 AI 工具
苹果员工：Siri 改进缓慢、无法追上 ChatGPT 令人沮丧
Siri 恶梦来了！Google 将以 Bard 取代 Google Assistant？

相关文章

分類