AI-Bildbearbeitungs-Tool

Das Tool bietet damit einen neuen Ansatz, der sicher vielen Nutzern gefallen wird und setzt dabei auf multimodale Sprachmodelle (MLLMs), um Benutzeranweisungen zu interpretieren und Bilder auf Pixelebene zu manipulieren.

Apples neuartiges KI-Tool MGIE

Was ist Apples MGIE?

MGIE wurde auf der International Conference on Learning Representations vorgestellt und stellt einen bedeutenden Schritt in Richtung multimodaler KI-Fähigkeiten, wie aus einem wissenschaftlichen Papier von Apple hervorgeht. Forscher der Universität von Santa Barbara waren an der Entwicklung von MGIE beteiligt und erklären im Paper, dass das System große multimodale Sprachmodelle integriert. Diese können sowohl Text als auch Bilder verarbeiten.

Apples neuartiges KI-Tool MGIE

Was ist MLLM?

MGIE nutzt das MLLM, um die Texteingabe eines Nutzers zu verstehen und sie in einen präzisen Bearbeitungsbefehl zu übersetzen. So kann beispielsweise ein Nutzer die den Befehl "Mach den Himmel blauer" absetzen und MGIE kann diesen Befehl als "Erhöhe die Sättigung der Himmelsregion um x-Prozent" interpretieren.

Laut Venturebeat reichen die Bearbeitungsszenarien von einfachen Anpassungen wie Zuschneiden und Drehen von Bildern bis hin zu komplexeren Objektmanipulationen im Bild. Dieser neue KI-Assistent ermöglicht einerseits globale Bearbeitungen, die die Bildqualität insgesamt verbessern und zum anderen lokale Anpassungen, die auf bestimmte Regionen des Bildes, Objekte oder Attribute abzielen. Er kann sogar traditionelle Photoshop-ähnliche Änderungen nachahmen und künstlerische Filter und Effekte anwenden.

MGIE kostenlos testen

Wer das neue Modell ausprobieren möchte, kann MGIE selbst ausprobieren. Leider kann man diese nur in niedriger Auflösung auf Huggingface testen. Es ist davon auszugehen, dass dieses Modell dann womöglich lokal auf iPhones eingesetzt wird, da Apple entsprechende Hardware-Anpassungen für kommende iPhones entwickelt, damit man so etwas On-Device ausführen kann.