Auf den 1. Blick sehen die KI-Bilder der Schlosskirche Meisenheim wirklich gut aus, aber wenn man sie dann mit dem Original vergleicht, sieht man, dass die Kirche in Wirklichkeit eine Art "Doppelportal" mit einem großen Kruzifix in der Mitte hat und das KI-Bild nur ein großes Portal ohne Kruzifix, das kann man den Leuten dann doch wieder nicht gut als Schlosskirche Meisenheim verkaufen, schade !
Sehr spaßig wirds, wenn man beim KI-Bildgenerator ein Bild von Dietrich Buxtehude an der Orgel bestellt:
Wenn man den Buxtehude noch irgendwie akzeptieren könnte (wenn man sehr, sehr großzügig ist), finde ich es immer wieder erstaunlich, wie wenig die KI über Orgeln weiß und wie dementsprechend komisch KI-generierte Orgeln aussehen. 🤣
Ich habe da mal einen längeren "Dialog" mit der KI zu Problematik bei Instrumenten bzw. Orgeldarstellungen geführt, und da wurde auf prinzipielle Probleme bei derzeitigen Systemen hingewiesen. Hier ein paar Zitate
KI-Modelle haben oft Schwierigkeiten, Musikinstrumente korrekt und sinnvoll darzustellen, und das liegt an mehreren Faktoren ... … KI-Bildgeneratoren sind darauf trainiert, visuelle Muster zu erkennen und nachzuahmen, aber sie "verstehen" nicht, wie ein Instrument funktioniert … generative Modelle werden mit einer Vielzahl von Bildern trainiert, die nicht immer standardisiert sind. Instrumente können in verschiedenen Winkeln, Designs und Perspektiven vorkommen, was die KI verwirren kann und zu ungenauen Darstellungen führt ... ... Selbst bei präziser Formulierung neigen generative Modelle dazu, wichtige numerische Angaben zu ignorieren oder zu verzerren ... Das Problem, dass KI-generierte Bilder selbst bei einfachen numerischen Vorgaben wie „drei Manuale einer Orgel“ falsche Ergebnisse liefern, liegt an mehreren tief verwurzelten Schwächen der generativen KI-Modelle. Obwohl „drei Manuale“ eine klar definierte Anforderung ist, interpretiert die KI Zahlenangaben oft unzuverlässig und liefert eine zufällige Variation. ...] Die KI erzeugt Unsinn, weil sie zwar viele Bilder „gesehen“ hat, aber nicht versteht, dass es bei Tasteninstrumenten feste Regeln gibt. Sie arbeitet eher probabilistisch und nicht regelbasiert, was bei standardisierten Mustern wie Klaviertastaturen zu den typischen Fehlern führt ... KI-Modelle arbeiten nicht mit fest programmierten Regeln, sondern basieren auf Wahrscheinlichkeiten aus den Trainingsdaten. Das bedeutet, dass sie Muster erkennen und nachbilden, anstatt exakte Anweisungen zu befolgen. Wenn eine bestimmte Beschreibung seltener oder nicht eindeutig in den Trainingsdaten vorkam, kann die KI sie „überspringen“ oder durch etwas Wahrscheinlicheres ersetzen. ... Auch wenn Prompts klar erscheinen, können sie von der KI unterschiedlich interpretiert werden. Begriffe wie „groß“, „detailliert“ oder „mittig“ sind für die KI schwer exakt umzusetzen, da sie kein tiefes Verständnis von relativen Größen oder Positionen hat. ... KI-Modelle sind darauf trainiert, „schöne“ Bilder zu generieren. Falls eine gewünschte Anweisung das visuelle Ergebnis weniger harmonisch erscheinen lässt, kann die KI entscheiden, diesen Teil zu ignorieren, um ein ästhetisch ansprechenderes Bild zu erzeugen. ... Selbst bei identischen Prompts können generative Modelle zufällige Ergebnisse liefern, was bedeutet, dass man manchmal mehrere Durchgänge benötigt, um ein akzeptables Ergebnis zu erzielen
Ich hab da noch mal probiert und variiert ... es ist hoffnungslos. Hier wieder eine 2 manulige Orgel - tolles Pedal
Das scheint wirklich hoffnungslos zu sein: Ein Örgelchen in der Grösse einer Zimmerorgel mit fünf Manualen und Brettern als Pedalklaviatur.
Das Besorgniserregende: Hier können wir den offenkundigen "Blödsinn" sofort erkennen - bei anderen durch KI generierten Ergebnissen vielfach nicht, wenn wir nicht fachkundig sind...