Dürfen wir das? Rechtliche Fallstricke bei KI-generierten Inhalten mit Dr. Oliver Scherenberg

Shownotes

In dieser spannenden Folge spricht Jens mit dem Anwalt Dr.Oliver Scherenberg über die komplexen rechtlichen Fragen rund um KI und Urheberrecht. Scherenberg berät seit zwei Jahren intensiv die Kreativwirtschaft bei der Nutzung von generativen KI-Tools und beleuchtet die Risiken und Herausforderungen.

Wem gehört der von KI generierte Content? Dürfen urheberrechtlich geschützte Daten einfach für das Training von KI-Modellen verwendet werden? Und was passiert, wenn Künstler nachträglich ein "Opt-Out" aus den Trainingsdaten verlangen? Oliver erklärt die Unterschiede zwischen den Rechtsräumen in Europa und den USA und skizziert die aktuellen Rechtsstreitigkeiten gegen OpenAI, Midjourney und Stability.AI.

Auch die Monetarisierung von KI-Output wirft knifflige Fragen auf: Wann entsteht ein Urheberrecht an KI-generierten Bildern? Reicht ein ausgefeilter Prompt oder muss der menschliche Anteil überwiegen? Oliver gibt Einblicke in erste Gerichtsentscheidungen und zeigt auf, wie sich Kreative absichern können.

Dieses Interview gibt etwas mehr Orientierung aber zeigt auch: Beim Thema KI und Recht befinden wir uns noch in einem dynamischen Prozess mit vielen offenen Fragen. Viel Spaß mit unserem ersten Interview an der Schnittstelle von Technologie und Recht!

Unsere Kontakt und Community 👉🏻 Max 👉🏻 Jens 👉🏻 Discord Community

Transkript anzeigen

00:00:00: Moin und willkommen zur mittlerweile dritten Folge des New Minds AI Podcast.

00:00:18: Heute mal nicht mit Max, sondern mit Oliver.

00:00:21: Das heißt, wir haben heute nicht ein übles KI Update, sondern ein Interview mit einer sehr,

00:00:25: sehr spannenden Persönlichkeit zu einem ja doch sehr komplexen und aber auch sehr interessanten

00:00:30: Thema. Deswegen, willkommen, Oliver, schön, dass du dabei bist. Stelle dich mal vor und sag mal,

00:00:35: was hast du eigentlich mit KI zu tun? Ja, herzlichen Dank für die Einladung, Jens.

00:00:39: Also Oliver Scherenberg, Anwalt aus Hamburg. Seit gut 20 Jahren tätig im Bereich Kommerzialisierung

00:00:45: von geistigen Eigentumsrechten. Dazu gehören Dinge wie Patente, Marken, aber eben auch Copyrights.

00:00:50: Und in dem Kontext von Copyright oder Urheberrechten habe ich jetzt seit gut zwei Jahren sehr intensiv

00:00:56: zu tun mit generativer KI. Das heißt, das fing an mit Mitjourn, Stable Diffusion. Da kam

00:01:01: GPD dazu. Und letztlich bin ich jetzt in der Beratung der Kreativwirtschaft, insbesondere tätig

00:01:06: und von Unternehmen, im Hinblick auf die Nutzung von generativen KI-Tools, Risikoeinschätzung,

00:01:12: rechtliche Bewertung und natürlich dann in dem ganzen Kontext auch Fragen mit Trainingdata,

00:01:17: also Input und Output generativer KI-Tools. Das ist letztlich mein Schwerpunkt geworden und

00:01:22: ja in dem Kontext haben wir uns ja auch kennengelernt. Ja, absolut. Und ich glaube, ich habe keinen

00:01:26: Vortrag und keinen Workshop, wo nicht das Thema Urheberrecht, was darf ich eigentlich, was

00:01:31: darf ich nicht, kommt und für mich als Leise natürlich unglaublich schwierig, da eine verlässliche

00:01:36: Aussage zu tätigen. Aber so das Thema KI und Urheberrecht ist natürlich jetzt nicht erst seit

00:01:40: GPD, aber vor allen Dingen seitdem dann auch Mitjourn hier aufkam, natürlich ein riesengroßes

00:01:44: Thema, was darf man eigentlich und wie ist da so aktuell der Stand? Kann man das irgendwie

00:01:50: für allgemein dann, wenn ich jetzt sage KI und Urheberrecht darf ich Output einfach so benutzen,

00:01:55: wie ist da auch so global gerade so der Stand? Sind wir uns da irgendwie eine Einig,

00:01:59: haben wir eine Lösung oder sind wir da noch irgendwie im Wildwesten? Also im Wildwesten ist

00:02:03: glaube ich fast ein bisschen zu viel gesagt, es gibt so ein paar rechtliche Unsicherheiten,

00:02:07: die haben damit zu tun, dass es eben eine Technologie ist, die so relativ neu ist,

00:02:12: also dass etwas generiert wird aus einer Maschine heraus, das gab es jedenfalls in dieser Massenanwendung

00:02:17: bisher wenig und damit haben wir auf einmal ganz interessante Fragestellungen im Urheberrecht

00:02:22: in Bezug auf, ist das überhaupt noch schutzfähig, was daraus kommt, ist es überhaupt noch Menschen

00:02:28: gemacht, denn das ist eine der wesentlichen Voraussetzungen für den Urheberrechtsschutz,

00:02:31: ich brauche eine persönliche geistige Schöpfung und wenn die weder persönlich noch geistige,

00:02:35: sondern aus der Maschine und aus der Konserve kommt, dann sozusagen die allermeisten Rechtsordnungen

00:02:40: aktuell, gibt es auch kein Urheberrechtsschutz. Das heißt erst mal die erste Antwort, was

00:02:45: daraus kommt, ist es urheberrechtlich geschützt? Nein, in aller Regel nicht. Die zweite Frage

00:02:50: ist, kann ich es bedenkenlos verwenden? Das muss man ein bisschen nionsierter betrachten,

00:02:54: da kann ich gerne ein paar Abstufungen dazu sagen, wenn du magst. Ja super, gerne. Prima,

00:02:58: also Abstufung eins ist, ich als Nutzer eines Tools habe ja in der Regel die Terms of Service

00:03:02: dieses Tools erstmal akzeptiert. Also meinetwegen mit Journey sagt mir, lieber User, du kannst

00:03:08: mein Tool benutzen und mit dem Output kannst du irgendwas tun und je nachdem ob du dafür

00:03:12: bezahlt hast oder nicht, ist das bei den meisten Tools danach abgeschichtet, darfst du das

00:03:16: kommerziell verwenden oder nicht. Das ist erstmal dein Verhältnis als User zu dem Anbieter

00:03:22: dieses Journey iTools und in diesem Verhältnis gehst du eine vertragliche Verpflichtung ein,

00:03:27: also beispielsweise wenn du sagst, den Output den verwerte ich nicht kommerziell, weil ich

00:03:31: sie auch kostenlos nutzen darf, dann bist du an diese Vereinbarung gebunden als User.

00:03:35: Jetzt kommt aber die spannende Anschlussfrage, gibt es da auch ein Urheberrecht drauf und

00:03:39: wenn die Antwort Nein ist, bedeutet das im Kontext, dass jeder andere, der nicht User

00:03:44: ist und diese Terms of Service akzeptiert hat, diesen Output nutzen kann, wie er will. Das

00:03:48: ist also so ähnlich wie Open Source, in diesem Fall ist es eben einfach ohne Copyright und

00:03:53: nicht nur Open Source, also das heißt gibt Copyright aber er wird darauf verzichtet,

00:03:56: sondern es gibt kein Copyright. Das bedeutet, der User, der es generiert hat, hat vielleicht

00:04:00: eine vertragliche Beschränkung gegenüber mit Journey oder Save the Fusion oder wem auch immer.

00:04:04: Denen geht er jetzt im Discord-Seat und es einfach nehmen kann, dem kann man aber nichts entgegenhalten.

00:04:09: Das heißt weder mit Journey, weil kein Vertragsverhältnis besteht, noch mit Journey oder der User aus Copyright,

00:04:15: weil es dort keins gibt, das ist also eine etwas schräge Situation. Das ist quasi der erste

00:04:20: Komplex Copyright, gesetzliche Regelungen und vertragliche Regelungen und das zweite ist,

00:04:25: das was du als Output generierst, kann ja durchaus auch andere Rechte verletzen, beispielsweise

00:04:30: Markenrechte, Persönlichkeitsrechte oder auch Verletzung von Datenschutzrechten sein,

00:04:34: beispielsweise. Da kann man relativ einfach sagen, all das was du auch sonst nicht dürftest,

00:04:39: ohne Generei darfst du hier auch nicht. Also bewusst die Rechte eines dritten Verletzen,

00:04:44: bewusst imitieren, dass jemand etwas getan hat, was er nicht getan hat, bewusst jemanden in den

00:04:49: Kontext setzen, Marken verwenden und so weiter. Also es ist eigentlich ein ganz gutes Indiz,

00:04:53: was ich früher nicht durfte in der Kreativwirtschaft, darf ich heute auch nicht, das was ich früher

00:04:58: durfte, beispielsweise auch als Künstlerinterpretation zu nehmen oder irgendwelche Bezugnahmen oder

00:05:03: Versifflagen oder sonstiges, das werde ich auch hier wohl dürfen. Super, super spannend und ich

00:05:10: stelle mir dann immer die Frage, wem gehört dann eigentlich der ganze Kram, weil du hast gesagt,

00:05:14: irgendwie ja uns allen, aber gerade bei den Trainingsdaten gibt es ja noch eine Unsicherheit,

00:05:20: was ist alles eingeflossen, durfte man das überhaupt alles mit in den Trainingsdaten-Set

00:05:24: reinpacken und am Ende des Tages, ich stelle sich doch für mich auch die Frage, gehört das

00:05:29: jetzt zum Tool, gehört das jetzt dem User, der reinprompete, gehört das eigentlich allen,

00:05:34: die unfreiwillig das Trainingsdaten-Set bereitgestellt haben, in welche Richtung geht das,

00:05:40: wie gehört der ganze Kram, den wir jetzt erzeugen und das sind mittlerweile Millionen von Bildern,

00:05:44: Audio und Texten. Also das ist eine spannende Verknüpfung, die du herstellst, nämlich die Frage,

00:05:49: gibt es oft aufgrund dieser Tatsache, dass es einen Output gibt, möglicherweise eine

00:05:55: Verknüpfung zum Input, also sprich, denjenigen, der den Input liefert, hat der Rechte am Output.

00:06:00: Also könnte man sagen, wenn jetzt meinetwegen ein Copyright-Oner, alle Daten dieses einen

00:06:05: Copyright-Owners, nur diesen, die Trainingdata für ein Modell, dann könnte man ja sagen,

00:06:10: dann muss doch auch das, was hinten rauskommt, nur diesem ein Urheber zugeordnet werden können.

00:06:14: Es ist ja letztlich ein Diffusion seiner Werke und ein Reconstruction sozusagen oder ein Memorization

00:06:21: von seinen Werken und ein Wiederaufbau seiner Werke. Tatsächlich funktioniert das im Moment

00:06:27: jedenfalls so nicht und das hat folgenden Hintergrund. Bei den Trainingdata hast du in der Regel

00:06:34: gar nicht eine Notwendigkeit, die Rechte einzuholen. Also jedenfalls im europäischen Rechtsraum gibt es

00:06:41: ein Privileg für das Scrapin von Data zu Training, also zu Trainingszwecken, du kannst also so

00:06:47: genanntes Daten-Mining betreiben, um bestimmte Muster und Informationen aus Content herauszulesen

00:06:53: und daraus in der Verarbeitung irgendwas anderes zu machen. Da gibt es eine Privilegierung jedenfalls

00:06:58: im deutschen Urheberrecht, die geht zurück auf eine europäische Rechtsetzung. Da heißt es dann,

00:07:03: wenn du systematisches Auslesen von Informationen vornimmst, dann ist das keine Urheberrechtsverletzung

00:07:09: beziehungsweise ist es jedenfalls keine sanktionierte Urheberrechtsverletzung. Damit im einfachen

00:07:14: Sprachgebrauch eine privilegierte Nutzung. Das bedeutet aber auch, wenn du jetzt also ganz

00:07:19: viel urheberrechtlich geschütztes Material zusammenpackst und das letztlich erst mal als

00:07:23: ein Satz Trainingdata mit den Informationen so verarbeitest, dann kommt hinten auch irgendwas

00:07:29: raus, was nicht verletzend ist. Jedenfalls nach unserem bisherigen Verständnis, wenn also die

00:07:34: Nutzung von Trainingdata nicht rechtsverletzend ist, dann kann die Durchzwirbelung und Wiederaufarbeitung

00:07:40: durch ein KI-Tool und das dahinter rauskommt, der Ergebnis ja auch keine Rechtsverletzung sein.

00:07:44: Also man muss die Frage eigentlich anfangs so stellen, ist es überhaupt ein illegaler

00:07:51: Materialdatensatz? Dann kann man darüber Infektionen gibt und dann hinten auch was Infiziertes

00:07:57: rauskommt oder ist das vorne eigentlich schon nicht illegal, dann kann eigentlich auch durch die

00:08:01: Verarbeitung unter Anführungsstrichen und die Weiterentwicklung nichts Illegales geschehen.

00:08:05: Und das ist eine ganz zentrale Frage, die insbesondere die internationale Urheberrechtsgemeinde

00:08:11: beschäftigt, denn diese Art von Privilegierung, von Data Mining, die gibt es außerhalb des

00:08:16: europäischen Rechtsraums in vielen Ländern nicht, beispielsweise auch nicht in den USA.

00:08:20: Die haben also einen völlig anderen Ansatz und sagen, das muss vielleicht so was wie transformative

00:08:26: views oder fair use sein, das heißt, dass du auf urheberrechtlich geschütztes Material zugreifst

00:08:32: und das in einer Art und Weise bearbeitest, verarbeitest oder eben auch transformierst,

00:08:37: dass am Schluss etwas rauskommt, das hat zwar diese Urheberrechte benutzt, aber die Verwertung

00:08:43: und das Ergebnis sind trotzdem legitimiert. Nur dort gibt es eben keine so ganz klare

00:08:48: Regelung, wie wir das haben und deshalb sind auch im Moment alle Rechtsstreitigkeiten eigentlich,

00:08:53: also fast alle Rechtsstreitigkeiten in den USA anhänglich.

00:08:55: Ach krass, das heißt, in Europa ist es dann legal auch urheberrechtlich geschützte Daten

00:09:01: zu scrapen, in einem Daten dazu vereinen und dann auch ein kommerzielles Produkt im Ende des

00:09:05: Tages auszumachen. Ja, da hat es jetzt viele Stichworte genannt, die es tatsächlich ein

00:09:09: bisschen relativieren. Also das Grundprinzip ist, Text und Data Mining ist erst mal zulässig und

00:09:15: dann wird abgestuft für kommerzielle Zwecke und für nicht kommerzielle Zwecke. Also ein

00:09:20: nicht kommerzielles Data Mining, beispielsweise für akademische Zwecke oder für durch ein NGO,

00:09:24: ist immer privilegiert und da gibt es auch keine Möglichkeit, sich dem zu entziehen. Also alles,

00:09:29: was öffentlich zugänglich ist, also nicht Daten, die nicht öffentlich zugänglich sind,

00:09:34: sondern nur die öffentlich zugänglichen Daten, also quasi alles, was du durchs Internet scrapen

00:09:38: kannst, alles, was gesehen wird und zwar auch ohne, dass jetzt der User sagt, eigentlich wollte ich

00:09:44: das gar nicht veröffentlichen, jemand hat ein Foto davon gemacht, das ist jetzt erst mal

00:09:47: öffentlich zugänglich. Erst mal schwierige Situation, aber geben wir einfach mal davon aus,

00:09:50: alles, was online ist, darf gescraped werden. Alles, was gescraped werden kann, kann Teil von

00:09:55: Training Data werden und wenn es für nicht kommerzielle Zwecke ausgewertet wird, ist dort auch

00:10:00: Ende. Wenn es für kommerzielle Zwecke ausgewertet wird, dann muss derjenige, der das Scraping betreibt,

00:10:06: ein Opt-Out anbieten. Das heißt, er muss den Künstlern, deren Informationen und Daten oder den

00:10:12: Leuten, denen der Content gehört. Text und Data Mining heißt es ja, den muss er eine Möglichkeit

00:10:18: für ein Opt-Out anbieten und dieses Opt-Out ist auch ein ganz wesentliches Element, was aktuell

00:10:24: besprochen wird. Hat das den stattgefunden in der Vergangenheit? Ist das denn ein maschinenlesbares

00:10:29: Opt-Out? Wurde das denn berücksichtigt, ist es diese Robots Text-Datei, die auf irgendwelchen

00:10:36: Webseiten verhindert, dass gescraped und gekrawlt werden kann? Oder muss das auch nachträglich

00:10:40: angeboten werden, weil ja auch Künstler beispielsweise deren Werke ohne deren Willen

00:10:45: veröffentlicht wurden im Internet und die dann gescraped worden sind eine Möglichkeit haben

00:10:49: müssen zu sagen, ich möchte das nicht. Oder die sagen, Scraping früher war was anderes,

00:10:54: als Scraping und Verwertung heute meiner Werke in dem Generei, hätte ich das gewusst, hätte

00:11:00: ich gern widersprochen und dass dieses Opt-Out, also jetzt ein zentraler Bestandteil, glaube ich,

00:11:06: auch der Diskussion werden wird, dass Künstler heute, die jetzt sehen, was mit ihren Werken

00:11:11: passiert, eine Möglichkeit haben, den Stecker wieder zu ziehen. Das geht bei kommerzielle

00:11:15: Verwertung von Data Mining, das geht nicht, weil nicht kommerzielle Verwertung von Data Mining.

00:11:21: Okay, mega spannend. Ich glaube, das Problem ist auch, was du gerade skizziert hast,

00:11:25: so das nachträglich auszuobten, weil jetzt wurde ja erst mal ganz viel gesammelt und jetzt zu sagen,

00:11:30: ja, ich möchte dich, dass diese diese fünf Bilder im Trainingsdaten-Zett drin sind, ist

00:11:34: wahrscheinlich auch technologisch einfach eine große Herausforderung, dass dann so gezielt

00:11:38: irgendwie wieder aus dem System raus, weil Genies erst mal aus der Flasche.

00:11:42: Ja, genau so ist es und das ist eben der Unterschied zu den früheren Ideen von Datenbanken. Also

00:11:48: dieses Opt-Out war ja im Grunde genommen etwas wie nachträglicher Löschungsanspruch. Das kennt

00:11:53: man auch so ein bisschen aus der Datenschutzgrundverordnung, wenn man sagt, ich möchte, dass meine

00:11:58: Daten aus einem bestimmten Satz entfernt werden. Ich möchte, dass meine Emails entfernt werden

00:12:02: aus einer Mailingliste und so weiter und so weiter. Das funktioniert natürlich schwierig,

00:12:06: wenn du in einer Technologie bist, bei der Löschung nicht so richtig funktioniert, weil es auf einmal

00:12:11: keine Datenbank mehr ist, sondern eine verarbeitete und erlernte Information, aus der wiederum

00:12:17: Rückschlüsse für weitere Muster gezogen werden können. Also ein nachträgliches Opt-Out, wenn

00:12:22: deine Daten bereits Gegenstand von einem Lernprozess einer generativen KI waren, der funktioniert

00:12:29: jedenfalls nach meinem Wissenstand technisch auch gar nicht. Du kannst also nicht entlernen.

00:12:33: Das ist im Grunde genommen so, wie wenn du in ein Zimmer gehst und da steht eine Blumenwase auf

00:12:38: dem Tisch und danach nimmt jemand die Blumenwase weg, dann hast du die Erinnerung an die Blumenwase

00:12:41: ja nicht vergessen. Die ist zwar nicht mehr da, okay, aber du hast sie gesehen. Und so ganz

00:12:46: vereinfacht dargestellt, muss man sich sagen, ich habe es ja schon mal gesehen, die KI hat es gesehen.

00:12:51: Ich kann es nicht mehr entsehen. Ich müsste also quasi mich selber löschen oder das Modell in

00:12:58: diesem Fall neu trainieren. Das kannst du gegebenenfalls bei Updates machen. Ansonsten in der Regel

00:13:02: setzt ja das neue Update auch auf, auf den bereits erlernten. Also das wird noch eine spannende Frage

00:13:09: sein, ob dieses Opt-Out dazu führt, dass man de facto die Modelle resetten muss, was natürlich

00:13:15: einen ungeheuren Rückschritt bedeuten würde, weil ja schon Monate und Jahre jetzt in das Training

00:13:20: von KI-Modellen entwickelt wurde. Also nach meinem Verständnis ist das technisch schwierig, aber ich

00:13:25: glaube, das ist eine Ausrede, die man nicht gelten lassen darf. Da muss man halt sagen, dann müsste

00:13:29: ich euch wahrscheinlich was ausdenken. Und ich kann mir gut vorstellen, dass auch der öffentliche

00:13:32: Druck und auch der Druck der Kreativwirtschaft so massiv sein wird, nicht nur in den USA,

00:13:37: sondern auch hier, dass man nicht einfach sagen kann, ja gut, Pech gehabt, Privileg und musst du

00:13:43: halt durch. Also entweder muss man sagen, dann gibt es dafür auch Geld. Also so eine Art, wenn du

00:13:48: schon die Zwangslizenz erdulden musst, dann kriegst du wenigstens eine ueberrechtliche Vergütung,

00:13:53: so Allergema oder Verwertungsgesellschaft. Oder wir müssen zu einem Punkt kommen, wo man wirklich

00:13:57: ein effektives Opt-Out hat, das auch nachträglich noch funktioniert, beispielsweise durch irgendwelche

00:14:02: öffentlichen Datenbanken, die immer erst mal abgecheckt werden müssen, wie so eine Art Blacklist,

00:14:07: bei dem die Modelbetreiber alle einmal durchsurfen müssen und sagen, wenn es da drin steht und das

00:14:12: muss auch aktualisiert werden, dann darfst du eben diesen Training-Datasatz nicht benutzen.

00:14:17: Krass. Also ich glaube, so dieses nachträgliche Opt-Out ist natürlich dann echt eine Herausforderung

00:14:22: in dem Bereich und Modelle neu zu trainieren. Ich weiß nicht, ob da so Richtung Microsoft

00:14:29: und Open AI gewählt ist, den Schritt einzugehen. Gibt es denn da rechtlich schon in die Richtung

00:14:36: aktuelle Gerichtsurteile, wo du sagst, das könnte ihnen sowas führen, gerade auch in den USA,

00:14:41: oder wie sieht da gerade auch so die globale Einschätzung von Seiten der Rechtsprechung

00:14:47: in dem Bereich aus? Gibt es da Unterschiede, vielleicht auch? Ja. Also es gibt rund 20 Rechtsstreitigkeiten,

00:14:55: die in den USA anhängig sind von Autoren gegen Open AI, von Künstlern gegen Mid Journey, aber auch

00:15:03: von Getty Images gegenüber Stability, die Stable Diffusion rausgebracht haben. Und die Ansätze

00:15:10: sind alle in einem Punkt ähnlich, nämlich du hast da was verwendet, danach hast du mich nicht

00:15:16: gefragt, ich habe dir die Genehmigung auch nicht erteilt. Jetzt verdienst du damit Geld und

00:15:21: verwässerst meine Rechte. Das heißt, du generierst auf der Basis meiner Kreativleistung ein Output,

00:15:26: der an mir völlig vorüber geht und mit dem ich auch nicht einverstanden bin. Und je nachdem,

00:15:31: wie intensiv man sich mit diesen Klagen dann beschäftigt, kommt entweder dabei raus, jemand

00:15:37: ist einfach nur nicht einverstanden und glaubt, dass das eine Urheberrechtsverletzung ist oder

00:15:41: jemand glaubt, es handelt sich um eine bewusste Manipulation und Ausdruz von Daten. Also beispielsweise

00:15:49: in dem Verfahren der New York Times gegen Open AI, die sagen beispielsweise, das ist gar nicht das,

00:15:56: was du behauptest, was du tust, nämlich ein Erlernen eines Modells, bei dem dann am Schluss

00:16:01: Informationen und Muster erkannt werden und die dann wiederum einklang finden in dein Modell,

00:16:06: sondern was du eigentlich betreibst, ist eine Konkurrenzwebsite zu unserer eigenen. Leute werden

00:16:10: künftig bei dir auf der Seite gucken, wenn sie Informationen wollen, weil du nämlich 1 zu 1

00:16:14: unseren Content scrapesst und ihn sogar auch wörtlich wiedergibst. Und die wörtliche Wiedergabe

00:16:20: ist eigentlich ein Systemfehler. Das soll eigentlich so gar nicht sein, die haben aber offenbar

00:16:24: irgendeine Art von Trick gefunden und man könnte auch was sagen, einen Hack angewendet, um am Schluss

00:16:30: etwas auszupobeln aus diesem Modell, was eigentlich so gar nicht hätte ausgespuckt werden sollen.

00:16:35: Da muss man immer so ein ganz bisschen vorsichtig sein, finde ich, dass man nicht zu sehr der

00:16:41: ein oder der anderen Seite moralisch auch das Recht zuspricht. Also jetzt, wenn man als unbeteiligter

00:16:46: sich damit befasst, ich habe jetzt hier in diesem Fall bei den New York Times eher die Tendenz

00:16:50: zu sagen, die New York Times hat das System gebrochen, um ein Case zu generieren, der so

00:16:56: durch normale Nutzung gar nicht entstanden wäre. Ich habe aber auch ein großes Verständnis dafür,

00:17:01: wenn Bildkünstler, beispielsweise bildende Künstler oder auch Musikkünstler sagen,

00:17:07: mir geht hier mein einziges Einnahmemodell flöten, nämlich die Verwertung meines eigenen

00:17:12: Contents, wenn jetzt jeder in meinem Stil durch meine Werke trainiert, an dem ich nichts verdiene,

00:17:17: auch imitieren kann, was ich tue, dann habe ich keine Motivation künftig noch zu arbeiten.

00:17:21: Also die Amerikaner insbesondere sind natürlich immer sehr gut dabei, solche destruktiven

00:17:29: Geschäftsmodelle mit wahnsinnig viel Geld auszustatten und zu sagen, lass es uns doch

00:17:32: einfach mal durchziehen, wenn wir dann in fünf Jahren die ersten Gerichtsurteile und in zehn

00:17:37: oder 15 Jahren die Europäische Kommission an der Hacke haben, bis dahin sind wir Weltmarktführer

00:17:41: und können einfach mit Milliarden alles tot kaufen. Das ist aggressiv. Das muss man auch

00:17:46: haben. Das sieht da jetzt schon so aus. Genau so sieht das aus und das ist ja auch nicht das

00:17:52: erste Mal. Also auch Google und Meta kriegen ja im Jahresdurchschnitt, ich weiß nicht, wie viele

00:17:58: 40, 100 Millionen an den Hafen unterschlucken, die einfach so weg, das interessiert die wahrscheinlich

00:18:04: in vielen Fällen auch gar nicht. Gegebenfalls kannst du ja nachträglich dein Modell anpassen.

00:18:08: Also es gibt da einen Spruch, ich weiß nicht von dem, der kam, ich glaube, der kam von einem,

00:18:12: von dem Gründer von Stability, wobei bei dem passt es nicht so ganz egal, also einer dieser

00:18:16: großen Diffusion-Modelle und ich glaube, Sam Altmann hat das ähnlich auch mal formuliert,

00:18:20: er sagte, sometimes it's better to ask for forgiveness than for permission. Das sagt

00:18:26: er ziemlich deutlich aus, wie man diese Rechtssituation auch sieht und auch andere, also

00:18:33: gerade bei Stability, die hatten bei ihrem Stable-Audio, Anfangs auch gesagt, das kann

00:18:40: mit den Rechteklärungen sehr schwierig werden. Ich glaube, wir fangen mal lieber nicht mit der

00:18:43: Musik an und auch die aktuellen generativen Modelle, Suno und auch Udio, die haben ja

00:18:51: durchaus Anhaltspunkte dafür, dass die Musik nicht lizenziert ist, die sie da verwursten.

00:18:56: Und auch dort zu sagen, dass es mir egal, wir schmeißen das Modell mal auf den Markt und

00:19:00: kümmern uns dann um die Rechte, kann man machen, aber dann muss man sich eben auch eine warme

00:19:04: Jacke anziehen und ertragen, dass sie Kreativenschaft damit ein Problem hat. Also so gesehen, ich bin

00:19:09: auch so ein bisschen tagesformabhängig mal sehr auf den Interessen der Urheber und mal habe ich

00:19:16: das Gefühl super disruptive Technologie, die erfordert auch mal den einen oder anderen Schwitzer

00:19:21: sozusagen und ich bin mir nicht so ganz sicher, wo die Reise hingeht, aber es ist jedenfalls

00:19:25: dynamisch und sehr spannend. Wenn du schon sagst, dass du nicht weißt, wo die Reise hingeht,

00:19:29: das zeigt ja schon, wie komplex das Thema ist. Ich finde auch ganz spannend, dass er gerade auch

00:19:33: beim Thema Trainingsdaten ja auch ein Open AI beispielsweise mit verschiedenen Verlagen

00:19:39: weltweit ja auch dann so Deals eingeht, um dann Exklusivität oder Exklusiv das einfach alles

00:19:43: zu bekommen und damit dann auch wahrscheinlich arbeiten zu können. Vielleicht ist das das ein

00:19:47: Move, anstatt zu sagen wir scrapen einfach mal alles, wir pfüllern einfach mal ganz viel Geld

00:19:51: in die Mitte Verlage und schnappen uns den Content exklusiv. Ja, du ist beispielsweise,

00:19:56: ist ja damit sind sowohl Getty Images als auch Shutterstock und letztlich auch Adobe ja auch auf

00:20:01: den Markt gegangen, als ihre eigenen Diffusionsmodelle auf den Markt gebracht haben. Die haben gesagt,

00:20:05: mit Journey und Stability Fusion, Riesensauerei, alles nicht rechtssicher. Jetzt kommen wir mit

00:20:10: unseren eigenen Stockfotos, haben wir eine eigene KI antrainiert, das heißt, das ist alles

00:20:15: Material, das haben wir eingekauft, das ist alles lizenziert, nur damit haben wir die KI trainiert,

00:20:20: das bedeutet legaler Input ist auch legaler Output. Könnte man sagen, funktioniert im Prinzip ja ganz

00:20:27: gut von der Idee und deshalb halten wir euch, liebe Nutzer auch frei davon, wenn irgendjemand kommt

00:20:33: mit irgendwelchen Copyright Claims, weil wir so die Superheiligen sind, wir haben ja alles ganz

00:20:37: wunderbar verarbeitet. Wenn man jetzt mal so ein bisschen genauer guckt und so ein paar Monate

00:20:40: ins Land ziehen lässt, dann haben wir auch alle die Nachrichten vor Augen, dass insbesondere Adobe

00:20:45: jetzt offenbar doch auch sich mit Journey Bildern hat, so ein bisschen füttern lassen und das

00:20:50: heißt, dass also das Modell letztlich von hinten durch die Brust ins Auge genau die gleichen Probleme

00:20:55: haben wird wie alle anderen, nämlich Trainingsdatensatz möglicherweise nicht so ganz legal stabil oder

00:21:00: jedenfalls nicht moralisch stabil. Das zweite, wenn man ein bisschen genauer hinschaut, diese rechte

00:21:05: Freihaltung, dieses wir übernehmen alle Haftungen, wenn da irgendwas passiert, also insbesondere bei

00:21:10: Adobe ist beschränkt auf 10.000 Dollar pro Schadensfall. Damit kannst du also kaum in deinem Anwalt

00:21:16: Fragen, ob er den Fall übernehmen kann und dann sind 10.000 Dollar jedenfalls in den USA auch schon

00:21:22: weg. Das ist also keine ernstzunehmende rechte Freihaltung. Da haben wir beispielsweise in

00:21:26: Deutschland Mandanten die eigene Modelle auftrainieren, die völlig andere Freistellungen haben,

00:21:32: beispielsweise, weil sie sagen, wir haben halt einfach eine Haftpflichtversicherung und wir

00:21:35: versichern das Risiko, dass mit unserem Tool irgendwas urheberrechtlich schief geht, was wir

00:21:39: nicht beanticipiert haben und so ähnlich wie bei der normalen Berufshaftpflichtversicherung,

00:21:44: wenn der Anwalt falsch berät oder wenn die Werbeagentur in Markenverletzungsfall produziert,

00:21:48: sind diese Risiken eben abgesichert, und zwar bis zu einer Million oder bis zu 10 Millionen und

00:21:53: nicht bis zu 10.000. Also sprich, das ist alles Marketing, Augenwischerei und auch da, wenn du einen

00:22:00: Trainingsdatensatz hast, der basiert auf Stockfotos, dann werden auch die Leute, die die Stockfotos

00:22:05: früher gegeben haben, jetzt, bevor JNA ein Thema war, nicht damit gerechnet haben, dass es durch

00:22:10: so ein Diffusion-Model durchläuft, sondern die haben damit gerechnet, jemand kauft extra ein

00:22:15: Foto und bildet es ab und das kann so einfach abrechnen. Wie die ihre Künstler, von denen sie

00:22:21: den Content haben, beteiligen, kann ich überhaupt nicht abschätzen, aber ich gehe mal fast davon

00:22:25: aus, dass es jetzt nicht pro use case so ist wie das früher war im Stockfotobereich. Also das ist

00:22:31: teilweise auch, die Moral kommt glaube ich so ein bisschen durch die PR und der Wunsch, dass man

00:22:38: moralisch ist als die anderen, aber unterm Strich bleibt das Problem, du trainierst auf einem Satz von

00:22:43: Daten, ob du das mit einem Total Buy Out bekommen hast, ob du es gar nicht gezahlt hast oder wie

00:22:48: auch immer, es bleibt dabei, die Künstler sind in der Regel damit gar nicht einverstanden und

00:22:52: damit werden wir uns beschäftigen müssen. Absolut, gutes Thema. Ich glaube auch Adobe habe ich jetzt

00:22:57: vor ein paar Tagen gelesen, zahlt ja auch mittlerweile auch für Fotos und Videos von Menschen

00:23:01: ähnliche Situationen bewusst, wohl auch um das Trainings-Vertraining zu trainieren, also ganz

00:23:07: anderer case, wo man glaube ich als kreativer auch nicht daran gedacht hat, dass man irgendwie eine

00:23:11: Maschine einfach nur trainiert und dafür dann irgendwie Geld bekommt, im besten Falle. Und wenn

00:23:16: ich jetzt, wir haben jetzt verstanden, wir haben eigentlich keinen Urbeerecht auf so Bilder, die

00:23:20: wir auch generieren, beispielsweise beim Mid Journey, wie ist das jetzt so mit der auch

00:23:25: Monetarisierung von KI Output? Also wenn ich jetzt sage, ich habe jetzt ein Bild generiert, finde

00:23:30: ich wunderschön, bin mir relativ sicher, dass ich damit kein privates Recht verletze, weil da

00:23:37: vielleicht einfach so verkünstelt ist, dass ich wahrscheinlich keinen Künstler, den ich kenne,

00:23:40: damit verletze und auch keine Personen drauf ist, die man irgendwie kennt. Und das verkaube ich jetzt

00:23:44: irgendwie einfach auf dem Markt, im Internet. Darf ich das? Darf ich damit ein Geld verdienen?

00:23:50: Oder gibt es da auch so Fallstrecke? Es gibt Fallstrecke, also erstens musst du als User,

00:23:55: der das Bild generiert hat, gucken, ob du das darfst nach den Terms of Service des entsprechenden

00:23:59: Tools. Wenn du dort die vertragliche Verpflichtung eingegangen bist, ich nutze dein Tool kostenlos,

00:24:04: deshalb werde ich das danach nicht kommerzialisieren, dann darfst du es erst mal nicht und zwar nicht

00:24:09: aufgrund von Gesetz, sondern aufgrund dieser vertraglichen Vereinbarung. In der Regel würde

00:24:13: ich aber sagen, dass Leute, die was generieren, um damit Geld zu verdienen, werden auch Tools nutzen,

00:24:18: bei denen dann die Terms of Service in die kommerziellen Verwertungsrechte einräumen. Also so gesehen,

00:24:22: im Verhältnis zum Tool bist du erst mal fein und kannst los. Jetzt kommt die Frage der Monetarisierung,

00:24:28: ja, kannst du, du brauchst ja selber kein Urheberrecht, es ist aber durchaus ganz hilfreich. Das

00:24:35: Urheberrecht hat ja zwei verschiedene Komponenten, die Komponente eins ist, es ist ein positives

00:24:40: Nutzungsrecht und die entscheidende zweite Komponent ist aber ein negatives Verbietungsrecht.

00:24:45: Das heißt, ich habe ein Asset geschaffen und dieses F oder generiert und dieses Asset kann

00:24:50: ich jetzt verkaufen und verwerten, wie ich will, selber oder durch Dritte, aber ich kann

00:24:55: keinen dritten verbieten, dieses gleiche Asset zu benutzen. Sprich, wenn du jetzt als Werbeagentur

00:25:00: deinem Kunden ein generiertes Bild in der Kampagne überlässt, dann kannst du dafür ohne weiteres

00:25:05: Geld nehmen. Ich würde nur die Nutzungsbedingungen etwas anpassen müssen, weil ich jetzt ja dem

00:25:10: nicht sagen kann, ich habe da was für dich generiert, ich übertrage dir die exklusive Nutzungs- und

00:25:14: Verwertungsrechte, denn die hast du selber auch nicht oder beziehungsweise die hat jeder andere

00:25:18: auch und exklusiv ist es damit nicht, sondern du musst letztlich sagen, lieber Kunde, die Transparenz

00:25:24: gebietet, also ich habe hier generative KI eingesetzt, du wusstest das, du wolltest das,

00:25:28: komm mal und so weiter. Was damit aber auch klar ist, ist, dass wir etwas abweichen von unserem

00:25:33: üblichen Modell in Agenturen, dass du von uns Nutzung und Verwertungsrechte bekommst. Was du

00:25:38: bekommst, ist meine Zeit und eine und ein digitale File und diesen File kannst du verwenden, wie

00:25:44: du willst, aber Vorsicht, nachdem es keine Urheberrechte gibt, kann das jeder andere auch und diesen

00:25:50: Hinweis würde ich durchaus auch ergänzen, sonst hast du möglicherweise Schwierigkeiten, wenn du

00:25:54: deinem Kunden was verkauft hast und der dachte, er kündst exklusiv, tatsächlich hat aber sein

00:25:58: Wettbewerber genau das gleiche Motiv aufgenommen und es auch benutzt. In der Realität würde ich

00:26:03: sagen, ist es selten so, dass du reingenerierte Inhalte hast, sondern in aller Regel jedenfalls in

00:26:09: der etwas professionelleren Kreativwirtschaft werden diese Dinge dann ja nochmal bearbeitet. Also nur

00:26:14: als Beispiel, du möchtest ein Plakat für eine Kampagne mit Journey entwerfen, dann wirst du in der

00:26:20: Regel einen ersten Entwurf mit Journey machen, dann wirst du das danach durch Magnific durchjagen

00:26:25: oder durch ein anderes Upscaling-Tool, damit die Auflösung besser ist, weil du es sonst auch

00:26:29: gar nicht vergrößern kannst in der Dimension, wie du es haben möchtest, dann wirst du anfangen mit

00:26:33: Photoshop zu arbeiten, dann wirst du das durch einen anderen Workflow durchziehen. Also sprich die

00:26:37: Wahrscheinlichkeit, dass du nur ein Tool hast und nur generative KI da zum Einsatz kommt, ist im

00:26:42: professionellen Umfeld vergleichsweise gering. Und da kommen wir dann in einen ganz spannenden

00:26:47: Bereich, nämlich ist es dann vielleicht so, je mehr ich persönlich dran rum arbeite, dass es

00:26:51: doch irgendwann eine persönliche geistige Schöpfung wird und ich vielleicht doch wirklich ein Urüberecht

00:26:55: habe. Genau, das bringt mich auch direkt zur nächsten Frage. Wie viel Arbeit muss ich reinstecken?

00:27:01: Reicht es, wenn ich dann sage, mein Prompt ist A Dog at the Beach oder muss der Prompt mindestens vier

00:27:08: Sätze lang sein? Gibt es da schon ein Gefühl, wo könnte das kippen? Oder muss ich da mindestens drei

00:27:15: Tools aufgemacht haben und es bearbeitet haben? Also total spannende Frage, es gibt letztlich noch

00:27:20: keine klare Indikation an welcher Stelle es kippt. Was es aber gibt sind erste Entscheidungen aus

00:27:26: den USA und ich sage auch gleich, warum in den USA und nicht bei uns, erste Entscheidung in den USA,

00:27:30: die die Latte extrem hoch hängen, die also letztlich sagen, in deinem Beispiel zu bleiben,

00:27:36: Picture of a Dog oder Dog at the Beach, das wird nicht funktionieren, denn das ist ja ein rein

00:27:41: zufälliges Ergebnis, bei dem die wesentlichen Elemente der KI überlassen werden. Aber auch Dog

00:27:46: at the Beach at Sunset with an Aspect Ratio of 16 to 9, ein brennweiter X, Y und Coda Kamera und was

00:27:54: man alles da noch so reinfummeln kann, Bokeh Hintergrund, keine Ahnung, du kannst ja mit Journey

00:27:58: sehr sehr präzise prompten und am Schluss dann ein doch deutlich weniger zufälliges Ergebnis

00:28:03: bekommen. Selbst Daud hat auch das US Copyright Office gesagt, nee das ist nichts, das ist immer

00:28:08: noch generiert und selbst wenn du dieses Bild nimmst und es wieder reinsteckst und sagst,

00:28:12: verändere Folgendes, verändere Folgendes, also ein reprompt auf der Basis deiner eigenen Werke

00:28:17: hast, selbst da hat das Copyright Office bei mehreren hundert Bearbeitungen gesagt,

00:28:21: nee ist immer noch KI generiert, dafür kriegste nichts und dann wird es irgendwann spannend,

00:28:27: die Frage, wenn du etwas kombinierst, also beispielsweise hat eine Künstlerin ein Comic

00:28:32: eingereicht mit eigenem Text, mit eigenem Arrangement, aber mit generierten Bildern,

00:28:37: dann hat sie ein Copyright bekommen für das Arrangement und für den Text, aber nicht für

00:28:42: die Bilder, weil das Copyright Office eben sagt, dass es immer noch generiert und die Tatsache,

00:28:46: dass du die links und rechts angeordnet hast und der und der Größe und geschnitten, das ist

00:28:50: originell, aber der Text ist, der Text ist auch originell, aber die Bilder sind nicht von dir.

00:28:54: So und ich glaube, dass wir nach und nach uns dran tasten werden an diese Frage, gibt's so was wie

00:29:00: eine General Rule, also so ein allgemeingültiges Gesetz ab wann kippt, muss es ein überwiegender

00:29:07: menschlicher Anteil sein, das ist ganz furchtbar schwer zu definieren. Es gibt da entsprechende

00:29:12: Entscheidungen, die das auch schon aufgegriffen haben, zum Beispiel in China und ich meine,

00:29:16: gerade kürzlich kam eine aus Prag, auch bei der an einer bestimmten Stelle ein Copyright

00:29:22: tatsächlich entstehen kann durch ein besonders sophisticated Prompt, durch eine Überarbeitung

Shownotes

Transkript anzeigen

Neuer Kommentar