Dürfen wir das? Rechtliche Fallstricke bei KI-generierten Inhalten mit Dr. Oliver Scherenberg
Shownotes
In dieser spannenden Folge spricht Jens mit dem Anwalt Dr.Oliver Scherenberg über die komplexen rechtlichen Fragen rund um KI und Urheberrecht. Scherenberg berät seit zwei Jahren intensiv die Kreativwirtschaft bei der Nutzung von generativen KI-Tools und beleuchtet die Risiken und Herausforderungen.
Wem gehört der von KI generierte Content? Dürfen urheberrechtlich geschützte Daten einfach für das Training von KI-Modellen verwendet werden? Und was passiert, wenn Künstler nachträglich ein "Opt-Out" aus den Trainingsdaten verlangen? Oliver erklärt die Unterschiede zwischen den Rechtsräumen in Europa und den USA und skizziert die aktuellen Rechtsstreitigkeiten gegen OpenAI, Midjourney und Stability.AI.
Auch die Monetarisierung von KI-Output wirft knifflige Fragen auf: Wann entsteht ein Urheberrecht an KI-generierten Bildern? Reicht ein ausgefeilter Prompt oder muss der menschliche Anteil überwiegen? Oliver gibt Einblicke in erste Gerichtsentscheidungen und zeigt auf, wie sich Kreative absichern können.
Dieses Interview gibt etwas mehr Orientierung aber zeigt auch: Beim Thema KI und Recht befinden wir uns noch in einem dynamischen Prozess mit vielen offenen Fragen. Viel Spaß mit unserem ersten Interview an der Schnittstelle von Technologie und Recht!
Unsere Kontakt und Community 👉🏻 Max 👉🏻 Jens 👉🏻 Discord Community
Transkript anzeigen
00:00:00: Moin und willkommen zur mittlerweile dritten Folge des New Minds AI Podcast.
00:00:18: Heute mal nicht mit Max, sondern mit Oliver.
00:00:21: Das heißt, wir haben heute nicht ein übles KI Update, sondern ein Interview mit einer sehr,
00:00:25: sehr spannenden Persönlichkeit zu einem ja doch sehr komplexen und aber auch sehr interessanten
00:00:30: Thema. Deswegen, willkommen, Oliver, schön, dass du dabei bist. Stelle dich mal vor und sag mal,
00:00:35: was hast du eigentlich mit KI zu tun? Ja, herzlichen Dank für die Einladung, Jens.
00:00:39: Also Oliver Scherenberg, Anwalt aus Hamburg. Seit gut 20 Jahren tätig im Bereich Kommerzialisierung
00:00:45: von geistigen Eigentumsrechten. Dazu gehören Dinge wie Patente, Marken, aber eben auch Copyrights.
00:00:50: Und in dem Kontext von Copyright oder Urheberrechten habe ich jetzt seit gut zwei Jahren sehr intensiv
00:00:56: zu tun mit generativer KI. Das heißt, das fing an mit Mitjourn, Stable Diffusion. Da kam
00:01:01: GPD dazu. Und letztlich bin ich jetzt in der Beratung der Kreativwirtschaft, insbesondere tätig
00:01:06: und von Unternehmen, im Hinblick auf die Nutzung von generativen KI-Tools, Risikoeinschätzung,
00:01:12: rechtliche Bewertung und natürlich dann in dem ganzen Kontext auch Fragen mit Trainingdata,
00:01:17: also Input und Output generativer KI-Tools. Das ist letztlich mein Schwerpunkt geworden und
00:01:22: ja in dem Kontext haben wir uns ja auch kennengelernt. Ja, absolut. Und ich glaube, ich habe keinen
00:01:26: Vortrag und keinen Workshop, wo nicht das Thema Urheberrecht, was darf ich eigentlich, was
00:01:31: darf ich nicht, kommt und für mich als Leise natürlich unglaublich schwierig, da eine verlässliche
00:01:36: Aussage zu tätigen. Aber so das Thema KI und Urheberrecht ist natürlich jetzt nicht erst seit
00:01:40: GPD, aber vor allen Dingen seitdem dann auch Mitjourn hier aufkam, natürlich ein riesengroßes
00:01:44: Thema, was darf man eigentlich und wie ist da so aktuell der Stand? Kann man das irgendwie
00:01:50: für allgemein dann, wenn ich jetzt sage KI und Urheberrecht darf ich Output einfach so benutzen,
00:01:55: wie ist da auch so global gerade so der Stand? Sind wir uns da irgendwie eine Einig,
00:01:59: haben wir eine Lösung oder sind wir da noch irgendwie im Wildwesten? Also im Wildwesten ist
00:02:03: glaube ich fast ein bisschen zu viel gesagt, es gibt so ein paar rechtliche Unsicherheiten,
00:02:07: die haben damit zu tun, dass es eben eine Technologie ist, die so relativ neu ist,
00:02:12: also dass etwas generiert wird aus einer Maschine heraus, das gab es jedenfalls in dieser Massenanwendung
00:02:17: bisher wenig und damit haben wir auf einmal ganz interessante Fragestellungen im Urheberrecht
00:02:22: in Bezug auf, ist das überhaupt noch schutzfähig, was daraus kommt, ist es überhaupt noch Menschen
00:02:28: gemacht, denn das ist eine der wesentlichen Voraussetzungen für den Urheberrechtsschutz,
00:02:31: ich brauche eine persönliche geistige Schöpfung und wenn die weder persönlich noch geistige,
00:02:35: sondern aus der Maschine und aus der Konserve kommt, dann sozusagen die allermeisten Rechtsordnungen
00:02:40: aktuell, gibt es auch kein Urheberrechtsschutz. Das heißt erst mal die erste Antwort, was
00:02:45: daraus kommt, ist es urheberrechtlich geschützt? Nein, in aller Regel nicht. Die zweite Frage
00:02:50: ist, kann ich es bedenkenlos verwenden? Das muss man ein bisschen nionsierter betrachten,
00:02:54: da kann ich gerne ein paar Abstufungen dazu sagen, wenn du magst. Ja super, gerne. Prima,
00:02:58: also Abstufung eins ist, ich als Nutzer eines Tools habe ja in der Regel die Terms of Service
00:03:02: dieses Tools erstmal akzeptiert. Also meinetwegen mit Journey sagt mir, lieber User, du kannst
00:03:08: mein Tool benutzen und mit dem Output kannst du irgendwas tun und je nachdem ob du dafür
00:03:12: bezahlt hast oder nicht, ist das bei den meisten Tools danach abgeschichtet, darfst du das
00:03:16: kommerziell verwenden oder nicht. Das ist erstmal dein Verhältnis als User zu dem Anbieter
00:03:22: dieses Journey iTools und in diesem Verhältnis gehst du eine vertragliche Verpflichtung ein,
00:03:27: also beispielsweise wenn du sagst, den Output den verwerte ich nicht kommerziell, weil ich
00:03:31: sie auch kostenlos nutzen darf, dann bist du an diese Vereinbarung gebunden als User.
00:03:35: Jetzt kommt aber die spannende Anschlussfrage, gibt es da auch ein Urheberrecht drauf und
00:03:39: wenn die Antwort Nein ist, bedeutet das im Kontext, dass jeder andere, der nicht User
00:03:44: ist und diese Terms of Service akzeptiert hat, diesen Output nutzen kann, wie er will. Das
00:03:48: ist also so ähnlich wie Open Source, in diesem Fall ist es eben einfach ohne Copyright und
00:03:53: nicht nur Open Source, also das heißt gibt Copyright aber er wird darauf verzichtet,
00:03:56: sondern es gibt kein Copyright. Das bedeutet, der User, der es generiert hat, hat vielleicht
00:04:00: eine vertragliche Beschränkung gegenüber mit Journey oder Save the Fusion oder wem auch immer.
00:04:04: Denen geht er jetzt im Discord-Seat und es einfach nehmen kann, dem kann man aber nichts entgegenhalten.
00:04:09: Das heißt weder mit Journey, weil kein Vertragsverhältnis besteht, noch mit Journey oder der User aus Copyright,
00:04:15: weil es dort keins gibt, das ist also eine etwas schräge Situation. Das ist quasi der erste
00:04:20: Komplex Copyright, gesetzliche Regelungen und vertragliche Regelungen und das zweite ist,
00:04:25: das was du als Output generierst, kann ja durchaus auch andere Rechte verletzen, beispielsweise
00:04:30: Markenrechte, Persönlichkeitsrechte oder auch Verletzung von Datenschutzrechten sein,
00:04:34: beispielsweise. Da kann man relativ einfach sagen, all das was du auch sonst nicht dürftest,
00:04:39: ohne Generei darfst du hier auch nicht. Also bewusst die Rechte eines dritten Verletzen,
00:04:44: bewusst imitieren, dass jemand etwas getan hat, was er nicht getan hat, bewusst jemanden in den
00:04:49: Kontext setzen, Marken verwenden und so weiter. Also es ist eigentlich ein ganz gutes Indiz,
00:04:53: was ich früher nicht durfte in der Kreativwirtschaft, darf ich heute auch nicht, das was ich früher
00:04:58: durfte, beispielsweise auch als Künstlerinterpretation zu nehmen oder irgendwelche Bezugnahmen oder
00:05:03: Versifflagen oder sonstiges, das werde ich auch hier wohl dürfen. Super, super spannend und ich
00:05:10: stelle mir dann immer die Frage, wem gehört dann eigentlich der ganze Kram, weil du hast gesagt,
00:05:14: irgendwie ja uns allen, aber gerade bei den Trainingsdaten gibt es ja noch eine Unsicherheit,
00:05:20: was ist alles eingeflossen, durfte man das überhaupt alles mit in den Trainingsdaten-Set
00:05:24: reinpacken und am Ende des Tages, ich stelle sich doch für mich auch die Frage, gehört das
00:05:29: jetzt zum Tool, gehört das jetzt dem User, der reinprompete, gehört das eigentlich allen,
00:05:34: die unfreiwillig das Trainingsdaten-Set bereitgestellt haben, in welche Richtung geht das,
00:05:40: wie gehört der ganze Kram, den wir jetzt erzeugen und das sind mittlerweile Millionen von Bildern,
00:05:44: Audio und Texten. Also das ist eine spannende Verknüpfung, die du herstellst, nämlich die Frage,
00:05:49: gibt es oft aufgrund dieser Tatsache, dass es einen Output gibt, möglicherweise eine
00:05:55: Verknüpfung zum Input, also sprich, denjenigen, der den Input liefert, hat der Rechte am Output.
00:06:00: Also könnte man sagen, wenn jetzt meinetwegen ein Copyright-Oner, alle Daten dieses einen
00:06:05: Copyright-Owners, nur diesen, die Trainingdata für ein Modell, dann könnte man ja sagen,
00:06:10: dann muss doch auch das, was hinten rauskommt, nur diesem ein Urheber zugeordnet werden können.
00:06:14: Es ist ja letztlich ein Diffusion seiner Werke und ein Reconstruction sozusagen oder ein Memorization
00:06:21: von seinen Werken und ein Wiederaufbau seiner Werke. Tatsächlich funktioniert das im Moment
00:06:27: jedenfalls so nicht und das hat folgenden Hintergrund. Bei den Trainingdata hast du in der Regel
00:06:34: gar nicht eine Notwendigkeit, die Rechte einzuholen. Also jedenfalls im europäischen Rechtsraum gibt es
00:06:41: ein Privileg für das Scrapin von Data zu Training, also zu Trainingszwecken, du kannst also so
00:06:47: genanntes Daten-Mining betreiben, um bestimmte Muster und Informationen aus Content herauszulesen
00:06:53: und daraus in der Verarbeitung irgendwas anderes zu machen. Da gibt es eine Privilegierung jedenfalls
00:06:58: im deutschen Urheberrecht, die geht zurück auf eine europäische Rechtsetzung. Da heißt es dann,
00:07:03: wenn du systematisches Auslesen von Informationen vornimmst, dann ist das keine Urheberrechtsverletzung
00:07:09: beziehungsweise ist es jedenfalls keine sanktionierte Urheberrechtsverletzung. Damit im einfachen
00:07:14: Sprachgebrauch eine privilegierte Nutzung. Das bedeutet aber auch, wenn du jetzt also ganz
00:07:19: viel urheberrechtlich geschütztes Material zusammenpackst und das letztlich erst mal als
00:07:23: ein Satz Trainingdata mit den Informationen so verarbeitest, dann kommt hinten auch irgendwas
00:07:29: raus, was nicht verletzend ist. Jedenfalls nach unserem bisherigen Verständnis, wenn also die
00:07:34: Nutzung von Trainingdata nicht rechtsverletzend ist, dann kann die Durchzwirbelung und Wiederaufarbeitung
00:07:40: durch ein KI-Tool und das dahinter rauskommt, der Ergebnis ja auch keine Rechtsverletzung sein.
00:07:44: Also man muss die Frage eigentlich anfangs so stellen, ist es überhaupt ein illegaler
00:07:51: Materialdatensatz? Dann kann man darüber Infektionen gibt und dann hinten auch was Infiziertes
00:07:57: rauskommt oder ist das vorne eigentlich schon nicht illegal, dann kann eigentlich auch durch die
00:08:01: Verarbeitung unter Anführungsstrichen und die Weiterentwicklung nichts Illegales geschehen.
00:08:05: Und das ist eine ganz zentrale Frage, die insbesondere die internationale Urheberrechtsgemeinde
00:08:11: beschäftigt, denn diese Art von Privilegierung, von Data Mining, die gibt es außerhalb des
00:08:16: europäischen Rechtsraums in vielen Ländern nicht, beispielsweise auch nicht in den USA.
00:08:20: Die haben also einen völlig anderen Ansatz und sagen, das muss vielleicht so was wie transformative
00:08:26: views oder fair use sein, das heißt, dass du auf urheberrechtlich geschütztes Material zugreifst
00:08:32: und das in einer Art und Weise bearbeitest, verarbeitest oder eben auch transformierst,
00:08:37: dass am Schluss etwas rauskommt, das hat zwar diese Urheberrechte benutzt, aber die Verwertung
00:08:43: und das Ergebnis sind trotzdem legitimiert. Nur dort gibt es eben keine so ganz klare
00:08:48: Regelung, wie wir das haben und deshalb sind auch im Moment alle Rechtsstreitigkeiten eigentlich,
00:08:53: also fast alle Rechtsstreitigkeiten in den USA anhänglich.
00:08:55: Ach krass, das heißt, in Europa ist es dann legal auch urheberrechtlich geschützte Daten
00:09:01: zu scrapen, in einem Daten dazu vereinen und dann auch ein kommerzielles Produkt im Ende des
00:09:05: Tages auszumachen. Ja, da hat es jetzt viele Stichworte genannt, die es tatsächlich ein
00:09:09: bisschen relativieren. Also das Grundprinzip ist, Text und Data Mining ist erst mal zulässig und
00:09:15: dann wird abgestuft für kommerzielle Zwecke und für nicht kommerzielle Zwecke. Also ein
00:09:20: nicht kommerzielles Data Mining, beispielsweise für akademische Zwecke oder für durch ein NGO,
00:09:24: ist immer privilegiert und da gibt es auch keine Möglichkeit, sich dem zu entziehen. Also alles,
00:09:29: was öffentlich zugänglich ist, also nicht Daten, die nicht öffentlich zugänglich sind,
00:09:34: sondern nur die öffentlich zugänglichen Daten, also quasi alles, was du durchs Internet scrapen
00:09:38: kannst, alles, was gesehen wird und zwar auch ohne, dass jetzt der User sagt, eigentlich wollte ich
00:09:44: das gar nicht veröffentlichen, jemand hat ein Foto davon gemacht, das ist jetzt erst mal
00:09:47: öffentlich zugänglich. Erst mal schwierige Situation, aber geben wir einfach mal davon aus,
00:09:50: alles, was online ist, darf gescraped werden. Alles, was gescraped werden kann, kann Teil von
00:09:55: Training Data werden und wenn es für nicht kommerzielle Zwecke ausgewertet wird, ist dort auch
00:10:00: Ende. Wenn es für kommerzielle Zwecke ausgewertet wird, dann muss derjenige, der das Scraping betreibt,
00:10:06: ein Opt-Out anbieten. Das heißt, er muss den Künstlern, deren Informationen und Daten oder den
00:10:12: Leuten, denen der Content gehört. Text und Data Mining heißt es ja, den muss er eine Möglichkeit
00:10:18: für ein Opt-Out anbieten und dieses Opt-Out ist auch ein ganz wesentliches Element, was aktuell
00:10:24: besprochen wird. Hat das den stattgefunden in der Vergangenheit? Ist das denn ein maschinenlesbares
00:10:29: Opt-Out? Wurde das denn berücksichtigt, ist es diese Robots Text-Datei, die auf irgendwelchen
00:10:36: Webseiten verhindert, dass gescraped und gekrawlt werden kann? Oder muss das auch nachträglich
00:10:40: angeboten werden, weil ja auch Künstler beispielsweise deren Werke ohne deren Willen
00:10:45: veröffentlicht wurden im Internet und die dann gescraped worden sind eine Möglichkeit haben
00:10:49: müssen zu sagen, ich möchte das nicht. Oder die sagen, Scraping früher war was anderes,
00:10:54: als Scraping und Verwertung heute meiner Werke in dem Generei, hätte ich das gewusst, hätte
00:11:00: ich gern widersprochen und dass dieses Opt-Out, also jetzt ein zentraler Bestandteil, glaube ich,
00:11:06: auch der Diskussion werden wird, dass Künstler heute, die jetzt sehen, was mit ihren Werken
00:11:11: passiert, eine Möglichkeit haben, den Stecker wieder zu ziehen. Das geht bei kommerzielle
00:11:15: Verwertung von Data Mining, das geht nicht, weil nicht kommerzielle Verwertung von Data Mining.
00:11:21: Okay, mega spannend. Ich glaube, das Problem ist auch, was du gerade skizziert hast,
00:11:25: so das nachträglich auszuobten, weil jetzt wurde ja erst mal ganz viel gesammelt und jetzt zu sagen,
00:11:30: ja, ich möchte dich, dass diese diese fünf Bilder im Trainingsdaten-Zett drin sind, ist
00:11:34: wahrscheinlich auch technologisch einfach eine große Herausforderung, dass dann so gezielt
00:11:38: irgendwie wieder aus dem System raus, weil Genies erst mal aus der Flasche.
00:11:42: Ja, genau so ist es und das ist eben der Unterschied zu den früheren Ideen von Datenbanken. Also
00:11:48: dieses Opt-Out war ja im Grunde genommen etwas wie nachträglicher Löschungsanspruch. Das kennt
00:11:53: man auch so ein bisschen aus der Datenschutzgrundverordnung, wenn man sagt, ich möchte, dass meine
00:11:58: Daten aus einem bestimmten Satz entfernt werden. Ich möchte, dass meine Emails entfernt werden
00:12:02: aus einer Mailingliste und so weiter und so weiter. Das funktioniert natürlich schwierig,
00:12:06: wenn du in einer Technologie bist, bei der Löschung nicht so richtig funktioniert, weil es auf einmal
00:12:11: keine Datenbank mehr ist, sondern eine verarbeitete und erlernte Information, aus der wiederum
00:12:17: Rückschlüsse für weitere Muster gezogen werden können. Also ein nachträgliches Opt-Out, wenn
00:12:22: deine Daten bereits Gegenstand von einem Lernprozess einer generativen KI waren, der funktioniert
00:12:29: jedenfalls nach meinem Wissenstand technisch auch gar nicht. Du kannst also nicht entlernen.
00:12:33: Das ist im Grunde genommen so, wie wenn du in ein Zimmer gehst und da steht eine Blumenwase auf
00:12:38: dem Tisch und danach nimmt jemand die Blumenwase weg, dann hast du die Erinnerung an die Blumenwase
00:12:41: ja nicht vergessen. Die ist zwar nicht mehr da, okay, aber du hast sie gesehen. Und so ganz
00:12:46: vereinfacht dargestellt, muss man sich sagen, ich habe es ja schon mal gesehen, die KI hat es gesehen.
00:12:51: Ich kann es nicht mehr entsehen. Ich müsste also quasi mich selber löschen oder das Modell in
00:12:58: diesem Fall neu trainieren. Das kannst du gegebenenfalls bei Updates machen. Ansonsten in der Regel
00:13:02: setzt ja das neue Update auch auf, auf den bereits erlernten. Also das wird noch eine spannende Frage
00:13:09: sein, ob dieses Opt-Out dazu führt, dass man de facto die Modelle resetten muss, was natürlich
00:13:15: einen ungeheuren Rückschritt bedeuten würde, weil ja schon Monate und Jahre jetzt in das Training
00:13:20: von KI-Modellen entwickelt wurde. Also nach meinem Verständnis ist das technisch schwierig, aber ich
00:13:25: glaube, das ist eine Ausrede, die man nicht gelten lassen darf. Da muss man halt sagen, dann müsste
00:13:29: ich euch wahrscheinlich was ausdenken. Und ich kann mir gut vorstellen, dass auch der öffentliche
00:13:32: Druck und auch der Druck der Kreativwirtschaft so massiv sein wird, nicht nur in den USA,
00:13:37: sondern auch hier, dass man nicht einfach sagen kann, ja gut, Pech gehabt, Privileg und musst du
00:13:43: halt durch. Also entweder muss man sagen, dann gibt es dafür auch Geld. Also so eine Art, wenn du
00:13:48: schon die Zwangslizenz erdulden musst, dann kriegst du wenigstens eine ueberrechtliche Vergütung,
00:13:53: so Allergema oder Verwertungsgesellschaft. Oder wir müssen zu einem Punkt kommen, wo man wirklich
00:13:57: ein effektives Opt-Out hat, das auch nachträglich noch funktioniert, beispielsweise durch irgendwelche
00:14:02: öffentlichen Datenbanken, die immer erst mal abgecheckt werden müssen, wie so eine Art Blacklist,
00:14:07: bei dem die Modelbetreiber alle einmal durchsurfen müssen und sagen, wenn es da drin steht und das
00:14:12: muss auch aktualisiert werden, dann darfst du eben diesen Training-Datasatz nicht benutzen.
00:14:17: Krass. Also ich glaube, so dieses nachträgliche Opt-Out ist natürlich dann echt eine Herausforderung
00:14:22: in dem Bereich und Modelle neu zu trainieren. Ich weiß nicht, ob da so Richtung Microsoft
00:14:29: und Open AI gewählt ist, den Schritt einzugehen. Gibt es denn da rechtlich schon in die Richtung
00:14:36: aktuelle Gerichtsurteile, wo du sagst, das könnte ihnen sowas führen, gerade auch in den USA,
00:14:41: oder wie sieht da gerade auch so die globale Einschätzung von Seiten der Rechtsprechung
00:14:47: in dem Bereich aus? Gibt es da Unterschiede, vielleicht auch? Ja. Also es gibt rund 20 Rechtsstreitigkeiten,
00:14:55: die in den USA anhängig sind von Autoren gegen Open AI, von Künstlern gegen Mid Journey, aber auch
00:15:03: von Getty Images gegenüber Stability, die Stable Diffusion rausgebracht haben. Und die Ansätze
00:15:10: sind alle in einem Punkt ähnlich, nämlich du hast da was verwendet, danach hast du mich nicht
00:15:16: gefragt, ich habe dir die Genehmigung auch nicht erteilt. Jetzt verdienst du damit Geld und
00:15:21: verwässerst meine Rechte. Das heißt, du generierst auf der Basis meiner Kreativleistung ein Output,
00:15:26: der an mir völlig vorüber geht und mit dem ich auch nicht einverstanden bin. Und je nachdem,
00:15:31: wie intensiv man sich mit diesen Klagen dann beschäftigt, kommt entweder dabei raus, jemand
00:15:37: ist einfach nur nicht einverstanden und glaubt, dass das eine Urheberrechtsverletzung ist oder
00:15:41: jemand glaubt, es handelt sich um eine bewusste Manipulation und Ausdruz von Daten. Also beispielsweise
00:15:49: in dem Verfahren der New York Times gegen Open AI, die sagen beispielsweise, das ist gar nicht das,
00:15:56: was du behauptest, was du tust, nämlich ein Erlernen eines Modells, bei dem dann am Schluss
00:16:01: Informationen und Muster erkannt werden und die dann wiederum einklang finden in dein Modell,
00:16:06: sondern was du eigentlich betreibst, ist eine Konkurrenzwebsite zu unserer eigenen. Leute werden
00:16:10: künftig bei dir auf der Seite gucken, wenn sie Informationen wollen, weil du nämlich 1 zu 1
00:16:14: unseren Content scrapesst und ihn sogar auch wörtlich wiedergibst. Und die wörtliche Wiedergabe
00:16:20: ist eigentlich ein Systemfehler. Das soll eigentlich so gar nicht sein, die haben aber offenbar
00:16:24: irgendeine Art von Trick gefunden und man könnte auch was sagen, einen Hack angewendet, um am Schluss
00:16:30: etwas auszupobeln aus diesem Modell, was eigentlich so gar nicht hätte ausgespuckt werden sollen.
00:16:35: Da muss man immer so ein ganz bisschen vorsichtig sein, finde ich, dass man nicht zu sehr der
00:16:41: ein oder der anderen Seite moralisch auch das Recht zuspricht. Also jetzt, wenn man als unbeteiligter
00:16:46: sich damit befasst, ich habe jetzt hier in diesem Fall bei den New York Times eher die Tendenz
00:16:50: zu sagen, die New York Times hat das System gebrochen, um ein Case zu generieren, der so
00:16:56: durch normale Nutzung gar nicht entstanden wäre. Ich habe aber auch ein großes Verständnis dafür,
00:17:01: wenn Bildkünstler, beispielsweise bildende Künstler oder auch Musikkünstler sagen,
00:17:07: mir geht hier mein einziges Einnahmemodell flöten, nämlich die Verwertung meines eigenen
00:17:12: Contents, wenn jetzt jeder in meinem Stil durch meine Werke trainiert, an dem ich nichts verdiene,
00:17:17: auch imitieren kann, was ich tue, dann habe ich keine Motivation künftig noch zu arbeiten.
00:17:21: Also die Amerikaner insbesondere sind natürlich immer sehr gut dabei, solche destruktiven
00:17:29: Geschäftsmodelle mit wahnsinnig viel Geld auszustatten und zu sagen, lass es uns doch
00:17:32: einfach mal durchziehen, wenn wir dann in fünf Jahren die ersten Gerichtsurteile und in zehn
00:17:37: oder 15 Jahren die Europäische Kommission an der Hacke haben, bis dahin sind wir Weltmarktführer
00:17:41: und können einfach mit Milliarden alles tot kaufen. Das ist aggressiv. Das muss man auch
00:17:46: haben. Das sieht da jetzt schon so aus. Genau so sieht das aus und das ist ja auch nicht das
00:17:52: erste Mal. Also auch Google und Meta kriegen ja im Jahresdurchschnitt, ich weiß nicht, wie viele
00:17:58: 40, 100 Millionen an den Hafen unterschlucken, die einfach so weg, das interessiert die wahrscheinlich
00:18:04: in vielen Fällen auch gar nicht. Gegebenfalls kannst du ja nachträglich dein Modell anpassen.
00:18:08: Also es gibt da einen Spruch, ich weiß nicht von dem, der kam, ich glaube, der kam von einem,
00:18:12: von dem Gründer von Stability, wobei bei dem passt es nicht so ganz egal, also einer dieser
00:18:16: großen Diffusion-Modelle und ich glaube, Sam Altmann hat das ähnlich auch mal formuliert,
00:18:20: er sagte, sometimes it's better to ask for forgiveness than for permission. Das sagt
00:18:26: er ziemlich deutlich aus, wie man diese Rechtssituation auch sieht und auch andere, also
00:18:33: gerade bei Stability, die hatten bei ihrem Stable-Audio, Anfangs auch gesagt, das kann
00:18:40: mit den Rechteklärungen sehr schwierig werden. Ich glaube, wir fangen mal lieber nicht mit der
00:18:43: Musik an und auch die aktuellen generativen Modelle, Suno und auch Udio, die haben ja
00:18:51: durchaus Anhaltspunkte dafür, dass die Musik nicht lizenziert ist, die sie da verwursten.
00:18:56: Und auch dort zu sagen, dass es mir egal, wir schmeißen das Modell mal auf den Markt und
00:19:00: kümmern uns dann um die Rechte, kann man machen, aber dann muss man sich eben auch eine warme
00:19:04: Jacke anziehen und ertragen, dass sie Kreativenschaft damit ein Problem hat. Also so gesehen, ich bin
00:19:09: auch so ein bisschen tagesformabhängig mal sehr auf den Interessen der Urheber und mal habe ich
00:19:16: das Gefühl super disruptive Technologie, die erfordert auch mal den einen oder anderen Schwitzer
00:19:21: sozusagen und ich bin mir nicht so ganz sicher, wo die Reise hingeht, aber es ist jedenfalls
00:19:25: dynamisch und sehr spannend. Wenn du schon sagst, dass du nicht weißt, wo die Reise hingeht,
00:19:29: das zeigt ja schon, wie komplex das Thema ist. Ich finde auch ganz spannend, dass er gerade auch
00:19:33: beim Thema Trainingsdaten ja auch ein Open AI beispielsweise mit verschiedenen Verlagen
00:19:39: weltweit ja auch dann so Deals eingeht, um dann Exklusivität oder Exklusiv das einfach alles
00:19:43: zu bekommen und damit dann auch wahrscheinlich arbeiten zu können. Vielleicht ist das das ein
00:19:47: Move, anstatt zu sagen wir scrapen einfach mal alles, wir pfüllern einfach mal ganz viel Geld
00:19:51: in die Mitte Verlage und schnappen uns den Content exklusiv. Ja, du ist beispielsweise,
00:19:56: ist ja damit sind sowohl Getty Images als auch Shutterstock und letztlich auch Adobe ja auch auf
00:20:01: den Markt gegangen, als ihre eigenen Diffusionsmodelle auf den Markt gebracht haben. Die haben gesagt,
00:20:05: mit Journey und Stability Fusion, Riesensauerei, alles nicht rechtssicher. Jetzt kommen wir mit
00:20:10: unseren eigenen Stockfotos, haben wir eine eigene KI antrainiert, das heißt, das ist alles
00:20:15: Material, das haben wir eingekauft, das ist alles lizenziert, nur damit haben wir die KI trainiert,
00:20:20: das bedeutet legaler Input ist auch legaler Output. Könnte man sagen, funktioniert im Prinzip ja ganz
00:20:27: gut von der Idee und deshalb halten wir euch, liebe Nutzer auch frei davon, wenn irgendjemand kommt
00:20:33: mit irgendwelchen Copyright Claims, weil wir so die Superheiligen sind, wir haben ja alles ganz
00:20:37: wunderbar verarbeitet. Wenn man jetzt mal so ein bisschen genauer guckt und so ein paar Monate
00:20:40: ins Land ziehen lässt, dann haben wir auch alle die Nachrichten vor Augen, dass insbesondere Adobe
00:20:45: jetzt offenbar doch auch sich mit Journey Bildern hat, so ein bisschen füttern lassen und das
00:20:50: heißt, dass also das Modell letztlich von hinten durch die Brust ins Auge genau die gleichen Probleme
00:20:55: haben wird wie alle anderen, nämlich Trainingsdatensatz möglicherweise nicht so ganz legal stabil oder
00:21:00: jedenfalls nicht moralisch stabil. Das zweite, wenn man ein bisschen genauer hinschaut, diese rechte
00:21:05: Freihaltung, dieses wir übernehmen alle Haftungen, wenn da irgendwas passiert, also insbesondere bei
00:21:10: Adobe ist beschränkt auf 10.000 Dollar pro Schadensfall. Damit kannst du also kaum in deinem Anwalt
00:21:16: Fragen, ob er den Fall übernehmen kann und dann sind 10.000 Dollar jedenfalls in den USA auch schon
00:21:22: weg. Das ist also keine ernstzunehmende rechte Freihaltung. Da haben wir beispielsweise in
00:21:26: Deutschland Mandanten die eigene Modelle auftrainieren, die völlig andere Freistellungen haben,
00:21:32: beispielsweise, weil sie sagen, wir haben halt einfach eine Haftpflichtversicherung und wir
00:21:35: versichern das Risiko, dass mit unserem Tool irgendwas urheberrechtlich schief geht, was wir
00:21:39: nicht beanticipiert haben und so ähnlich wie bei der normalen Berufshaftpflichtversicherung,
00:21:44: wenn der Anwalt falsch berät oder wenn die Werbeagentur in Markenverletzungsfall produziert,
00:21:48: sind diese Risiken eben abgesichert, und zwar bis zu einer Million oder bis zu 10 Millionen und
00:21:53: nicht bis zu 10.000. Also sprich, das ist alles Marketing, Augenwischerei und auch da, wenn du einen
00:22:00: Trainingsdatensatz hast, der basiert auf Stockfotos, dann werden auch die Leute, die die Stockfotos
00:22:05: früher gegeben haben, jetzt, bevor JNA ein Thema war, nicht damit gerechnet haben, dass es durch
00:22:10: so ein Diffusion-Model durchläuft, sondern die haben damit gerechnet, jemand kauft extra ein
00:22:15: Foto und bildet es ab und das kann so einfach abrechnen. Wie die ihre Künstler, von denen sie
00:22:21: den Content haben, beteiligen, kann ich überhaupt nicht abschätzen, aber ich gehe mal fast davon
00:22:25: aus, dass es jetzt nicht pro use case so ist wie das früher war im Stockfotobereich. Also das ist
00:22:31: teilweise auch, die Moral kommt glaube ich so ein bisschen durch die PR und der Wunsch, dass man
00:22:38: moralisch ist als die anderen, aber unterm Strich bleibt das Problem, du trainierst auf einem Satz von
00:22:43: Daten, ob du das mit einem Total Buy Out bekommen hast, ob du es gar nicht gezahlt hast oder wie
00:22:48: auch immer, es bleibt dabei, die Künstler sind in der Regel damit gar nicht einverstanden und
00:22:52: damit werden wir uns beschäftigen müssen. Absolut, gutes Thema. Ich glaube auch Adobe habe ich jetzt
00:22:57: vor ein paar Tagen gelesen, zahlt ja auch mittlerweile auch für Fotos und Videos von Menschen
00:23:01: ähnliche Situationen bewusst, wohl auch um das Trainings-Vertraining zu trainieren, also ganz
00:23:07: anderer case, wo man glaube ich als kreativer auch nicht daran gedacht hat, dass man irgendwie eine
00:23:11: Maschine einfach nur trainiert und dafür dann irgendwie Geld bekommt, im besten Falle. Und wenn
00:23:16: ich jetzt, wir haben jetzt verstanden, wir haben eigentlich keinen Urbeerecht auf so Bilder, die
00:23:20: wir auch generieren, beispielsweise beim Mid Journey, wie ist das jetzt so mit der auch
00:23:25: Monetarisierung von KI Output? Also wenn ich jetzt sage, ich habe jetzt ein Bild generiert, finde
00:23:30: ich wunderschön, bin mir relativ sicher, dass ich damit kein privates Recht verletze, weil da
00:23:37: vielleicht einfach so verkünstelt ist, dass ich wahrscheinlich keinen Künstler, den ich kenne,
00:23:40: damit verletze und auch keine Personen drauf ist, die man irgendwie kennt. Und das verkaube ich jetzt
00:23:44: irgendwie einfach auf dem Markt, im Internet. Darf ich das? Darf ich damit ein Geld verdienen?
00:23:50: Oder gibt es da auch so Fallstrecke? Es gibt Fallstrecke, also erstens musst du als User,
00:23:55: der das Bild generiert hat, gucken, ob du das darfst nach den Terms of Service des entsprechenden
00:23:59: Tools. Wenn du dort die vertragliche Verpflichtung eingegangen bist, ich nutze dein Tool kostenlos,
00:24:04: deshalb werde ich das danach nicht kommerzialisieren, dann darfst du es erst mal nicht und zwar nicht
00:24:09: aufgrund von Gesetz, sondern aufgrund dieser vertraglichen Vereinbarung. In der Regel würde
00:24:13: ich aber sagen, dass Leute, die was generieren, um damit Geld zu verdienen, werden auch Tools nutzen,
00:24:18: bei denen dann die Terms of Service in die kommerziellen Verwertungsrechte einräumen. Also so gesehen,
00:24:22: im Verhältnis zum Tool bist du erst mal fein und kannst los. Jetzt kommt die Frage der Monetarisierung,
00:24:28: ja, kannst du, du brauchst ja selber kein Urheberrecht, es ist aber durchaus ganz hilfreich. Das
00:24:35: Urheberrecht hat ja zwei verschiedene Komponenten, die Komponente eins ist, es ist ein positives
00:24:40: Nutzungsrecht und die entscheidende zweite Komponent ist aber ein negatives Verbietungsrecht.
00:24:45: Das heißt, ich habe ein Asset geschaffen und dieses F oder generiert und dieses Asset kann
00:24:50: ich jetzt verkaufen und verwerten, wie ich will, selber oder durch Dritte, aber ich kann
00:24:55: keinen dritten verbieten, dieses gleiche Asset zu benutzen. Sprich, wenn du jetzt als Werbeagentur
00:25:00: deinem Kunden ein generiertes Bild in der Kampagne überlässt, dann kannst du dafür ohne weiteres
00:25:05: Geld nehmen. Ich würde nur die Nutzungsbedingungen etwas anpassen müssen, weil ich jetzt ja dem
00:25:10: nicht sagen kann, ich habe da was für dich generiert, ich übertrage dir die exklusive Nutzungs- und
00:25:14: Verwertungsrechte, denn die hast du selber auch nicht oder beziehungsweise die hat jeder andere
00:25:18: auch und exklusiv ist es damit nicht, sondern du musst letztlich sagen, lieber Kunde, die Transparenz
00:25:24: gebietet, also ich habe hier generative KI eingesetzt, du wusstest das, du wolltest das,
00:25:28: komm mal und so weiter. Was damit aber auch klar ist, ist, dass wir etwas abweichen von unserem
00:25:33: üblichen Modell in Agenturen, dass du von uns Nutzung und Verwertungsrechte bekommst. Was du
00:25:38: bekommst, ist meine Zeit und eine und ein digitale File und diesen File kannst du verwenden, wie
00:25:44: du willst, aber Vorsicht, nachdem es keine Urheberrechte gibt, kann das jeder andere auch und diesen
00:25:50: Hinweis würde ich durchaus auch ergänzen, sonst hast du möglicherweise Schwierigkeiten, wenn du
00:25:54: deinem Kunden was verkauft hast und der dachte, er kündst exklusiv, tatsächlich hat aber sein
00:25:58: Wettbewerber genau das gleiche Motiv aufgenommen und es auch benutzt. In der Realität würde ich
00:26:03: sagen, ist es selten so, dass du reingenerierte Inhalte hast, sondern in aller Regel jedenfalls in
00:26:09: der etwas professionelleren Kreativwirtschaft werden diese Dinge dann ja nochmal bearbeitet. Also nur
00:26:14: als Beispiel, du möchtest ein Plakat für eine Kampagne mit Journey entwerfen, dann wirst du in der
00:26:20: Regel einen ersten Entwurf mit Journey machen, dann wirst du das danach durch Magnific durchjagen
00:26:25: oder durch ein anderes Upscaling-Tool, damit die Auflösung besser ist, weil du es sonst auch
00:26:29: gar nicht vergrößern kannst in der Dimension, wie du es haben möchtest, dann wirst du anfangen mit
00:26:33: Photoshop zu arbeiten, dann wirst du das durch einen anderen Workflow durchziehen. Also sprich die
00:26:37: Wahrscheinlichkeit, dass du nur ein Tool hast und nur generative KI da zum Einsatz kommt, ist im
00:26:42: professionellen Umfeld vergleichsweise gering. Und da kommen wir dann in einen ganz spannenden
00:26:47: Bereich, nämlich ist es dann vielleicht so, je mehr ich persönlich dran rum arbeite, dass es
00:26:51: doch irgendwann eine persönliche geistige Schöpfung wird und ich vielleicht doch wirklich ein Urüberecht
00:26:55: habe. Genau, das bringt mich auch direkt zur nächsten Frage. Wie viel Arbeit muss ich reinstecken?
00:27:01: Reicht es, wenn ich dann sage, mein Prompt ist A Dog at the Beach oder muss der Prompt mindestens vier
00:27:08: Sätze lang sein? Gibt es da schon ein Gefühl, wo könnte das kippen? Oder muss ich da mindestens drei
00:27:15: Tools aufgemacht haben und es bearbeitet haben? Also total spannende Frage, es gibt letztlich noch
00:27:20: keine klare Indikation an welcher Stelle es kippt. Was es aber gibt sind erste Entscheidungen aus
00:27:26: den USA und ich sage auch gleich, warum in den USA und nicht bei uns, erste Entscheidung in den USA,
00:27:30: die die Latte extrem hoch hängen, die also letztlich sagen, in deinem Beispiel zu bleiben,
00:27:36: Picture of a Dog oder Dog at the Beach, das wird nicht funktionieren, denn das ist ja ein rein
00:27:41: zufälliges Ergebnis, bei dem die wesentlichen Elemente der KI überlassen werden. Aber auch Dog
00:27:46: at the Beach at Sunset with an Aspect Ratio of 16 to 9, ein brennweiter X, Y und Coda Kamera und was
00:27:54: man alles da noch so reinfummeln kann, Bokeh Hintergrund, keine Ahnung, du kannst ja mit Journey
00:27:58: sehr sehr präzise prompten und am Schluss dann ein doch deutlich weniger zufälliges Ergebnis
00:28:03: bekommen. Selbst Daud hat auch das US Copyright Office gesagt, nee das ist nichts, das ist immer
00:28:08: noch generiert und selbst wenn du dieses Bild nimmst und es wieder reinsteckst und sagst,
00:28:12: verändere Folgendes, verändere Folgendes, also ein reprompt auf der Basis deiner eigenen Werke
00:28:17: hast, selbst da hat das Copyright Office bei mehreren hundert Bearbeitungen gesagt,
00:28:21: nee ist immer noch KI generiert, dafür kriegste nichts und dann wird es irgendwann spannend,
00:28:27: die Frage, wenn du etwas kombinierst, also beispielsweise hat eine Künstlerin ein Comic
00:28:32: eingereicht mit eigenem Text, mit eigenem Arrangement, aber mit generierten Bildern,
00:28:37: dann hat sie ein Copyright bekommen für das Arrangement und für den Text, aber nicht für
00:28:42: die Bilder, weil das Copyright Office eben sagt, dass es immer noch generiert und die Tatsache,
00:28:46: dass du die links und rechts angeordnet hast und der und der Größe und geschnitten, das ist
00:28:50: originell, aber der Text ist, der Text ist auch originell, aber die Bilder sind nicht von dir.
00:28:54: So und ich glaube, dass wir nach und nach uns dran tasten werden an diese Frage, gibt's so was wie
00:29:00: eine General Rule, also so ein allgemeingültiges Gesetz ab wann kippt, muss es ein überwiegender
00:29:07: menschlicher Anteil sein, das ist ganz furchtbar schwer zu definieren. Es gibt da entsprechende
00:29:12: Entscheidungen, die das auch schon aufgegriffen haben, zum Beispiel in China und ich meine,
00:29:16: gerade kürzlich kam eine aus Prag, auch bei der an einer bestimmten Stelle ein Copyright
00:29:22: tatsächlich entstehen kann durch ein besonders sophisticated Prompt, durch eine Überarbeitung
Neuer Kommentar