Das 11-Milliarden-Voice-Imperium aus Europa – Gordian Braun, Head of Growth Europe bei ElevenLabs

Shownotes

11 Milliarden Dollar Bewertung, über 500 Mio. ARR, genutzt von einem Großteil der Fortune 500 – und das aus Europa, nicht aus dem Silicon Valley. ElevenLabs ist eines der heißesten KI-Unternehmen des Kontinents, und kaum jemand weiß, dass es europäisch ist.

Gordian Braun verantwortet dort Growth für über 50 Länder. Mit Jens redet er über den Aufstieg vom Stimmen-Klon zur Voice-Plattform, warum alle ElevenLabs für eine US-Firma halten, und wie man mit fast 500 Leuten und keinem einzigen Jobtitel so schnell wächst.

Dazu der Blick nach vorn: Warum Sprache gerade die Tastatur als Input-Gerät ablöst – und was das für Kundenservice, Websites und unseren Alltag bedeutet.

Gast: Gordian Braun, Head of Growth Europe bei ElevenLabs

Transkript anzeigen

00:00:00: Moin und willkommen zu einer neuen Folge des New Mines AI Podcast.

00:00:04: Heute habe ich einen richtig, richtig coolen Gast mit dabei und zwar Gordy von Eleven Labs.

00:00:09: Und falls die Eleven Labs nicht sagt das ist glaube ich eines der größten uns heißesten AI Unternehmen Die wir gerade in Europa haben.

00:00:17: elf mehr an dollar Bewertung über fünfhundert Millionen ARR um knapp seventy-fünf Prozent der Fortune Five Handelt nutzt das Tool und die Plattform und das ganze aus europa nicht aus den USA.

00:00:29: Mega, mega cool!

00:00:30: Und Gordy macht dort Gros für über fünfzig Länder.

00:00:33: trotz fast fünfhundert Mitarbeitende hat Elevenlaps übrigens kein einzigen Titel.

00:00:37: alle arbeiten gleichberechtigt am Wachstub mit und in dieser Folge reden wir darüber warum Voice die Tastatur ablöst und wie das ganze technologisch eigentlich funktioniert, von Text to Speech über Turn-Taking bis zu Latents im Millisekundenbereich.

00:00:51: Plus wo wir mit Voice Adaption in Europa wirklich stehen und wohin das vielleicht in den nächsten Jahren so führen wird.

00:00:58: also viel viel Spaß mit der Folge.

00:01:00: mit Gordy war mega cool.

00:01:02: unbedingt bis zum Ende hören und los geht's!

00:01:17: Ja moin Gordi, schön dass du am Start bist.

00:01:19: Schön das wir jetzt Zeit haben über KI, Voice, Eleven Labs und alles drumherum noch zu quatschen.

00:01:24: Danke, dass du hier bist.

00:01:25: Moin Jens ich freue mich dabei zu sein!

00:01:27: Cool.

00:01:29: Du machst ja, finde ich eine sehr spannende Rolle bei Eleven Labs.

00:01:33: Wir sprechen vielleicht über wer und was Eleven Labs ist, was auch deine Rolle einnimmt.

00:01:37: aber erst mal zu dir wenn du deiner Familie erklären musst was du eigentlich machst ... und womit du Geld verdienst.

00:01:46: Wie erklärst du es eigentlich den Leuten, die dich vielleicht auch jetzt nicht kennen?

00:01:50: Super gute Frage!

00:01:51: Also ich glaube... ... womit wir noch nichts im Markt sind ist zu sagen ich arbeite einfach für Eleven Labs,... ... weil viele Leute die Brand zur einen Seite gar nicht kennen und zum anderen auch nicht wirklich wissen würden was genau denn die Eleven Labs das eigentlich macht.

00:02:05: Ich versuche mal zu beschreiben wenn's ganz kurz sein muss.

00:02:08: ich arbeide für eine der führenden AI-Companies Europas Und wenn es ein bisschen länger sein muss, dann versuche ich immer zu erklären das ja die Artenweise wie wir aufgewachsen sind.

00:02:18: Dass Input immer Tastatur oder Text basiert sein muss eigentlich nicht die natürlichste Art und Weise ist und dass sich für das Unternehmen arbeite was das endet nämlich via Input eine natürliche Weise herzustellen meistens über Sprache und wir somit nicht mehr gezwungen sind für Computer zu arbeiten sondern Computer für uns arbeiten können.

00:02:39: Und dieses Unternehmen wiederum heißt Eleven Labs und ist eines der führenden AI-Unternehmen Europas.

00:02:45: Boah, das ist schön!

00:02:46: Ich habe in einer meiner Vorträge auch so was drin, wo ich genau sage Tastatur und Maus ist ja nichts natürliches, es ist ja nicht Gott gegeben.

00:02:54: oder in der Steinschaft schon da ist einfach nur weil Voice nicht funktioniert von der Mega Cool dass ihr das nach vorne treibt.

00:03:01: Ich find das auch krass, also ich bin jetzt nächsten Dienstag auf einer großen Veranstaltung in Berlin.

00:03:05: Vor zweitausend Leuten werde ich deine Rede halten und ich hab lange überlegt wie fange ich das denn eigentlich an?

00:03:10: Denn sonst fängst du ja öfter mit an ... Ja, du kannst Kundensupport automatisieren oder du kannst irgendeine Voice Clone oder sonst irgendwas... Und da habe ich tatsächlich damit angefangen, also wir bekoorden das jetzt fünf Tage davor dass ich erstmal so eine Schreibmaschine auf dem Bild gepackt hab ... dann diesen alten Desktop-Computer der neunziger Jahre und den modernen Laptop.

00:03:29: Und alle von denen haben gemeinsam, dass das Kerninputinstrument die Tastatur ist... ...und wir jetzt zum ersten Mal in so einer Zeit sind wo eben diese Tastatur so in dem Maße wahrscheinlich nicht mehr gebraucht werden wird in der Zukunft.

00:03:43: Das ist schon geil!

00:03:44: Aber da schwächt mir leider auf jeden Fall eine Masse.

00:03:46: Was machst du denn eigentlich bei LEMLIS?

00:03:48: Weil ihr seid ja mittlerweile ein paar mehr Leute.

00:03:50: Das heißt auch wahrscheinlich verschiedene Rollen, was ist denn so dein Job Tag einen Tag aus?

00:03:54: und wie sieht dieser Job so aus?

00:03:56: Ja also wir sind momentan knapp vierhundert, vierhundfünfzig Leute.

00:04:00: Was relativ lean ist, denn wir haben über fünfhundert Millionen Euro oder Dollar wiederkehrende Umsatz mittlerweile.

00:04:07: Sind sehr schnell wachsend!

00:04:10: Und was diese Vierhundertfünfzig Leute machen... quasi ein Drittel ungefähr Sales, einen Drittel macht bei uns Research.

00:04:17: Das heißt wir sind ja Modell-Provider die entweder tatsächlich diese ganzen Voice-Modelle und dann ein Dritte macht alles andere Operations, Finance, Strategie, Growth usw.

00:04:27: Und meine Rolle ist eben growth das heißt dafür zu sorgen dass meine Märkte es sind vor allem die europäischen afrikanischen Mittel-Eastermärkte dass die wachsen und dass sie eben richtig aufgestellt sind.

00:04:41: Was heißt das jetzt im Konkreten?

00:04:42: So ein bisschen Mutter für alles.

00:04:45: Von Kampagnenplanung über Performance-Marketing Sachen, über Zahlen angucken, Events organisieren, orchestrieren, analysieren und gucken eben, dass das Team in die richtige Richtung nennt.

00:04:57: Okay, spannend!

00:04:58: Ich meine da mit so einem schnell wachsen Unternehmen unsere vier Märkten, unsere vier Demand ist ja glaube ich denen die Großrolle total spannend.

00:05:07: Was ist denn aktuell so... ... für dich der spannende Bereich in deiner Rolle.

00:05:13: Einfach Neumärkte zu erschließen oder auch wirklich in Märkten... ...führen zu werden, wo hast du gerade aktuell am meisten Spaß?

00:05:20: Ja bei Beiben!

00:05:21: Also ich glaube, ich bin ja erst ungefähr einen Jahr dabei und vor einem Jahr war es so dass wir grade was den Deutschsprachigen mag das sollte mein Hauptmarkt sein.

00:05:29: Dass wir hier quasi bei Nullen waren.

00:05:31: Wir hatten teilweise auch Konkurrenten in diesem Markt, die spezifisch für den deutschen Markt gedacht waren und so weiter.

00:05:37: Und da war die große Herausforderung wie launch du so einen Markt von null auf hundert?

00:05:41: Und jetzt nach einem Jahr – ich glaube das habe mich auch sehr stolz drauf – können wir sagen dass wir einer der schnellsten wachsenden Märkte überhaupt sind nicht nur in Europa aber weltweit!

00:05:52: Was ich jetzt natürlich versuche ist für alle meine anderen Märkte, da gibt es ja noch mehr als dreißig andere Länder in Europa, für die man das auch anrunden könnte, die entsprechend genauso zu skalieren.

00:06:02: So, das stelle ich natürlich jetzt fest.

00:06:03: Nur weil es in Deutschland funktioniert hat heißt das nicht notwendigerweise dass das auch in, weiß ich nicht, Rumänien oder so funktioniert.

00:06:11: Das heißt was sehr Spaß macht ist jetzt versuchen das was man schon einmal geschafft hat für all die anderen Kernmärkte zu replizieren aber eben der lokalen Gegebenheit anzupassen oder das lokalene Mindset auch und ich habe gerade Rumänian erwähnt.

00:06:30: Wir brauchen nicht weit gucken, unsere Nachbarn in Frankreich ticken komplett anders als wir Deutschen das zuten.

00:06:34: Die Leute in UK und Ireland ticken nochmal komplett anders.

00:06:38: Und so ist das wahnsinnig spannend denn mein westlichster Markt ist ja irgendwo in Südamerika wahrscheinlich Peru oder so was?

00:06:48: Oder Chile.

00:06:50: Und mein östlichster Markt ist ganz im Mittel East irgendwo Richtung Dubai und deswegen... Du hast so viele kulturelle Unterschiede, die ja gerade so glaube ich mein Hauptaugenmerk sind in meinem Alltag.

00:07:01: Das heißt ja nicht nur den Unterschied zu den USA wo ihr schon einfach nochmal eine andere Platzierung habt sondern auch in den Ländern einfach so krass unterscheiden.

00:07:11: Hast du ein paar Beispiele?

00:07:12: Also vielleicht auch grade man USA hat es irgendwie vorgelebt Man guckt sich natürlich auch mal Sachen ab sagt irgendwie das hat vielleicht da funktioniert.

00:07:19: Was sind Dinge die vielleicht hier überhaupt nicht funktionieren?

00:07:21: Die da funktioniert halt wieder andersrum.

00:07:23: was sind so kulturell Unterschiede?

00:07:24: ... bei vielleicht eine Adaption von Technologie, was

00:07:27: er macht.

00:07:28: Ja ich glaube also ich habe selber vier Jahre lang in den USA gelebt... ... auch studiert und auch da ein Unternehmen gegründet.

00:07:33: Also ich glaube gibt schon viel was man da aus den USA lernen kann aber definitiv so viele Unterschiede.

00:07:39: Und ich glaube eines der ganz großen Unterschiede ist die Leute in den USA machen sehr schnell Entscheidungen... ...und springen schnell auf das neueste modernste Schiff was wir momentan sind….

00:07:50: …und implementieren das dann auch schnell!

00:07:52: Wir in Deutschland oder generell in Europa sind sehr viel bedachter.

00:07:55: Wir nehmen uns Zeit, wir haben sehr viele Compliance und Security Questions... ...und wir wollen erst mal wissen ist das denn auch wirklich so gut wie die tun?

00:08:03: Wir testen meistens erstmal in einem kleinen Ausmaß und wenn wir dann überzeugt sind dann springen wir voll drauf an!

00:08:09: Und ich würde sagen dass es so der größte Unterschied.

00:08:13: aber jetzt um konkrete Beispiele zu nennen Es ist schon so, dass Lokalisierung also die sprachliche Lokalisierung von Content und von all dem was wir machen in growth ein sehr großes Augenmerk erfährt in Europa.

00:08:26: Also zum Beispiel... Wir werden in Europa regelmäßig als AI Company aus dem Silicon Valley wahrgenommen.

00:08:34: Jetzt ist das ironisch weil wir europäische sind!

00:08:36: Wir haben zwei polnische Gründer die das Unternehmen zwischen Polen und UK gegründet haben.

00:08:41: unser größtes Office ist in London.

00:08:42: Wir haben wahnsinnig viele Mitarbeiter über ganz Europa verteilt.

00:08:47: Aber woran liegt das?

00:08:48: Das liegt wahrscheinlich daran, dass wir in Europa mittlerweile so ein Mindset haben.

00:08:51: Dass wir denken alles was irgendwie groß ist und schnell wächst muss notwendigerweise irgendwo aus Amerika kommen.

00:08:56: Das heißt Hauptummerk was wir immer versuchen zu klarzumachen ist... ...das hier ist ein europäisches Powerhouse!

00:09:05: Und wir sollten auch als solches gesehen werden.

00:09:10: Zweite Sache ist dann natürlich die lokale Gegebenheit.

00:09:14: In Amerika tendiert man ganz oft dazu, punchy Headlines zu machen.

00:09:17: Möglichst präzisen knappen Texts zu sagen meistens in dieser Stimmung wir sind die besten für das und dass ihr müsst es jetzt nutzen.

00:09:24: Das reicht in der Regel aus einfach gesagt um das Produkt zu benutzen.

00:09:29: bei uns ein bisschen anders also.

00:09:31: wir versuchen sehr viel konservativer und bescheidener aufzutreten im europäischen Markt nicht zu sagen Wir sind die Besten sondern wir überzeugen durch das Produkt was wir haben.

00:09:39: probiert es aus.

00:09:42: Wir sind uns sicher, ihr werdet das nicht bereuen und ihr werde damit wachsen wollen.

00:09:45: Und... Das wiederum ist zertifiziert!

00:09:48: Dann kommen dann die ganzen Zertifizierungen rein für diesdiesdiesdiesdiss von Healthcare to Banking Ich weiß nicht was?

00:09:55: ...und auf europäischen Servern.

00:09:56: Damit könnt Ihr euch sicher sein dass eure Kundendaten sicher sind Dass wenn Ihr wollt niemals irgendwie wir nennen das Zero Retention Mode Kunden-Daten bei Euch oder bei uns gespeichert werden und dass Ihr eben sicher mit Voiceagenten oder Voice-Technologie agieren könnt.

00:10:12: Ich finde es aber auch total spannend, den Punkt, den du mal angesprochen hast mit der Herkunft.

00:10:17: Ich habe glaube ich in den Jahren, mit denen ich jetzt irgendwie auch mit den RevLabs arbeite... Immer mal wieder, glaube ich, geguckt sind die wirklich in Europa?

00:10:24: Weil es im Kopf gespeitert hatte.

00:10:26: Aber allein schon weil du sagtest diese diese Grossmentalität Neustart Technologie Geschwindigkeit Wachstum und so weiter Denkst du leider leider muss man ja sagen nicht an europäisches Unternehmen.

00:10:38: Von daher glaube ich auch ganz cool dass nochmal vielleicht auch durch eine Rolle wie von dir in die Köpfe zu bügeln So hey das ist ein europäisches unternehmen mega cool.

00:10:50: jetzt Arbeitet ihr mit extrem vielen auch unterschiedlichen Unternehmen, wenn man dann so an Voice denkt und wir gehen gleich nochmal ein bisschen auf die Leibniz auch ein.

00:10:59: Aber was für Unternehmen sprechen denn mit euch?

00:11:03: Mit dem man nicht so rechnet?

00:11:05: weil wenn man an Voice denken natürlich erstmal an Call Center als Klassiker.

00:11:11: aber seit ihr mittlerweile so breit aufgestellt hast eigentlich sagt überall spielt Voice eine Rolle?

00:11:18: Kurze Antwort ja!

00:11:20: Aber vielleicht müssen wir das noch mal ein bisschen von hinten aufrollen.

00:11:23: Wir sind ja ursprünglich damit gestartet, dass man bei uns die allerbesten Stimmen bekommen konnte.

00:11:28: Das heißt, man hat weiß ich nicht auf chinesisch oder japanisch oder auch auf deutsch eine Stimme gesucht und wollte damit irgendwas einsprechen.

00:11:36: Und das nennt man Text to Speech.

00:11:39: Damit waren wir sehr schnell vor zwei drei Jahren Marktführer und hatten einfach superrealistische Stimmen.

00:11:45: Mittlerweile, und man muss sich vorstellen das ist ähnlich wie einen LLM also man baut Modelle.

00:11:50: Und unterschiedliche Modelle können unterschiedliche Sachen mit Stimmen machen.

00:11:54: So mittlerweile haben wir aber nicht nur ein Text-to-Speech-Modell sondern auch ein Speech-To-Speach-Model, ein AI Dubbingmodell, Voice Cloning, Soundeffekte Musik keine Ahnung Voice Isolator, Agentenplattform die kompletten wie du gerade gesagt hast Kunden Support zum Beispiel abdecken können.

00:12:10: Speech-to-Text, also Transcription von Sachen und so weiter und sofort.

00:12:13: Das heißt wir sind quasi der übergeordnete Modellanbieter von allen führenden Voice-und Sprachmodellen.

00:12:21: So da kommen wir jetzt erstmal her.

00:12:23: das heißt wenn du erst mal mit diesem Text to Speech Hintergrund startest dann hast du natürlich erstmal einen großen Footprint irgendwo in der Creative Economy.

00:12:32: Das können jetzt Podcasts wie du sein oder... Startup Guys wie du oder Agenturen und so weiter, die damit dann ihre Werbetexte erstellen.

00:12:42: Oder irgendwelche Dub Overs machen oder Voice Overs oder so.

00:12:47: Und dann sind wir halt mit diesen Modellen weitergewachsen.

00:12:49: Und mittlerweile muss man sagen knapp seventy-fünf Prozent aller Fortune Five Hundred Unternehmen benutzen uns.

00:12:55: also das sind alle größte Unternehmen in Amerika.

00:12:57: benutzen us in irgendeiner Weise ja.

00:13:00: und wenn wir jetzt Richtung des deutschen Marktes gucken Unternehmen von FreeNet bis Revolut über die deutsche Telekom, die damit allerlei Use Cases bedienen.

00:13:11: Bei der deutschen Telekom zum Beispiel?

00:13:13: Da haben wir ganz klein angefangen mit einem Use Case wo man ein Grunde genommen seinen eigenen Podcast kreieren konnte in der My Magenta App und haben dann super schnell festgestellt dass das ja für viel mehr taugt.

00:13:25: und mittlerweile sind In der Influentierung aber auch schon teilweise live des Kunden-Supports der deutschen Telekom.

00:13:31: Wir werden Live Translations machen innerhalb der Phone Line, wenn du mit jemandem redest bei der Deutschen Telekom Du wirst so einen Magenta Agenten bekommen.

00:13:39: also ähnlich ist wie Siri nur viel besser weil modernere AI und so kommt die Telekom zum Beispiel auch intern auf immer mehr Ideen was damit machbar ist.

00:13:49: wir hatten jetzt Auf teilweise auch auf Messen, dann Gespräche.

00:13:53: Wenn es darum geht zum Beispiel wie können wir Absells machen?

00:13:55: Was ist wenn du deinen Vertrag kündigst?

00:13:57: Können wir irgendwelche Recovery Calls machen?

00:13:59: oder wenn wir eine Outage haben, eine Störung, können wir dich proaktiv anrufen für diese Störung und ihr mitteilen hey da is jetzt ne Störung keine Sorge in zwanzig Minuten ist das wieder gelöst.

00:14:09: quasi dass wir wegschiften von reaktiven Kundendialog zu proaktiver Kundenförderung.

00:14:18: Ja das ist geil.

00:14:19: ich glaube Wie du sagst, wenn man erst mal damit gestartet ist, dann ploppen dann plötzlich auch Ideen auf.

00:14:24: Wo man sagt, da war Sprache oder Speech-Usage immer irgendwie so ein Bottleneck weil ... irgendwer konnte halt nicht gerade an den Hörer gehen und Leute anrufen und sagen hallo übrigens, da ist die Störung da!

00:14:34: Genau und da sind wir wieder bei diesem Ding mit der Tastatur wo wir eben angefangen haben.

00:14:38: ne?

00:14:38: Wir tendieren als Menschen immer dazu zu denken okay wie können wir was besser machen was wir schon haben?

00:14:43: aber wenn wir jetzt mal ganz radikal denken und sagen es gibt jetzt keine Tastatum mehr Und du kannst dich deswegen keine Formulare mehr auffüllen oder keine Chatbots mehr ausfüllen.

00:14:52: Wie würde denn dann die Welt aussehen?

00:14:54: und wie müsste dann unsere UI und Orchestrierung aussehen?

00:14:59: Das ist eigentlich das Ziel, dass wir das alles mit Eleven Labs abbilden.

00:15:04: Wo stehen wir da gerade?

00:15:05: weil ich bin auch selber haben ja auch schon mal darüber gesprochen ein großer Fan von Voice to Text auch am Rechner vielmals mit VoiceInput ist einfach geiler in vielen Bereichen aus vielen Gründen.

00:15:18: Aber wenn man mal so jetzt überlegen würde, wir nehmen jetzt nicht das Naturwerk komplett und Maus auch.

00:15:25: Wo stehen wir denn da gerade?

00:15:27: Ganz ganz am Anfang.

00:15:29: Ja also auch bei den jetzt fortführenden oder moderneren Märkten wie in Amerika wo wir ein bisschen schneller unterwegs sind.

00:15:36: Wir sind ganz ganz am Anfang.

00:15:37: Also wo man, wo einem das glaube ich sehr bewusst wird ist dass wir jetzt gerade erst unser Hauptuse Case ist nach wie vor Kunden Support.

00:15:45: Also stell dir eine Airline vor oder einen Amazon oder sowas in der Zukunft.

00:15:50: Das ist ja immer noch nicht der Status quo, das wird sich in den nächsten Jahren im Status quo entwickeln dass du da anrufst oder sogar proaktiv angerufen wirst wenn irgendwas mit deiner Order nicht stimmt oder du irgendwelche Probleme hast.

00:16:01: und ich nenne dir mal ein Beispiel Ich war vor drei Wochen war ich in London in unserem Büro Und bin mal wieder – das passiert mir erstaunlich oft – in Heathrow hängen geblieben Und mit dieser Airline, es war leider eine deutsche Airline.

00:16:15: Mit denen wir sogar in Kontakt waren ob wir das nicht mal angehen sollten.

00:16:21: Hier war ich dann die erste Stunde lang in der Warteschlange.

00:16:24: Die hatten sogar so ne Art iPhone-Bot.

00:16:27: Der war aber wahnsinnig schlecht umgesetzt und hat mir eigentlich nur mein Recht und sowas vorgelesen anstatt auf das einzugehen was ich möchte.

00:16:34: Anyway, ich habe dann irgendwann nach einer Stunde in den Support und der Support hat dann aufgelegt.

00:16:38: Nach zehn Minuten.

00:16:39: Warum auch immer?

00:16:40: Vielleicht ist die Leitung unterbrochen, wir sind ja eigentlich nicht nett des Support-Mitarbeiter.

00:16:43: aber erst mal ich möchte keine Stunde warten.

00:16:45: und zweitens ich will das... dass ich entweder zurückgerufen werde oder dass mir erst gar nicht aufgelegt wird.

00:16:50: so und dann war ich nochmal eine Stunde in der Warteschleife um immer noch keine Lösung zu haben und währenddessen stand ich parallel am Flughafen vier Stunden in der Schlange um ne Lösung zu bekommen.

00:17:01: Dann denke ich mehr.

00:17:02: Wir sind erst dann am Anfang durch, wenn wir solche Use Cases, die ja wirklich Standard sind über AI abwickeln können.

00:17:09: Und ich höre auch viele Bedenken, die dann sagen, ich will nicht mit einem AI-Menschen reden oder sowas.

00:17:13: Aber wir sollten uns auch beim Bewusstwerden das Ding ist nicht schwarz und weiß.

00:17:17: Wenn die AI nicht weiter weiß kann sie sich jederzeit zu den qualifizierten Menschen vermitteln oder verbinden... ...und der kann dir umso besser weiterhelfen weil er nicht den Zeitdruck hat all diese Fälle abzuwickeln, die so standard für denen sind dass du eine Stunde in der Warteschlange hängst.

00:17:31: Und ich glaube, um die Frage jetzt noch mal konkreter zu beantworten ganz am Anfang ... denn wir haben noch nicht einmal den Support-Use-Case abgedeckt.

00:17:38: Wenn wir jetzt drüber nachdenken sollte die Navigation auf Amazon so aussehen oder auf a Zalando wie sie aussieht dann wenn du das Tastatur-Layout weg denkst dann natürlich nicht und da habe ich noch gar nichts live gesehen in die Richtung.

00:17:50: Wir haben die ersten Demos wo wir vielen Retailern über genau solche Cases reden und wir entwickeln es ganz langsam.

00:17:56: da Israel

00:17:57: Aber wo er liegt sind?

00:18:00: Ja, ich glaube auf der einen Seite Gewohnheit.

00:18:02: Und natürlich sind auch Firmen an sich immer ein bisschen... Naja, darauf bedacht auch das was funktioniert eben weiter skaliert wird und nicht unbedingt alles komplett über Bord zu werfen sondern sich da langsam reinzuentwickeln.

00:18:15: Ich glaube es ist halt auch so eine Phase wo wir als Kunden merken müssen okay das ist tatsächlich viel besser als oft mit der menschlichen Alternative zu sprechen.

00:18:24: wenn wir dann an die dran kommen Und solange wir nicht so eine Mass-Adoption davon haben, dass wir sagen wirklich sehr groß Teil der Menschen findet das auch gut und besser.

00:18:34: Ich glaube erst dann wenn wir an diesem Punkt sind werden wir das auch flächendeckend auf alles ausrollen.

00:18:39: Merkt ihr denn, dass sich die Wahrnehmung, Adaption oder Akzeptanz von sozusagen computerstimmen ... schon auch entwickelt, dass man da eine größere Akzeptanz für hat.

00:18:54: Auch wenn sie vielleicht noch nicht perfekt ist und immer noch ein komisches Gefühl mit sich bringt?

00:19:00: Also was oft passiert ist... Ich bin oft in Konversationen wo die Leute sagen, ich hätte jetzt keine Lust mit einer AI zu reden oder irgendwas in die Richtung.

00:19:09: Und woher kommt das?

00:19:10: Das rührt ja oft dafür, dass wir, weiß ich nicht, einen Siri oder einen Alexa oder sowas im... Kopf haben und wir wissen eigentlich konnte das gar nix.

00:19:19: Jetzt muss man aber dazusagen mittlerweile kann so ein Ei Einiges, wahrscheinlich sogar viel mehr als wir das als ausgebildete Menschen machen könnten.

00:19:29: Und deswegen ist die Erfahrung oft am Anfang bevor man mit sowas interagiert hat.

00:19:34: ich bin ein bisschen Skepsis Aber danach sehr viel zufriedener Und das sehen wir auch bei unseren Kunden.

00:19:43: Also wenn wir da reingehen und gucken uns die Kunden zur Friedenheit nach diesen AI-Transaktionen an, dann sind sie extrem hoch zu Friedenheitswerte.

00:19:52: Mhm.

00:19:53: Und

00:19:53: um die Frage auch zu wandern höher als mit der Alternative, die es davor gab.

00:19:57: Jetzt möchte ich noch mal ausdrücklich sagen, dass es nicht an den Menschen, die das schlecht gemacht haben sondern an dem Weg zu den Menschen um mit denen zu reden also der Wartezeit oft

00:20:09: Ja Ich glaube, wahrscheinlich hat auch so ein bisschen die Erwartungsfahrt immer noch eine Rolle gespielt.

00:20:13: Die man hatte an so Alexa und dann so in Siri... Man hatte ja irgendwie dann so die Erwaltung, jetzt ist es da!

00:20:18: Jetzt ist hier Voice endlich da und ich kann alles nur noch mit Stimme machen bei diesem kleinen Gerät.

00:20:24: Und dann wurde man auf dem Boden der Tatsache zurückgerollt weil vielleicht die Modelle noch nicht zu weit waren.

00:20:28: und Integration und Technologie damals.

00:20:30: Genau.

00:20:34: Wenn man jetzt an Eleven Labs denkt und du hast ja gerade auch schon gesagt, ihr seid da mehr als... Ich hab euch damals kennengelernt als, ach cool ich habe eine Stimbe-Klonen.

00:20:41: Lustig lustig Und erschreckend gut.

00:20:45: Damals auch schon relativ früh auch in Deutsch.

00:20:47: Das war auch überraschend gut.

00:20:50: Ihr seid ja mittlerweile eher in der Plattform Ihr habt ja auch Creative Parts, sag ich mal mit drin Mit Videogenerierung etc.

00:20:57: Doktor noch Drittanbieter an etc.

00:20:59: Was ist denn so?

00:21:00: Du sagst wenn ... die Human Friction und Trust irgendwie keine Rolle spielt.

00:21:05: Was kann man damit euch, als krassesten Use-Case mit Voice abdecken, wo du sagst das ist die Zukunft?

00:21:11: Das ist jetzt schon möglich.

00:21:12: wenn du alle männlichen... ...und regulatorischen Dinge erst mal außen vorlassen würdest.

00:21:18: Dann würde ich sagen dann kannst du damit abdecknen dass jede Firma oder jedes Unternehmen einen persönlichen Assistenten hat der dir von bei allem quasi weiterhelfen kann.

00:21:29: Also ich, das Krasseste was mir jetzt zum Beispiel in den Kopf kommt ist wenn ich das deutsche Government anrufen könnte und sagen könnte Ich möchte ein Unternehmen gründen oder ich will meine Steuernummer abgeben Oder ich will wissen wo meine Steuererklärung gerade hängt oder sowas.

00:21:43: also im Grunde genommen könnte man sämtliche Prozesse bürokratische oder unbürokrate prozesse abdecken Und einem multimodal damit weiter helfen Dinge zu verstehen einzureichen, zu treten und so weiter und sofort.

00:22:01: Und wir haben... Ich finde das ist einer der sehr krassen Use Cases mit dem ukrainischen Government eine Partnerschaft wo du solche Sachen tatsächlich auch machen kannst.

00:22:09: Jetzt wissen wir natürlich auch die momentan eine schwierige Zeit und es gibt besondere Hintergründe warum das besonders dort Sinn machen würde.

00:22:17: aber es ist natürlich toll wenn du jetzt einfach gesagt aus einem Kriegsgebiet deinen Unternehmen ausgründen könntest oder auch deine Steuer Erklärungen abgeben könntest oder so und das alles in dem du.

00:22:29: Ein persönlichen Assistenten hast der dir was?

00:22:34: Krass, ja ich glaube da hatte ich wurde es auch schon drei viermal anrufen von den Bois Assistant.

00:22:40: Habt ihr noch mal nach dem System prompt gefragt dann wird immer aufgelegt leider.

00:22:45: Die war aber auf dich sehr gut muss er sagen.

00:22:48: Lassen Sie uns ein bisschen über Wachstum bei euch sprechen wie... Wie sehr siehst du auch in deiner Rolle als Vorteil, dass ihr nicht nur coole Prozesse bauen können.

00:23:03: Agent Platform Hub

00:23:04: etc.,

00:23:05: sondern auch den Fakt das ihr ein Großteil Research habt.

00:23:08: Das ihr eigene Modelle habt weil mittlerweile gibt es ja ganz viele Plattformen die irgendwie Modellanbieter aggregieren.

00:23:14: wie ist das?

00:23:15: Habt ihr da noch einen Vorteil?

00:23:16: Ist das aktuell noch oder?

00:23:18: Ja riesiger!

00:23:19: Also ich glaube, wenn du aus diesem Research-Hintergrund kommst, dann verstehst du erst mal die ganzen Nurrassen hinter diesen Modellen.

00:23:24: Du verstehst audiativ ... Wenn du diese Wellenform dir vorstellst und sagst da wie verhält sich was?

00:23:30: Wie gehören diese Sachen zusammen?

00:23:32: Und am Grund genommen, am Schluss brauchst du diese Modelle um ... Minimale Latency herzustellen.

00:23:40: also Latency heißt quasi, wie lange brauchst Du von Eingabe bis Ausgabe oder von Input bis Antwort?

00:23:48: Je kürzer dieser Latency, desto natürlicher die AI am Schluss.

00:23:53: Und wir wissen das dadurch dass wir Zugriff auf diese Modelle haben... ...wir diese Latency auf das Minimalste verringern können.

00:24:01: Jetzt gibt es viele Anbieter die unsere Modelle nutzen für eine oder andere Sache.

00:24:08: aber es kommt nie so gut zusammen wenn du API-Schnittstellen zusammenführst.

00:24:13: im Vergleich zu Du hast die volle Plattform und kannst bei dir alles abbilden Du kreierst die Modelle und das führt eben zu einer wahnsinnig niedrigen Latenz, die einfach die Erfahrung am Schluss besser macht.

00:24:25: Das heißt um die Frage auch zu beantworten wir werden immer eine Research Company bleiben und was halt jetzt gerade passiert ist dass wir halt diese Produkt-Layer oben drauf schrauben weil wir eben wahnsinnige viel Feedback aus dem Markt von allen möglichen Directions also Richtungen bekommen um eben solche guten Application Layer da oben draufzusetzen.

00:24:45: Mir ist spannend, ich glaube auch total wichtig dass ihr einfach dann einen anderen Hebel habt um merkt auch bedienen zu können und anfragen.

00:24:51: Du hast gerade Latents angerissen.

00:24:54: also wir wollen nicht warten irgendwie in die Minute bis wir irgendeine KI Antwort bekommen.

00:25:00: zwei Fragen die mir direkt eingefallen sind.

00:25:04: auf der einen Seite stelle ich mal mit den ersten was für Faktoren spielen denn eine Rolle wenn man mit KI Sprachmodellen interagiert.

00:25:13: das gerade gesagt.

00:25:14: Wartezeit, will man verringern.

00:25:17: Gibt es noch andere Punkte wo man sagt das macht das Ganze vielleicht auch nutzbarer oder natürliche?

00:25:25: Ja also ich glaube die Kombination der einzelnen Modelle unter sich.

00:25:28: Also es gibt vielleicht um auch mal die Hörer so ein bisschen abzurollen Es gibt momentan zwei Trends.

00:25:34: Das eine ist du nutzt ganz viele verschiedene Modelle Die benötigt werden um eine Konversation abzubilden.

00:25:40: Ich nenne jetzt mal wir reden gerade miteinander Ja, Synchronisierung oder Konversation.

00:25:48: Das heißt wir müssen zum einen ein Modell haben was versteht wann du redest wenn ich rede aber wir uns unterbrechen so model eins.

00:25:54: auf der anderen Seite Wir reden mit Computern.

00:25:56: das heißt wir müssten unsere Sprache in digitales verwandeln.

00:25:59: das ist Text zu speech to text.

00:26:02: So dann müssen wir das verarbeiten können.

00:26:04: da sind irgendwelche LLM's dahinter.

00:26:06: Dann müssen wir gucken dass wir im idealfall hinterrund Geräusche und so weiter rausfiltern könnten.

00:26:11: Neues Reduction Technologie.

00:26:13: Und so kommen eben wahnsinnig viele Modelle zusammen und die kann man unterschiedlich zusammen kombinieren, um das mögst bestliche beste Ergebnis zu generieren.

00:26:25: Wenn wir zum Beispiel bei dem LLM anfangen ein LLm es kann mittlerweile sehr sehr powerful sein aber auch sehr sehr dumm je nachdem welches llm du wählst und nicht jeder use case braucht das komplexeste ll m Und je komplexer das LLM, dass du in diese Kette integrierst, desto länger die Latency und die Wartezeit.

00:26:44: Das heißt wir versuchen auf der einen Seite unseren User möglichst einfach verständlich zu machen für welchen Use Case sie welches LLm denn auch benutzen sollten... ...und auf der anderen Seite genau das Gleiche mit unseren eigenen Modellen zu machen.

00:26:55: Wir haben zum Beispiel Real-Time-Modelle, die sind so schnell,... ...dass Sie einfach blitzschnell transcribing können und eben diese zwei Wegekommunikation ermöglichen können.

00:27:04: Aber vielleicht hast Du ein Business wo Dir Gefühl und Empathie und Emotionen besonders wichtig ist.

00:27:11: Und die brauchen dann eben ein bisschen länger, um auch festzustellen ... Ist der gerade sauer oder traurig oder so was?

00:27:17: Um sich in dich einzufühlen.

00:27:19: Zum Beispiel bei einer Hotline von einer Flughotline, wenn man eine Stunde wartet!

00:27:22: Genau.

00:27:23: Aber da ist es zum Beispiel so, dass du das dann wiederum in Subagentenorchestierst.

00:27:26: Das heißt, du hast den ersten Agenten... ...das ist quasi der, der dich empfängt.

00:27:29: Der ist wahrscheinlich erst mal auf Speed getrimmt.

00:27:31: Da sagt er, hi ich bin Gordi, willkommen bei Gordie Airlines!

00:27:34: Wie kann ich dir helfen Jens?

00:27:35: Und du sagst, ich bin richtig abgefuckt und mein Flug ist ausgefallen.

00:27:39: Dann gibt das weiter ohne dass du es merkst auf den Sub-Agenten II,... ...der jetzt aber ein anderes Modell benutzt nämlich das Einfühlsame und dann sagt oh Jens ey.... Sorry, das tut mir leid.

00:27:50: Ich hab gerade gesehen, dass ist ja schon mal passiert vor zwei

00:27:52: Wochen.".

00:27:53: Ey, das ist echt nicht unser Anspruch!

00:27:55: Was können wir denn tun?

00:27:57: Handelt es sich um den Flug?

00:27:58: und dann sagst du, ey, ist ja cool, dass ihr so reagiert.

00:28:01: Ja, es handelt sich um dem Flug von Hamburg nach München.

00:28:04: So, und dann gibt er wieder weiter an der nächsten, der weiß.

00:28:06: okay jetzt geht's um diesen Flug und ich muss ein bisschen konkreter denken was könnte jetzt der Alternativflug sein für den Flug von Hamburg Nach München, sodass der im Idealfall nicht arg viel verspätet dort ankommt?

00:28:16: Und so orchestrierst du das eben durch, dass du unterschiedliche Modelle zu unterschiedlichsten Szenarien zusammen kombinierst.

00:28:25: So funktioniert es dann mit diesen Modellen und so machst du immer diesen Trade-off zwischen minimaler Latents... ...und immer noch guter Latens je komplexer der Use Case wird.

00:28:39: Wie sieht aktuell die Forschung bei euch oder generell am Markt aus?

00:28:43: ... Multimodale-Modelle angeht, dass wir quasi nur noch einen Modell haben.

00:28:50: Jetzt haben wir beispielsweise Google Omni geht ja auch so in die Richtung und sagt okay, wir haben ein Modell das kann alles Input Output, alles Händeln.

00:28:57: Das Zusammenstecken scheint da erstmal auch mit Friction, mit ... ... Solbroststellen vielleicht ineinander zu laufen?

00:29:05: Und da ist gerade das wo sich Research... Also Research entwickelt sich gerade im Beiderrichtung.

00:29:10: zum Einen hat es das Multimondale, das wird weiterentwickelt und verbessert und verbessern Und auf der anderen Seite hast du so genannte Speech-to-Speech-Modelle.

00:29:17: So, das ist gerade besonders im Marketing der große Hype.

00:29:21: jetzt muss man dazu sagen die sind in der Regel schlechter jedenfalls noch und wir sind uns nicht ganz sicher in der Research ob sie jemals besser sein werden.

00:29:31: Denn bei diesen Speech to Speech Modellen probierst Du im Grunde nichts anderes als ein alle diese Modelle über die wir gerade geredet haben In einen Modell zu packen und zu sagen Das ist aber das eine Modell was für alles funktioniert.

00:29:44: Und jedenfalls sehen wir das in unserer Research noch nicht.

00:29:46: und auch nicht, wenn wir andere Anbieter angucken die auf diesen Marketinghype aufgesprungen sind.

00:29:52: Dass das wirklich so funktioniert.

00:29:53: In der Theorie ist es immer ganz toll, wenn du Demos siehst und du siehst Instant Response und so.

00:29:58: aber das sind meistens sehr einfache Use Cases wo nicht viel gedacht werden muss, wo nicht mit externen Systeme verbunden werden muss.

00:30:04: Wo man eben nichts filigran darauf eingehen kann.

00:30:08: bisher also Wir haben beides speech to speech.

00:30:13: Wir präferieren aber gerade für die Agents-Plattformen gerade sehr klar dieses Chaining, dieses Andereinanderreihen von unterschiedlichsten Modellen um das eben an die Gegebenheiten anzupassen.

00:30:22: Und kriegt man bei so einem Chaining dann auch dieses was ja damals bei Open AI groß war als man plötzlich einen Voice Mode hatte den man auch unterbrechen konnte?

00:30:30: Weil wenn man in so Layern denkt da ist ja oft so mp drei wird abgespielt und dann wird wieder zugehört, dann wird die mp three wieder abgespielt nach dem Motto ... gelehrten Architektur auch in Unterbrechen möglich?

00:30:43: und wenn ja, wie ist das denn technologisch

00:30:44: gemacht?

00:30:45: Genau.

00:30:46: Das ist das so genannte Turn-Taking-Modell.

00:30:48: Auch ein Modell was wir entwickelt haben... ...und dieses Turn-taking-Model ist immer dazwischen geschaltet und guckt quasi wo sind Unterbrechungsmomente.

00:30:57: Also ich weiß es nicht mehr benutzen hier gerade Podcast-Mikrofone und du siehst wahrscheinlich oder wahrscheinlich hört würde das Modell jetzt schon hören wenn ich meinen Mund öffne weil du so einen Ein Luftzug hast oder auch an deiner Artentechnik und so weiter.

00:31:10: Das heißt, wir können durch einen Turn-Taking-Modell schon vorher sagen wann jemand davor ist zu sprechen oder zu interrupten.

00:31:20: Und das führt dazu dass wir dann in diesem Moment gar nicht erst weitergeben würden an zum Beispiel nen LLm oder nen Speech Output... ...und wir eben superflüssige Konversation machen können.

00:31:31: übrigens nicht nur Wir reden beide Deutsch und könnten uns gegenseitig unterbrechen.

00:31:38: Aber das Gleiche funktioniert, wenn ich auf Englisch weiterreden würde oder französisch.

00:31:43: Und dann würde mir die AI in Französisch antworten in meiner Sprache.

00:31:47: Krass!

00:31:48: Wo stehen wir gerade?

00:31:49: Was Latents angeht?

00:31:50: Ich hatte mal irgendwo gelesen, dass so das menschliche Latentsgefühl ist, wobei es bei einer Fünfzig Millisekunden ... Wenn

00:31:57: wir jetzt auf das absolute Minimum runterbrechen, wirklich das schnellste was geht... Das sind aber auch dann noch sehr simple Use Cases.

00:32:03: Sechzig Millisekunden?

00:32:05: Boah!

00:32:06: Also das ist wirklich nicht mehr zu unterscheiden.

00:32:09: Ist es noch natürlich ein oder ist das schon zu schnell für den...

00:32:12: Nee, da müssen wir dann sogar reingehen und echte Pausen dazwischen bauen.

00:32:16: Krass.

00:32:17: Weil sonst wird's zu schnell und ihr willst ja auch diesen natürliche Unterbrechen.

00:32:21: Ne also was so eine normale Konversation angeht, sind ja mittlerweile auf diesem Stand irgendwo zwischen hundertfünfzig-und drehundertfünftig Milliseken.

00:32:29: Wenn du einen ... sehr starkes LLM oder... ... das starke Tool Calls dazwischen baut.

00:32:34: Also angenommen, wir wollen jetzt unseren Flug umbuchen bei der Lufthansa und die Lufhtansa benutzt System X,... ... und das hat's weiß ich nicht aus irgendeinem Grund eine langsamere API.

00:32:42: Weiß ich nicht ob es so ist.

00:32:44: Aber dann brauchst du ne ganze Zeit um das Tool zu callen.

00:32:48: In so einem Fall bringt dir halt auch die kleinste Latents nichts weil eigentlich bist du abhängig von dem Toolcall.

00:32:54: Und was wir in so nem Fall machen ist dass wir dann sagen mit dem Agenten Moment Ich prüf das für sie, ich geh kurz ins System und prüfe mal den Flug.

00:33:02: Und dann kannst du eingeben ob es auf der Tippgeräusche hören möchtest oder eine Wartemusik oder einfach nur dich weiter mit dem Agenten unterhalten möchtes bis der dann deine Antwort bekommt.

00:33:13: aber auch da wir reden jetzt selbst wenn es legacy-Systeme sind reden wir nicht von zehn Sekunden sondern wir reden hier im eins Komma zwei Sekunden Bereich.

00:33:23: Ich glaube, wenn man an menschliche Gespräche denkt dann muss man ja auch irgendwie erstmal ... ... ein System tippen um wie oft ich schon irgendeine Hotline gehörte.

00:33:30: Vorne Computer ist heute nicht so schnell oder sowas.

00:33:33: Da

00:33:34: müsste auch sagen in der Regel würde das schneller gehen.

00:33:36: also ich habe zum Beispiel einen Beispiel... ...ich hab persönlich in so einer Schönheitsklinik Kette investiert und so einer deren Hauptuse Cases ist wenn die Rezeption da dran geht dass irgendwelche Patienten anrufen und sagen Keine Ahnung kann ich mein Termin ändern oder sowas und normalerweise ist dann immer so, dass diese Person die dann am Schreibtisch sitzt sagt okay.

00:33:55: Ich lock mich in den Kalender ein.

00:33:56: wie war der Name noch mal?

00:33:58: ah ok war das wirklich dieser Termin?

00:34:00: dann und dann?

00:34:01: Das dauert eine ganz Weile.

00:34:02: also es geht sehr viel schneller als dort sehr viel länger als eins Komma zwei Sekunden um diese diese Verbindung herzustellen weil selbst wir im Kopf ja ein bisschen denken müssen was ist das hier eigentlich

00:34:13: krass ... hätte man sich, glaube ich da man sich denken können dass es so schnell geht.

00:34:16: Aber die Qualität glaube ich Geschwindigkeit auch noch mal eine große Rote spielt.

00:34:20: Das heißt du würdest sagen jetzt mit euren aktuellsten Modellen was Geschwindigkeiten, Turn-Taking und Qualität angeht... ... ist man einen Punkt wo man keinen Unterschied mehr hört.

00:34:29: oder würde das sagen man hört noch ein paar Nuancen aus?

00:34:32: Ja, ich würde oft sagen auf Deutsch hört man ehrlicherweise noch ein Paar Nuancens raus je nachdem welches Modell man nutzt.

00:34:38: wir haben sogenanntes VIII Modell.

00:34:39: Da würde ich schon sagen ... von der Voice-Qualität oft einfach besser als wir Menschen auch.

00:34:44: Das ist eigentlich schon zu perfekt, also da hörst du es daran dass das zu perfekt ist?

00:34:48: Wie definiert man zu perfekt ?

00:34:50: Ja, es hat einfach super krasse Empathie und Emotion... ...und Studioqualität Aussprache wenn du das denn möchtest usw.

00:34:57: Und jetzt hörst Du mich hier im Podcast dann nutze ich ab und zu mal was vor mir hin,... ...das hat natürlich das VIII Modell so nicht.

00:35:06: Arbeitet ihr bewusst an solchen Fehlern um es menschlicher zu machen?

00:35:12: Wir haben da was in der Pipeline, also wenn wir Richtung nächster Modelle geht.

00:35:15: Wir wollen die natürlich immer noch natürlicher machen und ohne dass ich jetzt zu viel verraten kann aber es wird wohl eine Version IV kommen und diese Version IV wird nochmal alles sprengen das wir überhaupt kennen von den vorigen Versionen.

00:35:29: Das finde ich immer spannend.

00:35:30: Man denkt so nicht nur im Voice Bereich auch im Bild-Video man guckt so ja gut Video vielleicht ein anderes Thema Aber gerade so wild, was kann dann noch besser werden?

00:35:39: Auch jetzt bei Eleven Lasts Die Stimme ist Gut, es ist schnell.

00:35:43: Was kann auch besser werden?

00:35:44: Ja also ich würde zum Beispiel sagen man kann ja auch gut selbstkritisch sein.

00:35:47: Also ich finde was bei uns besser sein könnte und noch werden wird ist wenn wir im Deutsch anfangen mit in der Stimme zu reden und dann sagen Ich würd jetzt gern auf Englisch weiterreden Dann können vereinzeltes Stimmen oder viele Stimmen das perfekt abbilden.

00:36:01: aber manchmal hat man dann auch sowas dass man auf einmal eine englische Stimme hört mit einem deutschen Akzent.

00:36:07: Jedenfalls mein Anspruch wäre, dass nicht die deutsche Stimme auf Englisch weiterredet im deutschen Akzent.

00:36:12: Vielleicht ist das ja auch gewollt aber da sich dann halt auch ein gutes Englische höre oder andersrum mega weird.

00:36:17: ich hab heute so einen Testcase gemacht wo ich ... ... so einen Airline Support angerufen habe auf englisch und dann aber auf Deutsch umgesprochen bin... Und der dann so einen krassen englischen deutschen Akzent hatte.

00:36:26: Ich glaube bei sowas können wir uns natürlich immer noch verbessern und machen das ja täglich.

00:36:30: also wenn wir gucken Literationsgeschwindigkeit ... jede Woche hauen wir neue Updates und Modelle raus.

00:36:36: Wie schnell das geht, dass ist schon

00:36:37: beeindruckend.".

00:36:38: Ja, es ist glaube ich dann auch wahrscheinlich die Größe... ...die ihr aktuell noch habt, spielt da wahrscheinlich eine Rolle,... ...dass ihr auch so eigentlich hier sein könnt einfach am Markt?

00:36:46: Genau!

00:36:46: Also wenn wir mal gucken was die Sprachen angeht man darf ja immer nicht vergessen wir reden also.... Wenn du so ein Text-to-Speech-Modell oder irgendeine von diesen Modellen entwickelst, dann machst du das in der Regel für eine Hauptsprache und vielleicht zwei, drei andere Sprachen.

00:36:59: Also wenn du in viele Konkurrenzmodelle eingehst abgesehen davon dass sie inhaltlich schlechter sind wir können oft schlechter oder eigentlich immer könnt ihr gleich nochmal drauf eingehen was das heißt.

00:37:12: Sind das?

00:37:13: stehen die für paar Sprachen spezialisiert zur Verfügung?

00:37:17: Und wie haben mittlerweile über siebzig Sprachen ge onboardet?

00:37:19: ne vor einem Jahr hatten wir noch unter dreißig Sprachen und so siehst du, dass da immer mehr und mehr Sprachen dazukommen die natürlich die Komplexität auch enorm erhöhen.

00:37:30: Wenn alle Sparen abgedeckt werden müssen mit einem Modell?

00:37:32: Und mittlerweile gehen wir in eine Region wo wir jetzt nicht nur Sprachen abdecken wollen sondern auch Akzente.

00:37:38: das Du Deutsch in Schweizer Dütch machen kannst und dann spezifisch spezifisch zum Beispiel aus dem Wallis oder dass du ein schwäbisches Unternehmen mit einem Schwäbischen Akzent betreuen kannst und so weiter, und sofort.

00:37:51: Also es geht immer noch mehr und die Grenzen sind noch lange nicht

00:37:54: erschöpft.".

00:37:56: Und was macht dann so eine Qualität von so einem Modell oder von der Sprache besser gesagt aus?

00:38:01: Ist das so erlaubt?

00:38:02: gesprochen?

00:38:02: okay wir brauchen jetzt schwäbig brauchen einfach unglaublich viele stunden sprachmaterial allerhöhen tiefen akzente.

00:38:11: Das ist natürlich das Luxusproblem, in dem wir uns jetzt gerade bewegen, dass wir uns erlauben können schon in solche Details reinzukommen.

00:38:16: Aber man muss sagen für die allermeisten Modelle auch für uns persönlich noch ist ein großes Augenmerk, die Fehlerrate zu vermeiden wenn wir jetzt irgendwas vor uns hinnuscheln.

00:38:26: oder ich sage zwei bis drei oder zwei minus drei hat einen erheblichen Unterschied in der Bedeutung und so ein Modell muss erkennen können ob es zwei bis Drei heißt oder eben zwei Minus drei.

00:38:39: Und da unterscheiden sich halt Modelle noch gravierend.

00:38:41: Mir nennt das die sogenannte Fehlerrate.

00:38:44: Man hat oft so, dass wir in ... ja, in Modellen, die in diese Richtung gehen, Fehleraten von über zehn Prozent hat und das wird dann halt ganz schwierig wenn du Adresseingaben machen möchtest.

00:38:54: Geburtsdaten, Flugticketnummern

00:38:56: usw.,

00:38:58: weil du da nicht hinterher kommst.

00:38:59: Es ist ja auch übrigens, wenn wir mit Menschen reden, dass sie nicht verstehen meinst du jetzt M oder N?

00:39:04: Und so weiter.

00:39:06: Diese Fehlerrate gilt es eben für ein Modell zu maximal minimieren und wir sind jetzt stolz darauf, dass wir unsere Fehlerrate so minimiert haben, dass sie weit unter drei Prozent liegen was ja dreiviermal besser ist als das nächste bessere Modell die wir in unserem Benchmark sehen.

00:39:24: Ja natürlich ist das hier das wir gegen null werden niemanden erreichen aber gegen Null bekommen

00:39:29: Und ohne da jetzt, dass du irgendwie Geheimnisse ausblasen usw.

00:39:32: Aber wie verringert man denn so eine Fehlerquote?

00:39:34: Ist es einfach noch mehr Daten reinzupacken mit Stimmsamples, das man irgendwas hat?

00:39:39: ist das bewusstes Reingehen und Fehler händisch, relativ händig rauszubügeln... Wie kriegt man so Fehler runter?

00:39:48: Ja Training!

00:39:49: Sehr viel Training und sehr viele Daten um diese Modelle besser zu trainieren Das ist ja das tolle intern bei elevenlabs.

00:39:59: also erst mal muss jetzt sagen man.

00:40:00: Es kommt jetzt ein bisschen so rüber als würden wir unsere Kundendaten nutzen und zu trainieren, das stimmt nicht.

00:40:05: oder nur dann wenn kundenausdrücklich dazu eingewilligt haben sondern wir benutzen natürlich wahnsinnig viel elevenlabs intern auch.

00:40:13: Wir haben AISDRs also AISales Mitarbeiter die mit dir Konversationen führen, wir haben AI IS die mit ihr Sales Gespräche führen.

00:40:21: Unser Kundensupport funktioniert.

00:40:23: Und das heißt, wir haben auch eigentlich mittlerweile sehr viele Millionen von Stunden oder Minuten Recordings wo wir selber sehen was wurde wie reingenuschelt und wie müsste man das interpretieren?

00:40:34: Und die flecken wir natürlich alle bei uns und können natürlich so unsere Modelle auch entsprechend besser trainieren.

00:40:40: Okay, bringt euch doch die Idee einfach nur Leute dafür anzustellen dass sie die ganze Zeit sprechen.

00:40:46: Ja, aber wir sehen es ja auch bei unseren Kunden wenn die selber ihre Voice Agents aufsetzen.

00:40:50: Die haben da so eine Suite und unter dieser Suite gibt's sogenannte Testing-Seite.

00:40:56: Und in dieser Testing Seite können sie ganz genau definieren welche Fehler akzeptabel sind und wo irgendwas gehighlightet werden soll.

00:41:03: Das heißt die sehen auf einen Blick ganz genau wo die Agenten nicht so gut orchestriert oder funktioniert haben.

00:41:11: wirklich Minuten Geschwindigkeit quasi das existierende Setup sogar noch mal verbessern und besser und besser machen.

00:41:17: Das geht mit der Sprache los, geht zum LLM rüber und mit dem Output weiter.

00:41:23: Geil!

00:41:24: Ich glaube dann dieses Fehler-Kommunikation ist wahrscheinlich für euch total wichtig dass ihr versteht wo passieren Fehler?

00:41:30: Und was sind denn auch so... Total.

00:41:32: ...Aktionsblocker einfach.

00:41:34: Total ja.

00:41:37: Wenn ihr wachst schnell und habt eine spannende Technologie, so aus deiner Rolle.

00:41:45: Wie gewinnt man denn in einem Markt, wo Geschwindigkeit eine Rolle spielt?

00:41:50: Wo jeden Tag was Neues kommt?

00:41:54: Man auch im Mittelstand gar nicht mehr weiß, was das Beste ist.

00:41:59: Heute oder morgen war es doch etwas anderes.

00:42:01: Dann kommen irgendwie vor drei von den Level-Labs, dann vier, dann fünf, keine Ahnung was... Wie, wie schafft ihr es denn Unternehmen und Kunden zu gewinnen aktuell?

00:42:12: Was sind da so Kanäle.

00:42:14: Ja noch wissen wir ja gar nicht ob wir in diesem Markt komplett gewinnen werden aber sieht momentan sehr danach aus.

00:42:20: Also momentan sind wir Marktführer und wir bedenken dass wir das auch bleiben werden.

00:42:25: Aber ja dann kommt natürlich einiges zusammen.

00:42:28: zum einen unsere ganze Research Foundation.

00:42:31: ich glaube wenn du mit unserer Research Abteilung mal redest und diesmal siehst Dann siehst du da im Grunde genommen solche Nerds, wie du diese auch vorstellst.

00:42:40: Und einfach wahnsinnig fundiertes Wissen haben die einfach wahnsinnig gut sind.

00:42:44: und ich glaube dazu kommt so ein kultureller Aspekt.

00:42:47: wir sind jetzt nicht das klassische So ein Hype Startup was hier Office Parties macht und jeden Tag kostenloses Mittagessen und irgendwie Bier im Kühlschrank sondern ist schon alle sehr performant und arbeitsorientiert im guten Sinne.

00:43:02: Das heißt wir sind alle sehr ... sehr fokussiert das Unternehmen nach vorne zu treiben.

00:43:06: Und... nicht dass das jetzt Leute sind, die diesen so einem... viel gut Start-up arbeiten,... aber bei uns merkt ihr schon man kommt ins Büro rein es gibt wenig solche Kaffeepausen.

00:43:18: oder lasst mal hier wieder ein Meeting aufsetzen oder lass mal hier reden du siehst schon die Leute sind einfach... sehr durchfokusiert und ich glaube das ist einer der großen Stärken die wir haben.

00:43:26: Ich glaube das hat auch mit Kultur an sich zu tun.

00:43:30: Wir haben Wahnsinnig talentierte Leute, nicht nur im Research sondern auch bei Sales, Marketing, Growth und Operations usw.

00:43:39: Und mittlerweile halt dadurch auch irgendwie so einen gewissen Inbound Traffic was die Leute angeht die sich bei uns bewerben dass wir sehr wählerisch sein können also bei uns akzeptiert zu werden.

00:43:49: Die Akzeptanz Rad ist momentan Null Komma Null Null acht Prozent.

00:43:53: Es ist zweieinhalb Mal wahrscheinlich ja in Harvard oder Stanford aufgenommen zu werden als bei uns reinzukommen.

00:43:58: ... ziehst du natürlich die besten der Besten an.

00:44:03: Und was ich auch noch sagen würde dazu ist, wir haben eine coole Kultur geschaffen wo wir uns leisten können sehr viele Director, WPC Level Leute einzustellen weil wir keine Titel haben bei uns.

00:44:16: Wir haben keine Titeln und das heißt... Bei uns ist jeder angehalten zu arbeiten und jeder muss das Unternehmen nach vorne bringen.

00:44:24: und wo du in einem normalen Unternehmen halt nur einen VP Growth haben kannst oder einen Director Growth oder wie auch immer du diese Leute nennen möchtest, hast du bei uns halt davon zwanzig.

00:44:35: Und alle sind Rockstars und die Kombination dass du zwanzige solche Rockstars für die gleiche Sparte in deinem Unternehmen haben kannst ist natürlich ein Riesen-Asset.

00:44:44: Stimmt, der limitiert natürlich so ein Titel Vergabe im klassischen Sinne erstmal vom Hiring da so krasser Leute so.

00:44:51: Also spannendes Thema Wie manage ihr denn dann so die das Thema Verantwortung etc.

00:44:56: Wenn du sagst, dass zwanzig VP Grows und alle wollen irgendwie Grows... ...alle anders?

00:45:02: Zum Glück haben wir einen weltweiten Markt.

00:45:03: Das ist schon mal eine Sache, die hilft aber ich kann es jetzt ja zum Beispiel mal von meinem Umfeld erzählen.

00:45:08: also klar Wir haben natürlich internen Rollen Und Es gibt jetzt für mich Die Rolle okay der koordiniert EMEA und Lateinamerika.

00:45:18: Aber innerhalb dieses Marktes gibt es natürlich dann diese VP oder Director Growth Level Personen, die wiederum einen Markt nach vorne pushen.

00:45:27: Ich könnte jetzt niemals Brasilien mit allen fünfzig oder sechzig anderen Ländern, die ich habe gleich gewichten.

00:45:34: und dann hast du halt einen der spezialisiert die Entscheidung zu treffen für Brasilien ... und der Rockduster.

00:45:40: Und die gleiche Person haben wir dann halt für Spanish-Speaking-Latem... ...und für den Middle East, und für Deutschland,... ...und von UK, und Frankreich, und Central Eastern Europe,... ...nordic, Scandinavia usw.

00:45:51: Und so kannst du natürlich unendlich nach unten kaskadieren,... …und das funktioniert so lange wie du denen halt maximaler Autonomie gibst.

00:45:57: Und deswegen klar habe ich dann ein Weekly mit diesen Personen auch.

00:46:02: Aber im Grunde genommen ist jeder von denen angehalten,... ...das zu machen, von dem sie denken was am besten ist für ihren Markt?

00:46:08: Ist das schwierig dann, die große Ganze zusammenzuhalten?

00:46:14: Consistency, Branding

00:46:16: etc.,

00:46:17: wenn jeder so autonom handeln kann gerade Marketing.

00:46:22: Es geht ehrlich gesagt.

00:46:24: also es ist ja so wenn du solche Leute hast dann das sind in der Regel relativ low ego Leute Und wir haben natürlich dann so Vorgaben, die wir auch machen zu sagen.

00:46:34: Okay jetzt wollen wir die Agents-Plattformen pushen und nicht das oder das!

00:46:37: Wir benutzen jetzt grünen Blau für die Agends-Platform... ...und das Logo und diese Art von Design.

00:46:44: By the way wenn ihr irgendwas wollt geht dir über das zentralisierte Design Team.

00:46:48: Also ich glaube eine Sache, die hilft ist dass wir halt zentrallisierte Spezialistenteams haben.

00:46:52: Wenn du jetzt Performance Marketing machen möchtest in Brasilien, dann nutzt du das gleiche Team wie jemand der in Deutschland Performance Marketing als Hilfe machen möchte ... das hilft?

00:47:02: Also nein, um die Frage zu beantworten.

00:47:03: Ich glaube es nicht, dass ein Riesenproblem ist... ... zum jetzigen Status vielleicht wenn wir dann noch größer und noch größter werden,... ...dass wir uns dann zu sehr in so Mikroorganismen aufbauen.

00:47:12: Aber ich glaube mittlerweile also gerade haben wir das gut in Griff.

00:47:16: Dann gibt's erst mal eine große Transformation.

00:47:18: Und dann soll er nur umbauen!

00:47:20: Ja

00:47:20: hoffentlich nicht.

00:47:21: Also ich finde, das ist wirklich die riesen Stärke und ich meine... Wir kennen uns ja auch schon seit ein paar Jahren.

00:47:26: Ich glaub, wir haben das letzte Mal zu meinem eigenen Start-up geredet und so weiter ... Und wenn ich jetzt so reflektiere alle Sachen, die ich dazwischen gesehen habe ganz oft fällt's so'n Start up mit Egos oder so VPs, die du da zukaufst oder Director Levels, die Du dazu kaufst, die dann eine Meinung haben aber nicht unbedingt arbeiten wollen.

00:47:48: Ich glaube, wenn wir uns das irgendwie solange wie möglich beiüberhalten können eben nicht in so einen Schema zu fallen ... dann sind wir auch weiterhin so erfolgreich.

00:47:58: Einfach gar nicht soweit wachsen, einfach viel mit AI und Agents bauen.

00:48:03: Eiser Set denn dann?

00:48:04: Also um die Richtung Wachstum... Wir hatten Ende des Jahres, ... ... im Jahr zwanzigundzwanzig hatten wir drehundert Millionen ARR.

00:48:11: Drei vier Monate später waren wir jetzt auf über fünfhundert Million.

00:48:15: Und wir haben ganz am Anfang darüber geredet wie wir jetzt gerade erst denken.

00:48:18: Wir sind ganz am Anfall noch nicht mal.

00:48:20: die Kundensupport-Use Cases sind erfüllt.

00:48:22: Also dieses Unternehmen hat Potenzial riesig zu werden.

00:48:26: Und weiß ich nicht, bin jetzt mal ganz gewagt aber jede Dimension von SAP zu übertreffen im europäischen Markt also wir werden wahrscheinlich nie klein bleiben.

00:48:37: und bei euch was ist so?

00:48:43: oder kann man das irgendwie einteilen?

00:48:45: Was zu dem Wachstum auch führt auf Produktebene ist dass wirklich diese agentische Sache ist es viel einfach nur die Nutzung der Modelle ... weil ihr habt es ja auch auf der Platte von mir auch unterteilt.

00:48:57: Man kann entweder in den Creative-Part, sag ich mal reingehen eher... ...in eine Identity-Part was ich sehr gut finde dass ihr das irgendwann unterteilt habt.

00:49:02: Kann man das irgendwie gewichten?

00:49:06: Ja klar gewichten wir das Internet.

00:49:08: Das darf ich jetzt leider nicht verraten wie das genau gewichtet ist aber ich glaube was sich für uns rund... Also über Growth verraten kann, ist das natürlich die Kombination.

00:49:15: So ein eher consumer-based Produkt zu haben wie unsere Creative Suite wo du deine Ärzte erstellen kannst und coole Voice Overs machen kannst usw.

00:49:24: Erheblich dazu beiträgt auch dass wir auf der BTB Seite erheblig wachsen denn so haben wir eine sehr einfach auch brand recognition innerhalb der Teams zu haben weil wir direkt anwendbar sind und das unterscheidet uns natürlich auch vielen anderen von vielen anderen Playern die in dieser Agenten Blase sind ... die bei denen du immer über irgendwelche Consultants gehen musst, um irgendwas umzusetzen oder so.

00:49:47: Und bei uns kannst du als normaler Mitarbeiter reingehen und so einen geilen Agenten aufsetzen... ...und im Idealfall hast du vorher sowieso schon im Growth & Marketing deine Sachen erstellt mit den Eleven Agents oder Eleven Labs in generell,... ...und weißt deswegen ungefähr wie es sowieso funktioniert.

00:50:01: Das macht's natürlich sehr gut für uns für Growth Acquisition effizient voranzutreiben!

00:50:08: Stimmt, da seid ihr schon mit einem Fuß irgendwie drin.

00:50:09: Man kennt euch und hat dann auch vielleicht Vertrauen.

00:50:12: Und man hat ja nicht diese ... Das hab ich direkt an die Pricing-Tables gedacht wo der CTA eigentlich nur ist Talk to Us.

00:50:18: Ja gut okay!

00:50:19: ... da weiß was kommt.

00:50:21: Genau und auch da, aber wenn du das bei uns mal anguckst... Also wir haben zwar diese Talk to Us auf der Asians Club von Pricing Tables,... ...aber wir sind super transparent, was das Pricings angeht.

00:50:30: Wenn du das so durchrechnest,... ...dann siehst du dass du eigentlich jede Art von Credit quasi... ...auf Scent-Beträge runterbrechen kannst und so genau weißt keine Ahnung... ...jede Callcenter Support Minute wird mich niemals mehr als acht Cent pro Minute kosten zum Beispiel.

00:50:46: Okay, das ist cool!

00:50:51: Wie fern spielt dann auch Community jetzt auch für deinen Grossbereich eine Rolle?

00:50:58: Inwiefern versucht ihr da wirklich den B to C Bereich oder den Endkonsumenten-Bereich irgendwie auch communitymäßig zu begleiten, zu pushen.

00:51:07: Für die Creative Platform versuchen wir das natürlich.

00:51:09: ne ganz große Menge also.

00:51:11: wir machen super viele Hackathons mit einer Partnerunternehmen die im ähnlichen Bereich sind ... die große Unicorns in.

00:51:17: teilweise machen wir super viel zusammen.

00:51:20: Auf der BtoB Seite, wo wir Richtung, ne?

00:51:23: Da sind eher die Director Transformations oder COOs und so... da machen wir natürlich keine Community-Building, sondern dann machen wir exklusive Events um mit denen darüber zu reden wie wir eben deren User Experience generell besser machen können oder sogar komplett neu gestalten können.

00:51:39: Ist ja quasi auch Community als nur schöner!

00:51:43: Bei Community, da geht bei mir immer so was.

00:51:45: Alle setzen sich mal cool in Berlin und irgendeinen Coworking-Space zum Breakfast morgen ... ... und machen dann mal eine Stunde, wir hacken was zusammen.

00:51:52: Sowas machen ja super viele auf der Creatorseite.

00:51:56: Da klingelt es bei mir bei Community.

00:51:57: Was wir natürlich auch auf der anderen Seite machen das den ganzen Enterprises ist natürlich... Wir sind persönlich vor Ort.

00:52:04: Wir machen persönliche Demos für die.

00:52:06: Wir zeigen denen wie was geht.

00:52:08: selbst für die kleineren Unternehmen, die jetzt nicht die deutsche Telekom sind haben wir Partner-Implementierungspartner, die dann mit denen vor Ort auftauchen und den zeigen hey schon mal so haben wir das für andere gemacht.

00:52:18: Das wäre was.

00:52:19: also es ist eine andere Art von ... Ich würde eher Relationship Building als Community Building.

00:52:25: Vielleicht haben so krasse Ziele auch mal Bock auf einen Berlin-Pizza-Hackers.

00:52:30: Ja wenn ihr das hört, ihr seid gerne herzlich eingeladen!

00:52:33: Wir posten alle unsere Hackathons in der Regel auf Luma.

00:52:36: da werdet ihr's finden.

00:52:38: Da ist vielleicht nicht die bekannte Pflafel auch in Deutschland aber sehr cool.

00:52:43: Und wie sieht das?

00:52:46: Also mir gerade eingefallen, es ist ein bisschen raus aus der Nummer gesumt.

00:52:50: Aber wenn du an deiner eigenen Nutzung von Voice denkst... Jetzt ist natürlich die Erwartungshaltung, du arbeitest bei Eleven Labs und machst alles noch mit Stimme.

00:52:58: Wie sieht's eigentlich bei dir außer um Schreibtisch?

00:53:02: Ja auch ähnlich!

00:53:04: hab in der Regelstich morgens aufeinander, bekomme ich mein Voice Briefing.

00:53:08: Voice Briefings ist so eine Mission aus Cloud Agent ... die ja durch deine ganzen Channels, Slack usw.

00:53:16: durchgeht und dir erst mal zusammenfasst was ist eigentlich wichtig für dich am Morgen?

00:53:20: Und dann liest mir das Eleven Agents erstmal vor.

00:53:22: Das ist quasi so ein Morning-Podcast, den ich für mich persönlich kriege.

00:53:25: Geil!

00:53:28: Ja und so zieht sich das halt durch einen Tag durch.

00:53:30: es gibt natürlich auch noch leider eine ganze Menge Sachen wo ich Tastatur nutze einfach weil Ich nütze keine Ahnung, vierzig verschiedene Starstools oder so weiter.

00:53:37: Man muss einfach ehrlicherweise sagen wir sind da noch nicht... ...diese Starstool sind dafür gemacht dass ich Text und Maus input habe.. ..und bis das sich ändert wird man wahrscheinlich noch eine ganze Weile dauern.

00:53:47: Ja also um es so abzuschließen ich würde sagen ist gut noch... ...siebzig Prozent Tastatur und Mause aber immerhin schon dreißig Prozent Voice mit der ich so mein Alltag gestalte.

00:53:59: Das ist geil!

00:54:00: Ein Tour so nachgebauter für Mac, um das nochmal zu tracken wie viel Voice und Tastatur ich habe.

00:54:08: Bei mir ist es auch so.

00:54:09: tatsächlich thirty-fünfvierzig je nachdem wo ich gerade bin.

00:54:12: Voice und der Rest des Tatuers sind ganz anderes Arbeiten.

00:54:17: Was ist denn dein Newscaster für die vielen Prozent Voice?

00:54:19: Ähm...

00:54:22: alles!

00:54:23: Ähm, ob es jetzt irgendwie Input in... Vor allen Dingen Input-in Sprachsysteme.

00:54:28: Also in KI Chats einfach wenn ich irgendwas erarbeite.

00:54:32: Wenn ich unterwegs bin habe ich ganz auf Kopfhörer an und mache mit irgendeiner AI Assistant in der Hosentasche.

00:54:37: Er arbeite ich irgendwas.

00:54:38: Brainstorm ist ein bisschen rum.

00:54:43: Machen wir relativ viel mit Claude.

00:54:45: Und da hab' ich auch tatsächlich Morning Briefing.

00:54:47: Ich habe aber den Output noch als Text.

00:54:50: so eine sehr gute Idee.

00:54:52: Vielleicht auch so einen Audium-Morning Briefing mal zu machen, finde ich sehr geil.

00:54:56: Und ansonsten tatsächlich wenn die Formatierung stimmt auch viel Kommunikation im Team.

00:55:03: Also ein wieder Voice to Text oder einfach, ich meine wir nossen Slack als Kommunikationsding Voice input wird transkribiert Im Tool drin läuft und da hat sich mittlerweile alle im Team auch gewöhnt das dazu zu haben.

00:55:22: direkt so Voice, aber schon irgendwie.

00:55:25: Wir transkribieren halt alle unsere Meetings.

00:55:27: Das heißt für uns ist eigentlich der Punkt das Stimme und dass was gesagt wird immer unglaublich wichtig ist und gar nicht mehr wegzudenken ist.

00:55:37: Wenn ein Chatbot oder einen Meeting-Notetaker im Meeting fehlt dann wird es mal gucken.

00:55:42: warum?

00:55:43: Weil wir super viel mit Kontext arbeiten sagen ja wir haben es mal gesagt und daraus machen wir halt Sachen.

00:55:47: Und ich glaube da ist halt Sprache unglaublich mächtig!

00:55:51: Ist bei uns auch so, also diese Meeting Transcription.

00:55:54: Die ist ja oft noch sehr linehaft dass du irgendwie dann eine Transcription hast und weißt nicht so ganz was du damit machen soll.

00:55:58: aber uns fließt das in Actions ein.

00:56:00: Also wenn ich einen Bewerbungsgespräch führe... ...dann ist das direkt nach dem Bewerbsgesprächen habe ich vorher schon in unseren AIs Kriterien gesammelt was ich wie gerne haben möchte welche Fragen ich beantworten möchte.

00:56:14: Ich stelle immer die gleichen Fragen das wissen viele Bewerber nicht Ähm, und so werden Bewerbungsgespräche zum Beispiel vergleichbar.

00:56:21: Und so habe ich sofort da eine Auswertung auch Razzinale gesagt wie sieht der Computer das eigentlich?

00:56:25: Weil die Person jetzt besser oder schlechter ist als die Personen davor.

00:56:28: Oh, was geil!

00:56:28: Und was ich auch noch interessant finde mit Voice Input würde ich jetzt aber sagen... ...da bin ich so semi-kritisch gegenüber.

00:56:34: Die Welt wird natürlich wahnsinnig schnell wenn du in so einem AI Unternehmen arbeitest wahrscheinlich auch bei euch.

00:56:40: Man hat parallel mehrere LLMs offen man macht fünf oder sechs oder sieben Sachen parallel Und theoretisch würde der Text Input um alle diese sieben Sachen parallel zu machen, das würde zu lange dauern.

00:56:52: Und das heißt da ist es natürlich wahnsinnig hilfreich über schnell Voice input zu machen um die nächste iteration wieder weiterzubekommen.

00:56:59: Macht aber auch ein bisschen müde im Kopf wenn man dann irgendwie fünf Cloud Code Agenten hat, für den du betreuen musst.

00:57:05: Genau also und nicht nur Cloud Code das kann ja auch irgendwie Figma Designs oder sonst irgendwas sein ne?

00:57:10: Es ist ich glaube und das ist so eine Herausforderung unserer Gesellschaft mit AI generell.

00:57:15: Die Welt ist schon schnell und sie wird jetzt noch viel schneller.

00:57:18: Und dieses Paranental Context Switching, was ich glaube zu ganz großem Ausmaß in meinem Job habe, ist super anstrengend.

00:57:29: Wo steht da dein Markt?

00:57:33: Im Kontext-Switching?

00:57:34: Ja im Kopf im Kontextwitching.

00:57:37: Sind wir doch schon bereit für es?

00:57:40: Also... Ich glaube wir können uns dem nicht verwehren.

00:57:43: das hat jetzt weniger mit elevenlabs zu tun sondern generell also beschleunigt einfach Sachen.

00:57:48: so war nicht schnell und die artenweise wie sachen jetzt gerade umgesetzt sind.

00:57:53: Es heißt einfach wir müssen dass alle lernen und wir müssen da gut drin werden kontext zu switchen, und ihr müsst irgendwelche mechanismen schaffen wie wir trotzdem abends zufrieden nach Hause gehen und nicht überlastet sind.

00:58:06: Ich glaube, es wird auch Produkte geben.

00:58:08: Die uns dabei helfen das navigieren zu können und da sind wir halt jetzt gerade noch nicht.

00:58:12: Das sind die ganzen Orchestration Layers von AI mit Open Cloud angefangen und da entwickelt sich ja auch viel, die dann für dich die Interpretation des Kontextes wiederum übernehmen.

00:58:27: Und insofern vielleicht ist es dann auch nur eine Übergangszeit, in der das so sein wird.

00:58:31: Wie gehst du wenn du sagst abends nach Hause kommen und entspannt zu sein?

00:58:35: ... hast du da einen Tipp für alle, die... ... ähnlich überladen sind?

00:58:43: Ich wünschte ich hätte das.

00:58:44: Also es ist schon so dass mein Kopf den ganzen Tag ratt hat.

00:58:48: Ich bin aber von Natur aus auch so eine Person,... ...die einfach den ganzen tag Energie und Drive usw.

00:58:55: hat.

00:58:55: Das heißt irgendwie brauche ich das auch.

00:58:56: Aber es ist ja schon... Ja, ich weiß nicht ob es dauerhaft gesund ist, ... ...den ganzen Tag Rottan zu haben.

00:59:04: Das hatte ich aber auch schon lange vor den Lappenlaps.

00:59:05: Ich glaube das ist auch so geil!

00:59:08: Typ Mensch Sache eigentlich, dann glaube ich in der Gross-Rolle zu arbeiten.

00:59:13: Da gehört das auch dazu.

00:59:15: Genau und man muss sagen also ... Ich kann das gar nicht bestimmen!

00:59:18: Also wenn ich morgens unter die Dusche gehe... da kann ich sonst noch so sagen, ich möchte jetzt entspannen oder was auch immer andere Leute in der Dusche machen.

00:59:26: Bei mir klackern dann die kreativsten Ideen rein, was man wieder machen könnte um den nächsten... ja, Growth Channel zu hacken.

00:59:33: Und dann ist es wichtig dass man's irgendwo notieren kann oder einsprechen kann?

00:59:37: Genau, weil dann bist du wieder bei Context-Switching.

00:59:39: Weil in dem Moment wo du das nicht notierst hast du fünf Minuten später schon wieder drei andere krasse Gedanken und schon wieder den ersten vergessen.

00:59:49: Aber das bringt mich ganz gut.

00:59:50: zur letzten Frage.

00:59:52: So aus deiner Perspektive was jetzt fast ein Jahr bei Eleven Labs Siehst ihr eine Eilmark sich bewegen?

00:59:59: Wo siehst es denn so in den nächsten Jahren?

01:00:01: ob wir irgendwie sagen fünf Jahre ist glaube ich schwierig zu sagen.

01:00:04: also in den nächsten jahren Auch so das Thema Voice, was gar nicht Adaption angeht in den europäischen Markt.

01:00:11: Weil ich glaube, dass ist einfach ein anderes Thema.

01:00:14: aber so Technologie.

01:00:16: Wie wird sich der Alltag verändern technologisch gesehen mit Voice in den nächsten Jahren?

01:00:24: Wir werden kompletten neue Modelle haben wie wir mit Dingen interagieren.

01:00:29: Also wenn wir sagen wir hatten einen iPhone Moment im Jahr zwei tausend acht und wir haben komplett neu erfunden, wie wir unseren Alltag gestalten.

01:00:37: Dann wird das wieder so passieren und es wird wahrscheinlich so sein dass das Handy... nicht mehr der... ...das Hauptaugenmerk bekommen wird von unserer Aufmerksamkeit sondern irgendwas was BMO oder einer Brille oder sonst irgendwo tragen oder irgendetwas mit... irgendwie Voice-Interaktion zu tun hat.

01:00:52: Das würde dazu sagen dafür sorgen dass Webseiten wie wir sie kennen in der Zukunft nicht mehr gestaltet werden.

01:00:58: die werden komplett anders gestaltet sein wahrscheinlich sehr viel abstrakter sein und nur noch dir was auf den Screen werfen, wenn es gerade wichtig ist.

01:01:08: Also um die Antwort kurz zu halten ich glaube ... Die komplette Art und Weise wie wir mit Technologie interagieren momentan wird über Bord geworfen werden

01:01:17: Und dann schöner Farben wieder nach vorne.

01:01:20: eigentlich auch die natürlichste Art und Weise nämlich Übersprache und nicht über irgendwelche Devices die die Hand kaputt machen.

01:01:27: Korrekt

01:01:28: Mega.

01:01:29: Ich glaube, schöner rote Faden und Summerup hätte ich gar nicht mir wünschen können.

01:01:34: von daher, Gotti!

01:01:36: Vielen vielen Dank für deine Meinung, für deine Insights, wie Levenlabs eigentlich arbeitet und alles drum herum.

01:01:43: Vielen vielen dank für dein Zeit war sehr cool.

01:01:46: Hast du noch was zum loswerden?

01:01:48: Nee, erst mal ich danke dir Jens.

01:01:49: Und ja was hab' ich zum Los werden?

01:01:51: Nö jeder der's mal ausprobieren möchte.

01:01:53: wie gesagt auf der Creator Seite könnt ihr einfach selber experimentieren eure Werbevideos Textovers oder was auch immer erstellen und auf der Enterprise Seite... ...auch einfach mal registrieren.

01:02:03: innerhalb von zehn Minuten habt ihr euren ersten Voice-Agenten... ...aufgesetzt und dann kannst du nur noch nach vorne gehen.

01:02:09: Ich glaube das geht sogar schneller.

01:02:10: also von der auch meine Empfehlung seit vielen Jahren.

01:02:12: ElevenLips Nutzer macht da jedenfalls Spaß.

01:02:15: bin gespannt Was noch so kommt, das ist schon mal ein bisschen angerissen.

01:02:19: Ich freue mich auf weitere Updates und gleich machen wir da einfach mal eine Update-Folge in... Sehr gerne!

01:02:25: Sehr gerne.

01:02:26: Und lieber vielen Dank, dass dabei war es und habt noch eine wunderschöne Woche.

01:02:30: Die auch.

01:02:31: Danke.

01:02:31: Danke, ciao!

Shownotes

Transkript anzeigen

Neuer Kommentar