Generative AI Product Management: Wie sieht LLM Product Management in der operativen Praxis aus? – Till Scholich zu Gast (Product @ Ficus Health, ex Stanford Research Assistant)

15. Okt.

AI First Product Management & Design, Evals, Prompt Management, Model Upgrades, Datenschutz und Abhängigkeiten von LLM Grundlagenforschung

Generative AI ist in aller Munde – doch wie viele Produktmenschen setzen sich wirklich tief damit auseinander, was es bedeutet, Software zu bauen, die im Kern auf Large Language Models basiert? Zwischen LinkedIn-Posts über Prompt Engineering und Konferenz-Talks über die Zukunft der KI klafft eine Lücke im Diskurs: die operative Realität. Wer heute AI First Produkte entwickelt, muss sich mit Themen wie Observability, Evals und Prompt Management beschäftigen – allesamt Konzepte, die im klassischen deterministischen Software-Design nicht vorkommen. Höchste Zeit, dass wir mehr darüber sprechen!

Genau deshalb freue ich mich besonders über das Gespräch mit Till Scholich, denn Till bringt die ideale Perspektive mit: Einerseits hat er akademisch zu AI geforscht, sowohl in Stanford als auch an der University of Michigan. Andererseits arbeitet er aktuell als Senior Product Manager bei Ficus Health, wo er täglich mit den praktischen Herausforderungen von AI First Product Management konfrontiert ist und im Handling von Gesundheitsdaten höchsten Datenschutz-Standards gerecht werden muss. Dass Till den Diskurs aktiv mitprägt, zeigen seine Auftritte als Speaker – etwa auf der re:publica oder beim Merantix Developer Day. Kurz gesagt: Till weiß, wovon er spricht, sowohl theoretisch als auch praktisch.

Gemeinsam beleuchten wir in der zwölften PRODUKTKRAFT-Podcast-Folge, was wirklich neu ist im AI Product Management. Wir sprechen über die Konzepte, die heute essenziell sind, wir diskutieren, welche Datenstrukturen nötig sind und wie sich AI Native Companies grundlegend von klassischen Organisationen unterscheiden. Aber wir reden nicht nur über Tools und Techniken: Welche Fallen gilt es zu vermeiden? Und vor allem: Wie bleiben wir die Piloten und AI die Copiloten von AI-Software? Hört rein, um mehr zu erfahren!

Product Support Needed?

Du brauchst freiberufliche Hilfe im Produktmanagement? Egal ob Coaching, operativer Support, interimistische Product Leadership oder Consulting: Melde Dich gerne unverbindlich unter jan@produktkraft.com bei mir und wir besprechen, wie eine Zusammenarbeit aussehen könnte.

Credits

Host & Producer: Jan Hoppe - https://www.linkedin.com/in/jan-hoppe-30b38ba3/ - http://www.produktkraft.com

Gast: Till Scholich - https://www.linkedin.com/in/till-scholich-4b0255104/

Audio Engineering: Tim Nippert - https://www.linkedin.com/in/tim-nprt-69a377286/

Transkript (Auto Generated)

Jan: Moin, du hörst den Produktkraft Podcast. Ich bin Jan Hoppe, Product Management und Product Leadership Coach sowie Freiberufliche Produktkraft und ich lade mir hier jeden Monat neue GesprächspartnerInnen ein, um auf deutscher Sprache über Produktmanagement zu sprechen. Mein heutiger Gast ist Till Scholich. Till ist Senior Product Manager im AI First Startup Ficus Health, wo er operativ an der Bleeding Edge von dem arbeitet, das Generative AI uns heute ermöglicht. Gleichzeitig kennt Till das Thema auch aus akademischer Perspektive durch seine Forschung in Stanford und an der University of Michigan. Als wäre das beides nicht genug, trat Till zudem auch noch auf der Republika und dem Merantix Developer Day als Speaker auf, um den Diskurs um den realen Einsatz von Large Language Models mit zu bestimmen. Ein idealer Gesprächspartner also, um über AI Product Management und Design, Evals, Prompt Management, Model Upgrades, Datenschutz und die Abhängigkeiten zur Grundlagenforschung der großen Model Provider zu sprechen. Los geht's! Ja, moin, Till. Schön, dich hier zu haben.

Till: Moin, Jan. Danke für die Einladung.

Jan: Ja, klasse. Bevor wir ins eigentliche Thema einsteigen, bevor wir uns gleich über operatives Produktmanagement im Kontext von Gen.AI austoben, wäre es ja spannend für unsere Zuhörerinnen mal zu hören, wer du eigentlich so bist und warum du dich mit dem Thema auskennst. Erzähl doch mal.

Till: Klar, gerne. Ich habe angefangen mit einem Studium in den Wirtschaftswissenschaften an der Zeppelin-Uni in Friedrichshafen und währenddessen auch schon ein erstes Praktikum in einem Start-up gemacht, so ein Business Development. Und da habe ich gesehen, euch wird super gerne in die Produktschiene, nenne ich es jetzt mal. Und dann nach dem Studium dann auch ein Praktikum im Produktmanagement gemacht bei einem weiteren Start-up für ein paar Monate.

Jan: Gute Wahl, sich in ein Produkt reinzusetzen.

Till: Das war wirklich sehr spannend und hat mir dann auch gezeigt, das will ich weitermachen. Und kurz danach habe ich dann auch meinen ersten Job bekommen als Produktmanager für eine Immobilienplattform in Medellin in Kolumbien. Die hieß La House. Und da habe ich direkt auch mit einem Team von circa acht Leuten gearbeitet. Und es war alles auf Spanisch. Also eine besondere Herausforderung. Erster Job und direkt mit so vielen Leuten. Und jetzt nicht meine Muttersprache. Viel gelernt, viel gelernt. Und danach bin ich dann wieder zurückgekommen nach Deutschland und habe in Berlin ein Start-up mit aufgebaut in der Schifffahrtsbranche. Auch mal ein paar Schiffe von innen gesehen. Das war sehr spannend. Hat man sich wie so ein kleiner Junge gefühlt im Maschinenraum.

Jan: Glaube ich. Gerade wir so aus dem Digitalen, die sonst viel vor Rechnern sitzen, dann in diesen riesigen physischen Objekten in so einem großen Containerschiff zu stehen, stelle ich mir krass vor.

Till: Ja, es war echt cool. Und dann bin ich in die USA gegangen, an die University of Michigan für einen Master in Human-Computer-Interaction und Digital Health. Da habe ich dann auch meine Masterarbeit darüber geschrieben, wie man die Visualisierung von Diabetes-Daten und KI-Empfehlungen verbessern kann. Und kurz darauf, auch noch im akademischen Kontext unterwegs gewesen, als Forschungsassistent am Institut für Human-Centered AI in Stanford, haben wir ein Paper dazu geschrieben, wie sich Chatbots während Gesprächen über mentale Gesundheit verhalten.

Jan: Ja, super spannend. Das heißt, Erstproduktkontext mit viel Startup-Grid, dann der akademische Blick auf Mensch-Computer-Interaktion und AI. Ja, und jetzt bist du dem Thema treu geblieben.

Till: Genau, jetzt seit letztem Sommer bin ich bei Ficus Health auch von Anfang an mit dabei, mit Benjamin Pochheimer als CEO und Mario Elzner als CTO, den du ja auch gut kennst. Und wir bauen ein Produkt, um die Dokumentation in deutschen Reha-Kliniken zu vereinfachen. Relativ kurz gesagt.

Jan: Genau, das ist kurz gesagt. Euer Produkt ist aber eins, das ziemlich, ziemlich viel darauf setzt, dass LLMs eingesetzt werden. Und viele Dinge, die das Produkt macht, funktionieren nur mit Hilfe von LLMs. Und deswegen fand ich es super spannend, mit dir zu reden, weil du wirklich jetzt PM seit einem Jahr bist von einem Produkt, das zu wirklich AI First ist, wenn man so sagen kann. Ist das fair?

Till: Ja, würde ich schon sagen. Wir haben das auch so als Mindset, also nicht nur im Produkt, sondern auch dann in unseren Prozessen intern. Wie kann man AI-Tools gut nutzen, um sich selber auch effizienter und effektiver zu machen?

Jan: Ja, cool. Also das heißt, die ganze Firma noch nicht besonders alt. Ich glaube, anderthalb Jahre jetzt, korrekt?

Till: Genau.

Jan: Ja, du seit einem Jahr dabei. Und die ganze Firma denkt AI First. Das sind ja im Prinzip die Welten, von denen viele bei LinkedIn schreiben, aber in denen eigentlich zahlenmäßig nur die wenigsten tatsächlich praktisch leben könnten. Weil wir wissen, alle gelebte Realität ist das in den meisten Unternehmen noch nicht. Umso gespannter bin ich, was du uns gleich aus der Praxis erzählst. Wollen wir loslegen und ins Thema springen?

Till: Sehr gerne.

Jan: Cool, wir haben es gerade schon gesagt, AI First. Du hast es gerade schon als Begriff einmal reingeworfen. Du hast es schon ausgeweitet. Ja, ja, es betrifft auch die Firma. Aber ich finde, gerade in Zeiten, wo viel mit Buzzwords um sich geschmissen wird, sollten wir vielleicht einmal darauf eingehen. Was verstehen wir denn darunter, wenn man jetzt sagt, AI First, was unterscheidet denn Unternehmen, dass AI wirklich in der DNA mitdenkt? Von einem Unternehmen, das das eventuell noch nicht tut?

Till: Also ich würde sagen, dass Unternehmen, die wirklich AI First sind, sehr stark darauf gucken, wie Daten reinkommen, wie die modelliert werden und wie die dann auch von LLMs weiterverarbeitet werden können. Während Unternehmen, die es schon länger gibt, haben Datenmodelle, wo es dann häufig schwieriger ist, diese Daten für LLMs verarbeitbar zu machen. Und da würde ich sagen, hat man einen Vorteil als junges Unternehmen, wo es ein bisschen eine grüne Wiese ist, weil man sagen kann, okay, wir wollen, dass die Daten so aufgenommen werden. Und man hat schon bestimmte Funktionen im Kopf, um dann die Software genau so zu bauen, dass man zum Beispiel Gespräche nicht nur transkribieren, sondern auch zusammenfassen kann oder Dokumente, die reinkommen. Also LLMs sind ja auch multimodal, dass man wirklich da eine gute Struktur aufbauen kann, um die Daten sehr gut nutzbar zu machen.

Jan: Jetzt könnte ich mir vorstellen, dass jemand, der nicht selbst mit LLMs, Large Language Models, jeden Tag arbeitet, jetzt sagt, ja Moment, was unterscheidet denn jetzt unsere Datenstruktur, von deren Datenstruktur? Hast du vielleicht ein greifbares Beispiel dafür, was das in der Praxis dann bedeutet?

Till: Ja, also das sind, würde ich sagen, zwei Punkte. Also das Datenmodell und die Datenstruktur, wenn man die dann kombiniert, dann kommen wir dann mehr ins Thema Produktmanagement mit User Research und dann sich genau die Domäne oder die Industrie anguckt, wo man unterwegs ist, dann kann man wirklich sagen, ich nehme jetzt mal das Beispiel Klinik, also Reha Klinik, wie ist der genaue Prozess von einer Patientenreise? Also was sind die einzelnen Punkte, die es da gibt? Und dann kann man das auch genauso modellieren im Produkt und im Datenmodell. Und dann in jedem Schritt dieser Patientenreise kann man AI-Funktionen einbauen. Also zum Beispiel, bevor der Patient oder Patientin reinkommt, könnte man sagen, die Anamnese wird schon mal nicht nur von einem klassischen Anamnesebogen, der heute meistens handschriftlich gemacht wird.

Jan: Das ist für diejenigen, die in der Medizin nicht so drinstecken, das ist dieser Fragebogen, den man manchmal kriegt. Welche Vorerkrankungen habe ich? Welche chronischen Krankheiten bringe ich mit? Welche Allergien, etc.?

Till: Genau. Danke fürs Erklären. Da kann man sagen, okay, im klassischen Sinne könnte man sagen, man macht einen nicht nur handschriftlichen Anamnesebogen, sondern einen digitalen. Und wenn man jetzt in der Welt von KI denkt, könnte man auch sagen, man macht einen Voice-Chatbot, der einen anruft und dann das Gespräch aufzeichnet. Und da bekommt man schon mal die erste Zusammenfassung. Und wenn ich jetzt als Arzt einen Patienten, Patientin zum ersten Mal sehe, dann kann ich da schon direkt eine kurze und prägnante Zusammenfassung bekommen, ohne dass ich mir jetzt zehn Seiten von diesem Fragebogen durchlegen muss, um jetzt auf einen Beispiel zu gehen.

Jan: Okay, also ganz spannend. Ähnlich wie, um das mal so zu versuchen, zu kontextualisieren noch weiter. Ich meine, viele Zuhörer und Zuhörerinnen sind damit vertraut, dass man so User Journeys gestaltet und dann zum Beispiel verschiedene UI-Schritte visualisiert entlang dieser Nutzer-Journey. In dem Fall denkt ihr aber immer die zweite Ebene gleich mit, was kann hier datenmäßig passieren? Und ihr denkt nicht nur, also ihr denkt wahrscheinlich auch an die UI-Ebene, aber eben nicht nur an die UI-Ebene, sondern auch, was passiert an welchem Schritt datenmäßig, wie kann man das möglich machen, was ist möglich?

Till: Eine Metapher, die ich manchmal ganz gerne nutze, ist, dass diese Daten wie Wasser sind und man kann es dann so, wie man möchte, umleiten in die richtigen Wege. Und wenn man eben ein kleineres Unternehmen ist, dann kann man diese Wege noch ganz gut ausbauen, während wenn man ein über Jahrzehnte so ein Datenmodell aufgebaut hat, dann ist es schwierig, das irgendwie da rauszuziehen und ja, das dann auch für die KI einfach verarbeitbar zu machen.

Jan: Das ist ein Beispiel dafür, warum das so schwierig ist für die Leute, die das gerade versuchen wollen.

Till: Ja, weil, also zum einen, weil man auch die Infrastruktur dafür bauen muss. Also ist jetzt nicht so, man hat eine App und dann eine API zu einem großen Anbieter und dann hat man die KI drin, sondern man muss da wirklich, und da kommen wir später auch noch drauf zu sprechen, so zum Thema Datenschutz, da muss man wirklich gucken, dass das von vornherein mitgedacht ist, wie die KI an die Daten kommt, wo die liegen und wie die verarbeitet werden. Und wenn das eben zum Beispiel, jetzt ist auch wieder ein Beispiel aus der Kliniklandschaft, viele Daten liegen lokalen on-premise bei den Kliniken und sind jetzt nicht immer in der Cloud verfügbar. Und wenn das der Fall ist, dann ist es natürlich schwierig, zum Beispiel ein KI-Modell lokal bei einer Klinik laufen zu lassen.

Jan: Verstehe. Das heißt, wie macht man es wann verfügbar? Einfach deutlich größeres Problem. Ich habe nicht eine API mit einer Datenbank, die irgendwo liegt, sondern immer wieder neue Schritte, immer wieder neue Herausforderungen.

Till: Und Thema Datensilos ist natürlich im Gesundheitswesen auch sehr, sehr groß. Also, dass die Daten quasi, es ist vielleicht für die gleiche Patientin, aber die Daten liegen in verschiedenen Datenbanken und man bekommt den Neganten gar nicht so gut zusammen.

Jan: Genau. Das ist wahrscheinlich auch eine Herausforderung generell im Gesundheitswesen, ob man ein AI-Produkt baut oder nicht. Aber es gibt ja sicherlich noch ein paar andere Unterschiede, die du jetzt als PM von einem AI First Produkt, das im Prinzip von Anfang an mit den Möglichkeiten von Gen.AI mitbedacht ist, anders sind als in der klassischen PM-Tätigkeit, wo das noch nicht der Fall ist. Was ist da noch anders?

Till: Auf jeden Fall. Also in der klassischen PM-Tätigkeit oder bei Produkten, die man sonst so kennt, wenn man die mit Code baut, dann hat man meistens einen deterministischen Output. Und da schreibt man ja auch Tests in Quality Assurance, dass man sagt, man baut hier ein neues Feature. Und wenn man auf den Knopf drückt, dann soll genau das passieren. Dann soll ich irgendwie ein Fenster öffnen. Und das kann man auch sehr gut testen. Bei LLMs und dem ganzen Thema Prompts hat man einen probabilistischen Output. Das heißt, man kann eine Antwort zehnmal generieren und jedes Mal kommt so ein bisschen was anderes raus. Je nachdem, wenn man den Prompt schreibt, ist das ähnlicher, also als weniger Varianz oder mehr Varianz. Und man will natürlich versuchen, dass man ein möglichst verlässliches Produkt baut, also möglichst wenig Varianz hat. Also jetzt in unserer Domäne, vielleicht nicht bei anderen kreativen Sachen zum Beispiel. Und da muss man dann gucken, wie schreibt man die Prompts, wie evaluiert man sie, wie schreibt man solche Test Cases dafür. Das ist so eine ganz neue Welt, die sich da gerade auftut, wo es dann neue Frameworks gibt, die gerade entdeckt werden. Und ja, wo alle eigentlich einen ähnlichen Wissensstand haben, weil eben ChatGPT kam 2023 raus. Und egal, wie lange man schon Produktmanagement macht, da müssen wir alle so ein bisschen lernen.

Jan: Cool, dann hast du einige Stichworte gerade aufgeworfen, die viele schon gelesen haben, mit denen einige auch schon gearbeitet haben. Aber ich glaube, da sollten wir einmal ins Detail gehen und einmal den Zuhörenden, die noch wenig Praxis damit haben, einerseits erklären, was diese Dinger sind, was sind Evals, Prompt haben die meisten schon gehört. Aber lass uns da doch mal drauf eingehen, weil ja, das klingt ja nämlich erst mal, ich habe da tatsächlich gerade noch von einem halben Jahr habe ich mit einem Kollegen gesprochen, der noch wenig AI-Produkte gebaut hat. Und der hat dann erzählt, das ist ja schon schwierig so QA machen, wenn man dann gar nicht weiß, ob die Software am Ende auch das macht, was sie soll, weil sie ja jedes mal was anderes machen kann. Also wie geht man da ran? Lass uns mal durchgehen. Vielleicht fangen wir beim guten Prompt an und kommen dann auf die anderen Stichworte zu sprechen, die es da gibt.

Till: Also ja, erstmal zum Thema, wie schreibt man einen guten Prompt? Also wenn man so einen Schritt zurückgeht und überlegt, was ist eigentlich ein Prompt? Ein Prompt ist ja eine Anweisung an das LLM, was gemacht werden soll. Und da gibt es dann auch einige Leute, die oder ich finde es generell hilfreich, sich so ein bisschen vorzustellen, dass LLM ist eine Entität wie eine andere Person, ohne es jetzt zu stark zu vermenschlichen. Aber es ist quasi eine Anweisung an eine andere Person oder an das LLM und ich würde sagen, als Produktmanager ist man ganz gut dazu equipped, sage ich mal, so eine Anweisung zu schreiben, weil in unserem täglichen Arbeitsleben schreiben wir viele Tickets für Engineers, was genau das ist, also eine Anweisung an eine andere Person, was gemacht werden soll. Und da muss man auch sehr detailliert sein, weil wenn man dann bestimmte Dinge offen lässt, dann entscheidet die andere Person beziehungsweise das LLM. Und das ist so der erste Punkt quasi.

Jan: Besonders, wenn wenig Kontext da ist.

Till: Das auch noch. Genau. Also das ist so der erste Punkt, dass man eine detaillierte Anweisung schreiben sollte. Und vor so zwei Jahren, sage ich mal, war das vielleicht noch mehr ein Problem, weil dann die sogenannten Context Windows, also wie viel Text kann man dem LLM mitgeben, waren kleiner. Jetzt sind die schon ziemlich groß. Also man kann echt lange Prompts auch schreiben. Und das wäre genau der erste Punkt. Der zweite Punkt ist, dass es bestimmte Best Practices schon gibt. Da ist jetzt noch nicht so die perfekten, aber irgendwie von Anthropic oder von DeepMind. Die haben so eigene Guides zum Prompten. Da kann man dann sehen, so was wie Schritt für Schritt Anweisungen zu geben, kann hilfreich sein, dass man sagt, bitte erst das machen und dann das machen und dann irgendwie nochmal verifizieren. Es kann hilfreich sein, Prompts aufzuteilen, dass man sagt, okay, der erste Prompt guckt sich nur dieses Thema an oder zieht nur diese Informationen raus und der zweite Prompt die anderen Informationen. Das sind so Learnings aus unserer Zeit bei Ficus. Und was wir sonst auch machen, also viel machen, ist einfach zu experimentieren. Also man kann die ganzen Best Practices sich anschauen, aber im Endeffekt muss man gucken, was funktioniert für seinen eigenen Use-Case und was kann man am besten benutzen.

Jan: Wie oft bist du da noch überrascht davon, was funktioniert oder was vielleicht auch nicht funktioniert?

Till: Sehr häufig. Heute auch wieder zum Beispiel eine Screenshot von einer Liste mit nur zwei Spalten gemacht und habe gesagt, bitte einmal so aufschreiben als CSV-Datei an Chetchi-PT. Und es ging nicht. Dann dachte ich mir, das ist doch wirklich ein simpler Task. Das kann nicht sein. Aber dann war es doch schneller, manuelles zu machen.

Jan: Wir haben ja bestimmt auch ein umgekehrtes Beispiel. Wo ist mal was passiert, wo du dachtest, ach krass, das klappt?

Till: Also generell sind wir und auch unsere Nutzerinnen zum Teil überrascht, wie ins Detail diese Zusammenfassung gehen. Also wenn man als Mensch ein Patientengespräch führt, das zum Teil bis zu eine Stunde lang ist, und man sich Notizen macht, dann macht man sich natürlich nicht zu allen Notizen. Aber wenn man, vielleicht soll ich auch mal ganz kurz erklären, wie funktioniert unser Produkt. Was wir machen ist, zum einen kann man ein Patientengespräch aufnehmen mit einem Mikrofon. Das wird dann transkribiert und dieses Transkript gibt man dann an einen LLM, wo man dann eine strukturierte Zusammenfassung rausbekommt. Und dann hat man über diese Patientenreise mehrere Zusammenfassungen von Gesprächen. Man kann auch Dokumente hochladen und Zusammenfassungen davon bekommen. Und dann am Ende, drück mal auf den Knopf, Entlassbericht schreiben. Und all diese Zusammenfassungen sind dann die Grundlage, um dann den finalen Entlassbericht für die Reha zu schreiben. Das so ein bisschen als Kontext. Das ist so der Detailgrad von den Zusammenfassungen. Also, wenn man sich dann die Zusammenfassung durchliest, dann haben wir echt häufig so den Moment, wenn wir vor Ort sind mit Leuten und dann so ein Testgespräch machen. Und dann gucken wir uns zusammen die Zusammenfassung an. Und dann sagt man, wurde das überhaupt gesagt? Also dann vergisst man es schon ein paar Minuten nach dem Gespräch schon wieder, ach, das wusste ich gar nicht, dass überhaupt gesagt wurde. Und dass dann auch zum Teil solche Verbindungen gemacht werden. Also wir stellen keine Diagnosen. Wir sind kein Medizinprodukt, sondern wir dokumentieren nur. Und die Zusammenfassung, da musste das LLM natürlich schon ein bisschen auch abstrahieren. Quasi, was sind gerade subjektive Beeinträchtigungen? Und auch in der Psychosomatik sind da natürlich einige Dinge, wo man sich dann durchliest und denkt, boah, ist schon echt eine gute Zusammenfassung.

Jan: Und wo die Ärzte und Ärztinnen, die das durchlesen, auch denken, nehme ich an, dass das eine gute Zusammenfassung ist.

Till: Ja, natürlich haben wir auch noch Luft nach oben. Wir verbessern uns immer. Aber diese Momente kommen schon echt häufig.

Jan: Na klar. Ja, und jetzt haben viele Leute in Produktrollen schon selbst gepromptet. Ich würde mal behaupten, ein annähernd 100 Prozent der Leute, die hier zuhören, benutzen ihr Klood, benutzen ihr Perplexity, HHGPT. Ich will jetzt kein einzelnes Produkt hervorheben. Aber so selbst einen Chatbot parallel am Laufen zu haben, das machen ja viele. Gepromptet haben viele mal. Wie promptet man denn, wenn das ganze Produkt sich um gute Prompts dreht? Also da wirst du ja wahrscheinlich nicht sitzen und jemand tippt bei Klood eben was ein, sondern ihr werdet ja eure Prompt irgendwie besser verwalten. Wie macht ihr das?

Till: Wir haben tatsächlich, also am Anfang, ganz am Anfang, haben wir das in Google Sheets gemacht, bis das wirklich nicht mehr auszuhalten war. Und dann haben wir nach einem Produkt gesucht. Und wir nutzen aktuell Lengfuse. Die sitzen auch in Berlin. Das funktioniert ziemlich gut, weil man da Prompts auch versionieren kann. Man kann die gut durchsuchen. Man kann Templates verwenden, was auch sehr hilfreich ist. Also, dass man so ein bisschen modular denkt, weil viele Teile von Prompts sind wiederverwertbar. Das heißt, man muss jetzt nicht immer den Prompt ganz von neu schreiben. Und dann ist es super hilfreich, solche Templates zu haben, weil man dann einzelne Templates verbessern kann und dann auf Production deployen kann, quasi ein Update. Und dann haben auf einmal alle Kunden diese neue Version des Prompts. Das ist wirklich, ja, das kann ich nur empfehlen, Templates nutzen, um sich die Arbeit da ein bisschen einfacher zu machen. Und vielleicht kurze Side Story zu LENGTHEWS. Auch so, okay, wie denkt man AI First? Also, die sind auf jeden Fall auch so ein Unternehmen, die so denken und arbeiten. Wir haben Slack-Channels mit denen. Und vor einigen Monaten gab es noch keine Such-Leiste. Oder es gab eine Such-Leiste, aber die war nicht so einfach nutzbar. Und dann habe ich ein Feature-Request in den Channel geschrieben. Und dann kam als Kommentar, ah ja, also ich will quasi eine simple Such-Leiste. Und dann kam als Kommentar ein paar Minuten später, Kursor, also klingt gut, die Feature-Idee. Kursor, bitte einmal machen. Und dann, Kursor, kennen vielleicht auch einige Leute hier, der AI-Idee, ein Coding-Agent, oder benutzt verschiedene Modelle. Und dann wurde von Kursor dieses Feature geschrieben. Und noch am gleichen Tag wurde es deployed. Und dann hatten wir eine Such-Leiste. Und seitdem benutzen wir diese Such-Leiste täglich. Und da waren wir schon ziemlich beeindruckt.

Jan: Ja, cool, das klingt tatsächlich auch beeindruckt. Weil ich würde auch sagen, mit Kursor Prototypen bauen, viele mal ausprobiert. Mit Kursor wirklich Production-Ready-Software innerhalb von einem Tag raus zu pushen, sieht man nicht jeden Tag.

Till: Man muss auch sagen, das war natürlich ein kleineres Feature. Und das hat dann auch gepasst, wahrscheinlich in die Roadmap. Eine Sache, worauf wir noch warten, und das ist vielleicht auch ein interessanter Punkt dazu, wie man mit Prompts arbeitet, ist ein Review- und Kommentar-Feature für Prompts. Also so ein bisschen wie in GitHub, weil wir auch gelernt haben über die Zeit, dass man Prompts wie Code mehr oder weniger behandeln sollte. Also wir haben halt eben Versionierung, wir haben Reviewing von Prompts, weil natürlich Änderungen an Prompts auch starke Auswirkungen im Produkt und dann auch in der realen Welt haben können. Und deshalb würden wir uns wünschen, dass es auch mehr und mehr von den Funktionen dahin geht. Wir haben gerade diese Woche, hat bei uns eine Werkstudentin angefangen als Prompt Engineer. Erstmal Prompt Engineer, später auch noch Software Engineering. Aber das ist ja so eine ganz neue Rolle, die es so gibt. Und mit ihr werde ich dann daran arbeiten, alle unsere Prompts noch besser zu machen.

Jan: Ja, cool, super spannend. Also Tools wie Langfuse, Langsmith, wie sie alle heißen, zu verwenden, ist glaube ich super sinnvoll, aber stimmt. Die funktionieren aktuell. Also für diejenigen, die sowas noch nicht benutzt haben, in weiten Teilen ein bisschen wie ein Content-Management-System, wo man eine neue Version von einem Text einschreibt. Aber klar, es ist noch kein, wo man dann vielleicht auch mal eine Version zurückrollen kann. Aber es ist noch nicht auf einer Höhe wie zum Git.

Till: Ja, das auf jeden Fall. Und wird auch spannend, wann, wie oder ob GitHub vielleicht auch so eine Funktion launchen wird.

Jan: Also umkämpft am Markt. Aber ab wann würdest du denn Leuten empfehlen, ein Prompt-Management-System zu etablieren in der eigenen Firma? Weil ich würde jetzt mal vermuten, wenn jemand das erste Feature baut und da irgendwie einen so einen Prompt drin hat, der vielleicht was zusammenfasst, braucht man es vielleicht noch nicht. Aber ihr seid ja an den Punkt gekommen, wo ihr es dann dringend brauchtet. Was ist der richtige Zeitpunkt?

Till: Generell bin ich ein Fan von dieser Phrase, so feel the pain first. Also benutzt das Tool, so lange wie es geht. Und dann, wenn man wirklich merkt, okay, es geht nicht mehr dann zum nächsten Tool zu gehen. Also da gibt es jetzt keine bestimmte Anzahl von Prompts, wo man sagen würde, jetzt muss ich zu Langfuse oder irgendeinem anderen Tool. Aber das mit den Templates, das kann man natürlich jetzt nicht einfach in Google Sheets machen. Und je früher man damit anfängt, desto hilfreicher ist es dann auch hinten raus, weil man dann eben schon früh diese Template Bibliothek aufbauen kann und sich dann sein Leben dadurch ein bisschen einfacher macht.

Jan: Ja, macht total Sinn. Und wenn ich jetzt meine Prompt habe und dann habe ich vielleicht das Gefühl, ah ja, jetzt habe ich irgendwie einen besseren Prompt geschrieben, jetzt habe ich einen schlechteren Prompt geschrieben. Das ist ja im ersten Moment, gerade für diejenigen, die irgendwie vielleicht privat oder so halbberuflich so einen Chat-GPT benutzen oder einen Cloud benutzen, manchmal auch so ein Vibe, ist das jetzt gut, ist das nicht so gut. Du hast es vorhin schon angesprochen, es sind ja nicht-deterministische Systeme, also da kommt immer was anderes raus. Wie geht man denn daran, wirklich sicherzustellen, dass man jetzt hier was verbessert hat oder nicht?

Till: Ja, das ist echt ein ganz wichtiger Punkt und auch ein sehr dynamisches Feld aktuell. Das ganze Thema Evaluierung. Und wir haben uns da auch einige Gedanken dazu gemacht. Und wie wir das machen jetzt zum Thema Zusammenfassung, also wie kann man die bewerten? Wir haben ein Datenset von Transkripten von Patientengesprächen mit der Einwilligung der Leute und dann daraus generierte Zusammenfassung. Und Ärztinnen haben dann kommentiert, ah, in der Zusammenfassung fehlt das und das. Und dann haben wir eine Liste von Fragen erstellt für die Zusammenfassung, um dann zu sehen, okay, ist zum Beispiel das Medikament XY genannt? Gibt es Schmerzen am rechten Knie? Und dann hast du diese Liste von Fragen, die dann ein LLM beantworten kann. Und sagen wir mal, du hast dann 40 Fragen für diese Zusammenfassung. Dann kannst du quasi sehen, werden die Fragen korrekt beantwortet. Und dann jedes Mal, wenn du deinen Prompt veränderst oder es ein neues Modell gibt, dann kannst du dir eine neue Zusammenfassung erstellen lassen. Und dann einmal, das nennt sich LLM as a Judge, drüber laufen lassen, um dann zu sehen, okay, von diesen 40 Fragen, wie viele davon sind korrekt beantwortet. Aber das ist auch nur quasi eine Möglichkeit, die wir so für uns entdeckt haben. Wir sprechen auch mit anderen AI-Startups, die auch quasi immer individuelle Evaluierungsformen haben. Also es ist jetzt auch nicht so, es gibt die eine super Eval für alle. Es gibt ja auch so Eval-LLMs, aber die haben für uns nicht so gut geklappt, muss ich ehrlich sagen.

Jan: Okay, Eval-LLMs, einfach speziell trainierte Large Language Models, die dann evals machen sollen.

Till: Genau, und vor allem dann auch für Textzusammenfassungen gibt es da spezifische für. Aber ja, das ist halt eine Sache, dass wir ein Datenset haben, die Benchmarks haben. Und ein Punkt, den ich auch ganz gerne erwähnen würde, ist, dass mit dem Prompt schreiben, dass wir halt wissen, uns anreichern. Wir experimentieren mit dem Prompt, wir reden viel mit Leuten, wir haben diese Templates, die dann quasi über die Zeit immer besser werden. Versus, wenn man jetzt selber einen Prompt schreibt, also kann natürlich auch super sein. Es gibt viele Leute, die sehr gut darin sind und auch in ihrem eigenen Arbeitsalltag das so gut machen mit ihren eigenen LLMs oder Chat-GPT-Cloud und so weiter. Aber wir haben uns dagegen entschieden, ein Chat-Interface zu machen im Produkt. Also wir versuchen wirklich, diese Komplexität des Promptens vor den Nutzern zu verstecken, dass diese Last auf uns fällt. Und das ist auch so ein bisschen das Geheimnis meiner Meinung nach, dass man die Komplexität für die Nutzerseite reduziert, aber trotzdem noch gute Prompts hat. Und dann ist die nächste Herausforderung, ok, wenn jetzt jemand eine Veränderung haben will, wie wird diese an uns kommuniziert? Und das ist so eine Herausforderung, wo wir gerade dran sind, weil aktuell ist es so, über E-Mail sagt man, ok, können wir das Kapitel so und so umstellen? Oder in einem Call sagt jemand, ich will das so und so geändert haben. Und dann schreiben wir das alles so mit, aber es ist noch relativ unstrukturiert. Und wir sind dabei, das alles ein bisschen mehr zu strukturieren, dass quasi ein Nutzer, Nutzerin uns als Ficus eine Anweisung gibt und wir geben dann dem LLM die Anweisung.

Jan: Und die kann dann wieder in die Evaluation einfließen später, wenn man sich anguckt, wie gut das funktioniert.

Till: Genau.

Jan: Ja. Um da vielleicht einmal den Bogen zu spannen. Das heißt, wenn ihr ein Prompt Update macht, dann habt ihr ein Set an Themen, wo ihr vorher mit Menschen herausgearbeitet habt, die ihr dann in der Evaluation angeschaut habt. Und die im Prinzip auch ein Mensch sich angucken könnte und gucken könnte, wird jetzt, du hattest vorhin das Beispiel genannt, wird jetzt das Medikament auch tatsächlich in dem Bericht erwähnt oder wird es nicht in dem Bericht erwähnt. Das heißt, eigentlich muss man erst mal commonsense-mäßig erarbeiten, was erwarte ich denn eigentlich an guter Qualität? Welche Fragen müssen dann beantwortet sein? Was muss dann gegeben sein? Man könnte es sich als Mensch angucken, aber ihr seid einen Schritt weiter. Ihr macht LLM as a Judge. Das heißt, ein anderes LLM guckt sich das Ergebnis an und geht dann die Fragenliste durch und guckt, ist das gegeben, ist das nicht gegeben, ist das gegeben, ist das nicht gegeben. Um im Prinzip diesen manuellen Aufwand von, jetzt liest ein Mensch alle Fragen, die ihr euch fachlich überlegt habt, einmal durch und guckt, ob die jetzt wirklich besser beantwortet sind, um diesen manuellen Aufwand auch rauszunehmen.

Till: Ganz genau. Und aktuell ist es so, dass jetzt nicht bei jedem kleinen Update immer diese Evaluierung drüber läuft, sondern das machen wir, wenn wir sagen, okay, wir haben wirklich eine große Promptänderung oder wir wollen ein neues Modell testen. Aber das ist auch unser Ziel, dass wir in nächster Zeit mehr und mehr diese Evaluierung in die Pipeline einbauen, dass es einfach wirklich Teil des täglichen Geschäfts wird. Auch, weil man kann Prompts schreiben und auch ändern, aber auch wenn die Prompts gleich bleiben, kann es sein, dass sich das Verhalten des Modells etwas verändert. Auch wenn es jetzt nicht von Version 3.8 auf 4.0 sich verändert. Hast du es vielleicht gesehen, vor ein paar Wochen hat Anthropic ein Statement rausgebracht, wo sich dafür entschuldigt haben, dass teilweise bei ihren Modellen die Qualität der Outputs schlechter war? Und dann haben sie auch erklärt, warum das so war. Aber das ist halt auch so eine gewisse Abhängigkeit von diesen Providern, weil auch wenn man vielleicht nichts ändert, vielleicht verändert sich trotzdem die Qualität. Und es wäre gut, als KI-Unternehmen zu wissen, okay, wo stehen wir gerade? Verschlechtert sich es eigentlich gerade im Hintergrund, obwohl wir gar nichts machen.

Jan: Ja, kann ich mir vorstellen, wie war denn da eure Erfahrung? Weil man erhofft sich von der nächsten Modellversion ja eigentlich immer, ja, jetzt wird es besser. Aber wenn die gleichzeitig das komplette Produkt brechen kann, weil viel der Produktlogik auf Prompts mit probabilistischen Antworten angewiesen sind, wie geht ihr denn mit so einem Model-Update dann um? Also was muss man da testen, bevor man sagt, okay, jetzt sprechen wir tatsächlich die neue Modellversion an. Und wie viel geht da in der Regel kaputt?

Till: Ja, also wir machen diese Evaluierung, von denen ich eben gesprochen habe. Das ist das Testen. Aber natürlich beim neuen Modell wirklich sehr rigoros. Und wir gucken uns dann auch noch mal mit menschlichen Augen die Outputs an. Ich würde aber tatsächlich sagen, dass man auch nicht alles testen kann. Also man kann schon sehr viel machen und diese Benchmarks kreieren. Aber im Endeffekt gibt es dann doch wieder so kleine Sachen, die man vielleicht im Vorhinein dann nicht entdeckt hat. Und die sieht man dann, nachdem das Update draußen ist. Also zum Beispiel bei uns haben wir vor einigen Wochen umgestellt auf Clotsonnet 4. Und da hat man gemerkt, dass es sehr viel besser im Instruction Following ist. Und das ist ein Begriff, dass man quasi sagt, hier ist der Prompt, das ist die Anweisung. Und das Instruction Following ist, wie genau das LLM diese Anweisung befolgt. Und bei jedem Update wird es eigentlich auch besser und besser. Und das kann sehr gut sein und ist auch gut. Aber gleichzeitig kann das dann auch dazu führen, dass die alten Prompts dann ein anderes Verhalten haben. Also, dass zum Beispiel ein Kapitel wurde mit Stichpunkten geschrieben und jetzt mit dem neuen Modell war es dann im Fließtext. Und dann haben uns Kunden gesagt, ja, okay, warum? Also, wir wollen das nicht so, sondern bitte wieder zurückstellen. Und dann kann man den Prompt natürlich dann auch wieder anpassen.

Jan: Ich könnte mir vorstellen, dass es da auch so diese Fälle gibt, dass man in der alten Modellversion mit Nachdruck dreimal gesagt hat, mach auf jeden Fall das. Und in dem Moment, wo es dann besser den Instructions folgt, ist dann viel zu doll das macht, auf das man hingewiesen hat. Seid ihr auch schon in solche Probleme reingelaufen?

Till: Ja, also, es ist mit unbedingt viel zu doll. Aber eine Sache, an der ich vor ein paar Wochen saß, dann nach dem Update, ist, dass anscheinend, also ich denke mal an dem System Prompt von dem neuen Modell, wird sehr viel Wert auf Formatierung gelegt. Also, dass die Überschriften mit so Sternchen sind. Und das ist anscheinend so tief im Modell verankert, dass ein einfacher Satz, wo du sagst, bitte keine Sonderzeichen in den Überschriften verwenden, reicht nicht aus. Und dann musst du mehrere Lines quasi von Prompt schreiben und sagen, okay, keine Sonderzeichen, aber dann auch noch mal checken, ob wirklich keine Sonderzeichen drin sind. Und nur wenn keine Sonderzeichen drin sind, dann auch den Entlassbericht rausgeben. Und ja, das fand ich schon ein bisschen komisch. Aber genau solche Sachen sieht man dann beim täglichen Prompt Engineering.

Jan: Und die kommen dann halt rein. Das heißt ja auch, dass man eine gewisse Abhängigkeit logischerweise von den Modellen hat und den Entwicklern und Entwicklerinnen der Modelle. Wie siehst du denn als jemand, der jeden Tag mit LLM Modellen arbeitet, so diese Abhängigkeit davon, dass jemand anderes das zur Verfügung stellt, vielleicht ein altes Modell mal discontinued, auf das man gerade eigentlich noch aufbaut, vielleicht mal ein Upgrade ausrollt, auf das man dann geht, das einem am Ende zwar ein paar Dinge ermöglicht, aber wieder ganz viele andere Dinge kaputtmacht, das ja viel Externalität in der Entwicklung. Wie siehst du das Thema?

Till: Ich sehe es wie gespalten. Also ich kann ja mal mit den positiven Dingen anfangen. Das Positive ist, dass sehr viel Geld in die Entwicklung von diesen Modellen gesteckt wird und wir davon profitieren, ohne diese Investments zu machen. Das sind ja wirklich Milliarden von Dollar, die jetzt gerade da reinfließen und immer größere...

Jan: Trillionen!

Till: Und immer größere Datencenter, NVIDIA Chips bis zum geht nicht mehr. Wir profitieren davon, wir können ein Update machen und dann ist das Produkt einfach besser, obwohl wir nur eine Zeile Code geändert haben. Also das ist wirklich super und auch für KI-Startups wie uns, wir konnten anfangen, wir konnten direkt dieses Modell einbinden und wir mussten jetzt nicht erstmal ein eigenes Speech-to-Text-Modell trainieren und dann noch ein eigenes LLM trainieren oder so. Also das ist natürlich eine neue Ära für Startups gerade, dass man so schnell ein neues Produkt bauen kann, was auch Wert schafft.

Jan: Voll, also gerade der Punkt, den du nennst, das ist ja halb automatisch. Also klar, man muss natürlich einmal noch mal sagen, wir nutzen jetzt das neue Modell, aber dass man halb automatisch im Prinzip diesen Mehrwert drin hat und nicht, ja, hier gibt es eine neue Technologie, die macht es leichter und die müssen wir jetzt einbauen, sondern ja, das so frei Haus zu kriegen, schon riesenwert.

Till: Und dann auch solche Funktionen wie Multimodalität, dass man nicht nur Wörter, sondern auch andere Dokumente verarbeiten kann. Da kommt ja dann auch über die Zeit immer mehr. Das ist sehr positiv und hilft uns sehr. Die negative Seite davon ist, dass man eben abhängig von diesen Providern ist. Also ich hatte eben das genannt mit Qualität geht vielleicht runter, obwohl man das gar nicht weiß. Und man muss auch darauf warten, dass die neuen Modelle kommen, was in Europa natürlich, was heißt natürlich, aber aktuell nicht immer selbstverständlich ist. Also vielleicht wird ein neues Modell angekündigt, dann kommt es erstmal in Amerika und dann warten wir hier Monate oder auch länger drauf. Also wir zum Beispiel haben unsere Modelle, beziehen wir über AWS Bedrock. Da laufen die isoliert, also datenschutzrechtlich compliant. Und da können wir jetzt nicht sagen, ja wir schalten das neue Modell frei, sondern wir müssen halt darauf warten, dass es das für uns hier gibt.

Jan: Um da kurz darauf einzugehen, das heißt, ihr macht logischerweise, das Datenschutzthema vielleicht mal einwerfen, ihr sprecht nicht einfach die öffentliche API von Anthropic in diesem Fall an, sondern ihr habt im Prinzip einen Vertrag mit Amazon, mit deren Cloud Hosting Services, die ein separates LLM, das nicht außerhalb des Servers irgendwo anders hin, ein Server-Standort Europa, wahrscheinlich Deutschland sogar.

Till: Deutschland, ja, Frankfurt.

Jan: Und das dann da vor Ort alles verarbeitet.

Till: Richtig, genau. Und das ist uns und natürlich auch unseren Kunden sehr wichtig, dass diese sehr sensiblen Gesundheitsdaten nur durch Modelle verarbeitet werden, die da auch isoliert laufen und wo dann keine Daten zum Training von irgendwelchen neuen Modellen benutzt werden. Und auch Cloud ist vielleicht in anderen Bereichen schon weiter verbreitet, aber in der deutschen Gesundheitsbranche ist das für viele auch zum Beispiel Ficus die erste Cloud-Anwendung, die sie nutzen. Und da müssen wir dann auch ein bisschen Vorarbeit leisten und sagen, ja, das ist datenschutzrechtlich compliant und die Daten werden sicher an die Server gesandt und es werden keine Daten zum Trainieren von Modellen verarbeitet. Und da vielleicht auch ein interessanter Punkt ist, dass sogenannte Shadow Use von LLMs und Chatbots sehr hoch ist in ganz vielen Industrien.

Jan: Perdo Use, erklär mal.

Till: Ja, kann ich gerne machen. Das heißt, dass ich jetzt als Arzt oder Ärztin meinen eigenen ChatGBT-Account hab und ich mache mir einige Notizen am Computer. Und dann haue ich all die Notizen mit so einem kurzen Prompt in ChatGBT und sage, bitte schreib mir einen Entlassbericht daraus. Ist ja verständlich, macht meine Arbeit einfacher und dann kriege ich einen Entlassbericht daraus. Das Problem ist, wenn es mein privater ChatGBT-Account ist und da jetzt kein Enterprise dahintersteht, also ich habe jetzt noch von keiner Klinik gehört, dass sie so ein Enterprise ChatGBT-Account haben, egal welches Modell, dann gehen diese Daten direkt an die Provider und die können dann für das Training genutzt werden. Und deswegen sagen wir halt, wir sind eine datenschutzrechtlich compliant Lösung. Also die Leute nutzen es quasi schon so und schreiben ihre eigenen Prompts und wir versuchen, die Komplexität zu reduzieren und mit einem Privacy-First-Mindset da reinzugehen.

Jan: Wenn ich das jetzt höre, als jemand, der vielleicht auch mit sensiblen Daten arbeitet, der vielleicht irgendwie das Vorurteil hat, dass man das gar nicht datenschutzkonform machen kann, weil dann muss ich die API ansprechen, das sind dann amerikanische Unternehmen. Wie ist denn das bei AWS Badrock? Also angenommen, wir könnten jetzt genauso auf Google gehen oder wir könnten genauso gut auf Microsoft gehen oder auf sicherlich auch noch andere Anbieter. Aber ich weiß, dass es vor anderthalb Jahren gar nicht so leicht war, da reinzukommen. Also das ist nicht einfach so ein, ich klicke mir das jetzt hier eben zusammen und zack, ist das Teil meiner Infrastruktur war, sondern dass man tatsächlich auch persönlich mit denen reden musste. Ist die und durch so einen Wedding Prozess durch musste. Ist das inzwischen immer noch so oder ist die, weißt du das, ob man da inzwischen einfach rein kann?

Till: Nee, es ist echt nicht einfach. Also da hast du total recht. Wir müssen immer nachfragen, auch wenn wir ein Model Upgrade haben wollen, dann müssen wir nach Quotas fragen. Also jetzt nicht so, okay, wir haben Zugang zum Model und wir können so viel machen, wie wir wollen, sondern wir kriegen nur eine bestimmte Anzahl an Anfragen, die uns jetzt natürlich ausreichen und auch erstmal für die nahe Zukunft. Aber das ist auch wieder so ein Punkt der Abhängigkeit, wo die Leute bei AWS sagen könnten, mehr haben wir gerade nicht in Deutschland zur Verfügung. Und das könnte auch echt in Zukunft, muss man echt schauen, dass wir genug Kapazitäten haben, um diese ganzen KI-Startups in Deutschland auch da fähig zu machen, zu operieren. Weil wenn wir jetzt irgendwie groß wachsen und auch andere Startups und es keine Quotas mehr gibt, weil es zum Beispiel nicht genug Nvidia-Chips gibt, die hier sind, dann haben wir ein echtes Problem, würde ich sagen. Und auch diese Abhängigkeit von den Providern mal wieder, also letzter Punkt dazu, ist, dass wir bauen das Application-Layer. Und da sagt auch irgendwie viele Firmen in Deutschland, in Europa, okay, wir bauen keine eigenen Modelle, aber wir bauen sehr gute Software angepasst auf unsere Industrien. Und das ist ja auch super.

Jan: Werner, ja.

Till: Genau. Wir machen guten User Research, schöne Produkte, klasse. Die Sache ist, dass wenn man diese Modelle benutzt, ich habe ja die Vorteile genannt, es geht ziemlich viel von den Einnahmen an den Cloud Provider und die Modell Provider. Und das ist dann auch quasi Wertschöpfung, die aus Europa abgeleitet wird, weil natürlich alle großen Unternehmen sitzen, also Tech-Unternehmen, sitzen in den USA, die dann diese Wertschöpfung für sich vereinnahmen.

Jan: Was ist daraus individuell abzuleiten? Wenn ich jetzt überlege, ah ja, ich möchte jetzt für mein Unternehmen, dass wir auch LLMs einsetzen, wir müssen die eigentlich datenschutzkonform hosten. Was würdest du jemandem empfehlen, der jetzt versucht, dann Infrastruktur zu bekommen?

Till: Also es ist aktuell möglich. AWS hat Kapazitäten, damit müsste man das anfragen. Man kann auch bei den großen Model-Provider diese Enterprise Accounts kaufen, wo dann auch die Daten sehr datenschutzkonform verarbeitet werden. Ja, also ich würde schon empfehlen, dass man bei diesen großen Cloud-Provider anfragt nach Kapazitäten, aber natürlich muss man erst mal schauen, was man genau macht damit. Also ich würde jetzt nicht einfach mal erstmal bei Bedrock Kapazitäten anfragen, ohne überhaupt zu wissen, was ich jetzt genau damit machen will.

Jan: Okay, weil dann der Prozess sich eher schwierig herausstellt.

Till: Ja, dazu ist es schon ein bisschen viel Aufwand.

Jan: Okay, jetzt haben wir aber auch gerade oder habe ich gerade eine leichte politische Note auch im Hinblick auf, wie kann man eigentlich unabhängige AI-Startups in Deutschland aufbauen herausgehört. Wenn wir uns mal vom individuellen Thema absehen, was würdest du dir denn als Zauberstab hätte, dass morgen ist alles anders, wünschen, wie die Infrastruktur gestaltet wäre, dass deutsche Startups da auch jederzeit gut vorankommen können?

Till: Ja, also ich finde es schon wichtig, dass wir, also in Deutschland und Europa, die technische Infrastruktur haben, um diese Modelle zu betreiben. Also das sind eben die Server und die Chips. Ob die Modellprovider jetzt alle aus Europa kommen, finde ich persönlich wäre natürlich toll, aber wenn es dem nicht so ist, und das sind ja riesige Summen, die da investiert werden, die es in Europa aktuell nicht gibt. Also zum Beispiel, also die zwei größten Namen, um die mal zu droppen, sind ja Mistril. Die sind am ehesten in der Open Source-Welt unterwegs. Und vor ein, zwei Jahren war ja Aleph Alpha sehr gehypt in Deutschland als die KI Hoffnung. Von denen hat man leider nicht mehr so viel, oder die haben auch ihre Strategie verändert. Ja, es wäre wünschenswert auf jeden Fall, dass wir genug Kapazitäten haben und da dann nicht zum Beispiel unser Server irgendwo anders betreiben müssen, wo dann auch die Datenschutzlage natürlich anders ist, weil wir in Europa natürlich mit der GDPR ein ziemlich gutes Framework dazu haben. Und dann macht es auch sehr viel Sinn, die Daten hier in Europa zu haben.

Jan: Ja, sehr gut. Ich hoffe, die Politik hört zu und hilft da genug Förderung auf den Weg zu geben. Ich glaube auch, das ist die Infrastruktur der Zukunft. Und ich weiß nicht, wie gut das ist, die in reinen privaten Händen außerhalb unseres Rechtsraums zu haben. Um da nochmal auf einen anderen Aspekt des AI Product Managements zurückzukommen. Du hast es eingangs schon gesagt, wenn man als Unternehmen direkt plant, wir bauen ein AI-Produkt, dann achtet man darauf, wie verlaufen die Datenströme, wie ist unser Datenmodell aufgebaut, sodass das Ganze gut funktioniert und man denkt das Ganze in jedem Schritt mit. Nun ist es aber so, die meisten Unternehmen haben schon ein bestehendes Produkt, die jetzt nicht erst zwei Jahre alt sind und fangen da teilweise dann Stück für Stück an, AI Features einzubauen. Oder auch in eurem Fall ist es ja so, du hast es auch schon angedeutet, die Software, mit der ihr interfacen müsst, ist teilweise noch nicht mal in der Cloud, sondern irgendwo on-premise. Wie gestaltet man das gut, dass man so AI, LLM Themen sukzessive in Produkte einbringt? Wie kann man da interfacen? Was hast du da für Erfahrungen gemacht?

Till: Also da würde ich sagen, dass man am besten klein anfangen soll. Nämlich, dass man sich anschaut, ok, welche, welche Daten habe ich wo und wie könnte man die nutzbar machen. Und dass man sich so einen kleinen Test, wie so eine Sandbox baut und sagt, ok, ich habe jetzt, es gibt sogenannte WINS Framework. Das sind Words, Images, Numbers und Sounds, die sich gut mit LLMs verarbeiten lassen. Und wenn man so mit dem Mindset dran geht und sagt, ok, ich habe irgendwie viele Wörter, also zum Beispiel ganz viele Dokumente, die irgendwo liegen und die sind aber auch an einem Ort und die könnte ich irgendwie verarbeiten mit LLMs und dann Nutzern zur Verfügung stellen. Dann könnte man anfangen und dort ein kleines AI-Feature bauen, um dann zu zeigen, auch intern erstmal, wie das aussehen kann.

Jan: Das heißt, man sucht sich ein kleines Problem, von dem man weiß, dass die Datenstruktur das jetzt gut hergibt, die Dinge zusammenzufügen und wahrscheinlich gut verarbeiten zu können. Man löst aber trotzdem schon mal ein Problem, aber man achtet sehr darauf, wie gut oder wie einfach lässt sich das jetzt umsetzen.

Till: Ja, und da ist dann natürlich immer wichtig, wie im klassischen Produktmanagement und UX Research, welche Daten kommen rein und wie soll der Output sein und welche Informationen brauche ich in welchem Moment. Und dann kann man da Schritt für Schritt, würde ich sagen, sein Produkt verbessern.

Jan: Okay, das heißt kleine Schritte, kleine Probleme als erstes lösen, genau gucken, wo passt das schon gut in der Art und Weise, was LLMs können, aber auch in der Art und Weise, wie sie die Daten benötigen, um damit gut arbeiten zu können. Und von da aus, mit dann dem Rückhalt, dass man erste Erfolgserlebnisse hat, breitet man das Thema aus.

Till: Genau. Ja.

Jan: In kleinen Schritten zu gehen, ist grundsätzlich eine gute Idee in der digitalen Produktentwicklung. Auch immer zu gucken, was funktioniert, was funktioniert nicht. Nun haben wir ja aber einige wahrscheinlich typische Fallstrecke, die bei AI-Produkten passieren, die man vorher nicht so auf dem Schirm hatte. Was hast du da für Erfahrungen gemacht?

Till: Ja, also man kann ein tolles AI-Produkt entwickeln und designen. Und es sieht super aus und es hat den Output, den man sich wünscht. Aber was wir, eine wirklich sehr, sehr große Lesson, die wir gelernt haben, war, dass das Produkt alleine nicht ausreicht, sondern man muss sich auch den Prozess anschauen. Das heißt, der Prozess, wie der aktuell ist, das kann sehr gut sein, oder in den meisten Fällen muss man den ändern und auch dann auf diese neuen KI-Tools anpassen. Da gibt es auch eine interessante Studie zu, war vor einigen Wochen ein MIT-Bericht, wo drin stand, 95% der KI-Piloten sind Fehlschläge. Also es ist ein Pilot und der wird dann nicht mehr weitergemacht. Und dann war dann auch in den Medien, wurde das sehr breit getreten, immer mit der Headline, ach KI, funktioniert doch nicht so, wie man sich es gewünscht hat. Und wenn man dann mal hinter die Schlagzeile geht und sich dann mehr durchliest, dann sieht man, warum hat es im 95 Prozent der Fälle nicht funktioniert. Und der Grund war, dass in diesen Fällen die Prozesse nicht angepasst wurden. Und es wurde quasi einfach nur dieses Tool dahin geworfen und wurde den Leuten gesagt, bitte mal nutzen. Aber dann wurde es quasi neben den bestehenden Prozessen genutzt und dann ist es eigentlich noch mehr Arbeit. Und das ist so dieser Trick mit den Piloten, dass man klar muss man es erstmal testen und dann ist es auch in dem Moment irgendwie mehr Arbeit, weil es ist ein neues Tool, man kennt es nicht. Man ist natürlich an seinem Prozess gewöhnt, den man viele, viele Jahre so gemacht hat. Aber wenn man dann den nächsten Schritt geht und sagt, okay, man sieht hier eine Möglichkeit, sich effizienter aufzustellen, und dann auch den, ich würde es auch nennen, Mut hat, seinen Prozess anzupassen und zu sagen, okay, von diesen zehn Prozessschritten können wir eigentlich drei rausschneiden und die anderen stellen wir dann so um, dass da kommen wir dann wieder zu den Daten, dass die Daten an die richtige Stelle kommen und die Leute sollten dann das Tool so benutzen. Und dann sieht man wirklich auch die Effizienzgewinne und auch mehr Zufriedenheit von Mitarbeitenden.

Jan: Ja, witzigerweise ist gerade diese Zahl 95 Prozent-Studie übrigens auch in den Shownotes verlinkt. Aber diese Zahl 95 Prozent hat man ja früher auch gehört, 95 Prozent aller Product-Features scheitern. Und eigentlich, wenn man mal so in die Fundamentals zurückgeht, was macht digitales Produktmanagement, würde ich fast sagen, naja, wenn du einfach ein Feature irgendwo neben den Kernen des Prozesses, neben den Kernen der Probleme, die man hier löst, irgendwas so als Satelliten daneben stellt, dann funktioniert das ja auch in klassischer UI in den seltensten Fällen. Sondern man muss sich gut überlegen, ja, wie ist denn das jetzt hier eingebunden und wie macht das dann tatsächlich Sinn im Prozess?

Till: Genau. Und da kann ich mal ein paar Beispiele aus unserem Produkt nennen. Also wir sind natürlich ziemlich nah dran an den Kliniken und an den NutzerInnen und haben dann über die Zeit auch einige Funktionen eingebaut, die auf den Prozess in den Reha-Kliniken oder vor allem deutschen Reha-Kliniken angepasst sind. Also zum Beispiel, wenn man jetzt eine neue Sprachaufnahme macht, dann haben wir drei Typen, die man auswählen kann. Also entweder ein Aufnahmegespräch am Anfang der Reha, eine Visite während der Reha oder das Entlassgespräch am Ende. Und das wollen wir jetzt auch noch weiter aufsplitten, weil wir dann gesehen haben, okay, es werden zum Beispiel Diktate gemacht nach dem Aufnahmegespräch. Das sind dann sowas wie Vorbefunde oder die körperliche Untersuchung, die man jetzt vielleicht nicht während des Gesprächs diktieren möchte. Und dass man dieses Wissen und diese Prozesse dann auch ins Produkt einarbeitet, weil dann ich als Nutzer fühle mich dann natürlich auch mehr gehört und gesehen, wenn ich so ein Interface sehe. Noch zwei andere Dinge, die ich hier nennen kann, sind zum einen, dass dieser ganze AI-Scribe markt, also das ist quasi eine Zusammenfassung von Patientengesprächen. Da gibt es einige Provider, also für niedergelassene Ärzte oder auch für Krankenhäuser. Und die machen meistens nur eine Zusammenfassung von einem Gespräch. Und wo wir uns versuchen zu unterscheiden, ist, dass die Reha über mehrere Wochen geht und dass man Zusammenfassungen von den verschiedenen Gesprächen in einem Fall speichert und dann erst am Ende aus diesen Zusammenfassungen einen Entlassbericht generiert, weil eben so in den Kliniken gearbeitet wird. Und das letzte ist eine Checkliste zur Vollständigkeit von Informationen, die wir auf die Bedürfnisse und Bedingungen der deutschen Rentenversicherung angepasst haben, weil die deutsche Rentenversicherung ist der größte Kostenträger in Reha-Kliniken. Und die haben quasi eine Vorgabe, wie soll der Entlassbericht aussehen. Und das haben wir dann übernommen ins Produkt. Das heißt, wenn man einen DRV-Entlassbericht schreibt, dann kann man sich diese Checkliste anschauen und gucken, sind alle Punkte genannt, die in diesem Bericht genannt werden sollen.

Jan: Das finde ich sehr gut, die Beispiele, die du hier nennst. Aber ich finde, das stützt nochmal wieder diesen Gedanken von, denk darüber nach, wie sich das in die Leben der Leute einbindet und wie es dann wirklich ein Problem löst. Was ja eigentlich die Fundamentals von digitaler Produktarbeit sind. Aber ich habe das Gefühl, man ist gerade an einem Punkt, wo diese Technologie so spannend und neu ist, dass manche Leute das vergessen. Ähnlich wie damals, als die Mobile-Revolution war und jeder wollte eine App, dann war die Hälfte der Apps einfach irgendwie nur die Homepage von irgendeiner Firma. Niemand hat sich die App runtergeladen, weil das löst jetzt hier kein Problem, sich von unterwegs als App eine Homepage anzugucken. Und hier ist es wahrscheinlich sehr ähnlich. Es muss immer darum gehen, ein echtes Problem zu lösen und es gut zu lösen mit der Hilfe von Technologie. Aber Technologie darf nicht front and center erstmal da sein und dann wird sie schon automatisch funktionieren, sondern sie muss helfen, Probleme zu lösen, dann funktioniert sie auch.

Till: Auf jeden Fall. Ja, da kommen wir nicht von weg. Von gutem User Research und UX Design, da sind eben LLMs und KI eine weitere Technologie, die echt mächtig ist und die wir gut einsetzen können. Aber gutes Software und effizientes Design, da versuchen wir uns natürlich von abzusetzen, von den anderen Systemen im Gesundheitswesen.

Jan: Mächtig ist, glaube ich, ein gutes Stichwort für einen Punkt, auf den ich auch noch mal zu sprechen kommen möchte. Und zwar ist es so, um andere viel zitierte Studie, die YourBrain und ChatGPT-Studie vielleicht mal reinzubringen, ist es ja so, dass wenn ich LLMs benutze und dabei viel von meinen eigenen Gedankenprozessen auslagere, was LLMs ja auch sehr leicht machen, ich als Mensch auch weniger in den Prozess involviert bin. Wie handelt man das in der Produktentwicklung, dafür zu sorgen, dass das auf Nutzerseite nicht so leicht passiert an Stellen, wo man den Mensch haben möchte im Loop?

Till: Ja, da ist es sehr wichtig, die Balance zu finden von Vertrauen und Verifizierung. Weil man will ja natürlich Vertrauen aufbauen in das Produkt. Wenn ich dem Produkt nie vertraue, dann ist es auch nicht viel wert. Aber auch nicht zu viel Vertrauen. Weil wenn man immer nur sagt, ok, die Zusammenfassung passt, das ist alles richtig und man verifiziert es nie, dann kann das auch zu Problemen führen, weil wir aktuell auf einem Stand sind, wo diese KI-Modelle nicht immer hundertprozentig richtig liegen. In Zukunft, wer weiß. Aber aktuell ist es so, dass Fehler gemacht werden und dass es wichtig ist, die Menschen im Loop zu behalten. Und da kann man verschiedene Wege finden, um den Menschen da einzubinden. Also wir schauen uns gerade an, ein sehr simples, als ersten Schritt, eine Verifizierfunktion zu haben für eine Zusammenfassung oder einen Anlassbericht, dass man sagt, ich als Mensch habe das verifiziert, wie so eine digitale Unterschrift, damit man einfach auch psychologisch dann nochmal anders rangeht.

Jan: Das heißt, ich drücke nicht einfach Speichern, sondern ich muss nochmal irgendwo bewusst, sei es eine Checkbox, sei es eine digitale Unterschrift, wie auch immer, aber ich muss an irgendeiner Stelle nochmal ganz klar sagen, ich als Mensch stehe dahinter, dass dieser Text in Ordnung ist und ich drücke nicht einfach nur Speichern.

Till: Ganz genau, ja. Und wir sitzen auch mit dem KI-Startup Vara zusammen im Büro auf dem Merantix AI Campus in Berlin und die helfen Radiologinnen bei der Diagnose von Brustkrebs. Also die haben auch ein eigenes Modell, die sind schon älter, länger unterwegs, ein medizinisches Produkt. Wenn man dann ein Bild sieht, dann gibt es KI-Empfehlungen und die haben zum Beispiel so eine Funktion, dass man eine bestimmte Zeit lang auf das Bild schauen muss, bevor man aufs nächste gehen kann. Kann man natürlich auch sagen, ja, man muss ja dann nicht wirklich hinschauen, aber solche kleinen Sachen, um die Leute dazu zu bringen, sich mit den Daten auseinanderzusetzen. Und da habe ich auch noch eine interessante Information aus meiner Masterarbeit, weil da haben wir auch geschaut, okay, wie kann man Diabetes-Daten in einem Dashboard visualisieren und wie kann man dann am Ende KI-Empfehlungen anzeigen? Und ich habe zwei Interviews gemacht, also kurz zur Methodologie. Im ersten Interview habe ich mit Ärzten aus der Indokrinologie gesprochen, also die sich mit Diabetes beschäftigen, um zu sehen, wie werden Daten aktuell analysiert. Und das sind einfach lange PDFs, die dann durchgestrollt werden. Und dann habe ich einen Prototyp in Figma gebaut, um diese Daten ein bisschen zu aggregieren und einfacher zu navigieren zu machen. Und dann ganz am Ende, wenn es darum geht, wie sollen die Einstellungen angepasst werden, dann wurden da kleine Empfehlungen angezeigt. Und im ersten Interview, als ich dann ganz am Ende des Interviews eigentlich nur nebenbei gefragt habe, ja, wie stehen sie denn dazu, dass man vielleicht auch algorithmische Empfehlungen sehen könnte, dann war ich immer so die Reaktion, ne, das vertraue ich nicht, das kann das nicht und so. Und dann mit dem Prototyp, wo das dann halt so war, es wurde, man hat sich erstmal die Daten selber angeschaut und dann ganz am Ende konnte man per Knopfdruck sich Empfehlungen anzeigen lassen und man konnte auch auf eine Empfehlung klicken, um sich dann die relevanten Daten anzeigen zu lassen, warum diese Empfehlung gegeben wurde. Dann haben viele gesagt, ah, okay, so was könnte ich mir schon eher vorstellen, weil man sich dann noch mehr in der Kontrolle fühlt.

Jan: Ja, total spannend. Das sind ja verschiedene Ansätze, die du auch gerade nennst, die mich als Menschen dazu bringen. Eigentlich baut man ja fast mehr Friction ein, als sein müsste, weil man nicht einfach eine Antwort da hinschreibt, die gut aussieht, sondern entweder ich muss sie erst mal aufdecken oder ich kann gar nicht weiterklicken und kann jetzt in die Luft gucken oder ich gucke mir das Bild tatsächlich an oder ich gebe einen speziellen Opt-in, ich bestätige nochmal, ja, ja, ich stehe da wirklich hinter. Man baut ja bewusst Friction ein, um den Mensch im Loop zu behalten, weil wir als Menschen, ähnlich wie sich heute niemand mehr eine Telefonnummer merken kann, mental zu einer gewissen Faulheit tendieren und unser Gehirn halt nur mal so funktioniert, dass Dinge, mit denen die anstrengend sind, gerne auch mal nicht gemacht werden, ganz automatisch, ob man das jetzt will oder nicht. Glaubst du denn? Also ich finde das total cool, sowas zu machen. Ein kleiner Skeptiker in mir stellt sich die Frage, ob man diesen Kampf langfristig gewinnen kann. Oder ob da nicht dann das Produkt, das das nicht macht, am Ende bevorzugt wird. Wie siehst du das?

Till: Das ist eine gute Frage. Ich glaube, es kommt auch darauf an, wie gut die Modelle über die nächsten Jahre werden. Weil wenn die wirklich sehr gut werden und weniger und weniger Fehler machen, dann könnte man auch überlegen, dass man weniger von diesen Funktionen einbaut. Aber wie gesagt, aktuell ist es sehr wichtig und viele, würde ich sagen, schätzen es auch, dass es solche Funktionen gibt. Also viele NutzerInnen und ich würde jetzt sagen, es wäre nicht gut, dass alles frictionless zu bauen. Und meine Vermutung ist jetzt eine Hypothese, aber wäre, dass die Produkte insgesamt dann auch weniger angenommen werden würden, weil es ja auch so eine gewisse Verantwortung ist, die man hat, also ja natürlich auch im Gesundheitswesen. Sehr wichtig. Und man sollte versuchen, die Menschen da hinzubekommen, dass man diesen Muskel für bestimmte Skills anstrengt, also metaphorisch gesprochen. Mein Lieblingsbeispiel ist Google Maps. Also früher hat man immer auf Papierkarten geschaut und dann, wo war Norden? Im A2 ist da, wo ich hin muss. Und heutzutage, wenn man nach 2000 irgendwas geboren ist und dann Smartphones schon im Kindheitsalter hatte, dann weiß man gar nicht mehr, wie man so eine Karte liest. Und ich persönlich finde es jetzt auch kein großer Verlust, dass man es nicht weiß. Andere Leute denken vielleicht anders, dass man sich auf Google Maps verlässt. Aber das will man natürlich nicht mit allen Skills. Also mit bestimmten Skills ist es in Ordnung. Also zum Beispiel vielleicht sich irgendwie die Steuern, wenn die Steuern automatisch gemacht werden würden, würde ich mich freuen. Ist jetzt kein Skill, den ich auf ewig brauche. Aber bei anderen, zum Beispiel sozialen Skills, wie löse ich Konflikte? Wie kommuniziere ich? Das finde ich sehr wichtig, als Mensch zu haben. Und das wäre sehr traurig und fatal, wenn diese kognitive Leistung an KI ausgelagert wird.

Jan: Ja, total. Da bin ich sehr gespannt, wie sich das entwickelt, offen gestanden. Oder auch ein Stück weit besorgt, weil ich glaube, in dem B2B-Bereich bin ich total bei dir. Da wird dann vielleicht auch die Software eher angenommen, die das noch mal so als Selling Point einbauen kann auch. Und wo man auch als hier, das ist funktional für die Organisation, dass du das jetzt noch mal liest. Im privaten Bereich sieht man ja schon öfter, dass Leute mit dem ganz grob beschriebenen Problem schon mal zu JetGPT oder Claude laufen und sagen hier, ich habe irgendwie Streit, was mache ich denn? Ohne diesen ersten Gedanken von Moment, wie gehe ich da überhaupt heran? Was möchte ich überhaupt? Was ist eigentlich das Problem? Ohne diese erste Anstrengung, einmal selbst zu machen. Und ich selbst beobachte bei mir, dass ich mich zwingen muss, also ich benutze es jetzt nicht für einen Streit oder so, aber wenn ich angenommen, ich schreibe einen Blogartikel oder ich gestalte einen Workshop oder eine Podcastagenda muss her, dann zwinge ich mich dazu, die Dinge immer einmal selbst aufzuschreiben. Und dann frage ich einen LLM nochmal nach Feedback mit bestimmten Fragen. Aber ich mache bewusst diese erste mentale Arbeit selbst, auch wenn es mich nervt. Aber ich merke manchmal, das wäre jetzt auch bequem, nicht eine Viertelstunde in Ruhe mal drüber nachzudenken und mal langsam das wirklich zu durchdenken, diesen Schritt einfach zu überspringen. Das wäre irgendwie verlockend. Und ich glaube, viele, sehr, sehr viele Leute überspringen diesen ersten Schritt. Und ich bin ein bisschen pessimistisch in so einem BTC-Bereich, wie man die davon abhalten kann.

Till: Ja, und es wird dann auch interessant. Also wir sind ohne Chagy Pity aufgewachsen. Und bei uns, also mir geht es ähnlich, dass ich mich dann manchmal dabei erwische, ich habe ein Problem und dann gehe ich direkt so, ah, ich tue die Frage einfach in Chagy Pity zum Beispiel rein. Aber wenn man damit aufwächst und das dann auch so über die Zeit lernt, was hat das dann für eine Auswirkung auf unsere Gehirne und wie wir sozial interagieren? Vor allem auch jetzt gerade ist es in unseren Computern, in den Smartphones, also es gibt eine gewisse Friction, du musst es rausholen, du musst was eintippen, oder natürlich mit Sprache geht es auch. Aber mehr und mehr kommen jetzt auch AI First Devices raus. Du hast vielleicht gesehen, letzte Woche Meta Ray-Band-Display. Und da geht dann die Friction eigentlich echt gegen null. Das Ding ist dann die ganze Zeit an, das hat den Kontext durch die Kamera. Du kannst halt direkt eine Frage stellen, du kannst auch dann visuell ein Feedback geben. Und dann ist es halt wirklich so bequem und einfach, diese Fragen zu stellen. Und man muss auch nicht dann einen großen Aufwand betreiben, um den Kontext da reinzugeben.

Jan: Ja, wir werden sehen. Spannende Zukunft. Also es lauern Gefahren, es lauern aber wahrscheinlich auch Chancen. Was glaubst du denn, wie sich die nächsten Jahre faktisch entwickeln? Wohl wissend, dass du die Zukunft noch nicht kennst.

Till: Ja, ich bin sehr gespannt. Also wir sind gerade dabei, würde ich sagen, diese Innovation von LLMs nach und nach in Produkte einzubauen, sei es Startups wie wir oder auch größere Unternehmen, die dann neue Produkte und Funktionen entwickeln. Und im berühmten Hype Cycle geht der Hype jetzt, würde ich sagen, etwas runter und wir gehen wirklich dahin, dass man Wert damit schaffen kann, was, würde ich sagen, sehr gutes ist. Und dann werden wir dann über den nächsten Jahr auch sehen, welche Effizienzgewinne können wir wirklich damit schaffen und wie können wir unsere Arbeit damit verbessern und unser Leben einfacher gestalten. Dazu, wie wir jetzt besprochen haben, finde ich es wirklich wichtig, dass diese Produkte so designt sind, dass der Mensch im Zentrum steht, dass wir wichtige Skills und Fähigkeiten behalten, um das Optimum da rauszubekommen und eben nicht zu viel an die KI zu verlagern. Eine andere interessante Entwicklung sind KI-Agenten, wo ich finde, stehen wir noch relativ am Anfang. Aber ich glaube, da wird sich auch viel tun über die nächsten Jahre. Und dieses ganze Prompting-Thema wird sich, glaube ich, auch stark verändern mit diesen Agenten, weil wir ja aktuell mit dem Prompt mit einem LLM sprechen. Aber wenn man dann mehr Agenten hat und quasi wie so eigene Organisationen, wo LLMs dann miteinander sprechen, dann wird da auch sehr viel intern passieren, wo man es quasi vielleicht gar nicht direkt sieht, was genau passiert.

Jan: Das heißt, die Blackbox wird weiter verschlossen, weil mehr und mehr Arbeitsschritte uns einfach als ganze Workflows abgenommen werden. Genau.

Till: Und deswegen ist dieses ganze Feld von AI-Explainability und AI-Safety sehr wichtig, damit diese Modelle das tun, was ich als Nutzer möchte und dass man auch sehen kann, was wurde überhaupt gemacht, was sind die Inputs, was sind die Outputs, was war der Prozess. Ich glaube, das wird wirklich wichtig für die AI-Labs, dass sie daran arbeiten. Manche machen es mehr, manche machen es weniger. Aber dann wir als EntwicklerInnen bei Start-ups und anderen Unternehmen können dann viel daraus ziehen, wenn das gut läuft.

Jan: All right, dem kann ich nur zustimmen. Bevor wir gleich in die schnellen Schlussfragen übergehen, worüber hättest du eigentlich heute gerne noch gesprochen, obwohl ich dir überhaupt keine Frage dazu gestellt habe?

Till: Ja, eine wichtige Frage in Bezug auf Technologie und wie sie eingesetzt wird, ist, wer am Ende die Verantwortung trägt. Und wir haben schon darüber gesprochen, wie man menschenzentrierte Software baut und wie Nutzer in Entscheidungsprozesse zusammen mit KI eingebunden werden können. Und da würde ich gerne noch eine Sache zu sagen. Nämlich am Ende tragen verschiedene Akteure in der Gesellschaft die Verantwortung. Also zum einen gibt es da die Regierung, die einen rechtlichen Rahmen bereitstellen, der sinnvoll und hoffentlich möglichst unbürokratisch ist. Dann die Big Tech Firmen, weil sie die Grundlagen für den Einsatz von KI mit ihren Modellen schaffen. Außerdem Firmen wie unsere, die Apps bauen, welche diese Modelle dann im Alltag nutzbar machen. Und am Ende auch die NutzerInnen, die dann jeden Tag mit diesen Apps interagieren. Und ich würde sagen, dass wir uns bei Ficus dieser Verantwortung bewusst sind. Und wir arbeiten jeden Tag daran, dieser gerecht zu werden und ein zuverlässiges und sicheres Produkt zu bauen. Auch hier kurzer Shoutout an unser Team. Es ist wirklich ein Privileg mit den Leuten, die wir da zusammengebracht haben, jeden Tag zusammenzuarbeiten, Probleme zu lösen, gute Software zu bauen, um die positiven Aspekte von KI für die Menschen hier zugänglich zu machen.

Jan: Amen. Danke für dieses Schlusswort zum Hauptthema. Bist du bereit für den Abschluss?

Till: Ja, bin ich.

Jan: Alles klar. Was unterscheidet Produktmanagement in Kalifornien, Mayedin oder Berlin?

Till: Gute Frage. Scale, würde ich sagen. Also USA ist eine andere Liga versus, ja, wenn man was für einen deutschen Markt baut, ist es sehr fokussiert und in Mexiko und Kolumbien auch eher fokussiert.

Jan: Okay. Wie bleibt man als PM in Zeiten von AI First Produkten am Zahn der Zeit?

Till: Das ist eine gute Frage. Da würde ich einen Shoutout geben an Ethan Molyk. Also wenn es eine Person gibt, die wirklich hilfreiche Paper und Insights teilt, auf verschiedenen Kanälen, ein Professor und ist auch witzig. Also der teilt guten Content oder auch auf YouTube AI Explained. Da kann man viel daraus ziehen, weil es passiert wirklich jede Woche sehr viel.

Jan: Cool. Link in den Show Notes natürlich. Du hast viel akademisch gearbeitet und an Produkten gearbeitet. Wie unterscheidet sich akademische und Produktarbeit?

Till: Das ist die Schnelligkeit. Also vor allem in Start-ups kann man Ideen sehr schnell umsetzen und testen. Und im akademischen Kontext, um da ein Beispiel zu geben, also wir haben letztes Jahr in der ersten Hälfte des Jahres die Studie gemacht in Stanford. Und dann dieses Jahr im Mai ist das Paper rausgekommen, wo sich dann natürlich alle AI-Modelle einmal mehrere Runden gedreht haben. Und das ist, würde ich sagen, ein echter Nachteil im akademischen Kontext.

Jan: Wie wird sich das Produktmanagement ganz speziell so im engeren in den nächsten fünf Jahren verändern?

Till: Also weiterhin muss man gute Anweisungen und detaillierte Anweisungen geben können, sei es in den Promts oder in Tickets. Ich glaube, dass man einfach sehr viel schneller iterieren kann, dass man Prototypen, zum Beispiel Figma Make, ich weiß nicht, ob du das schon mal benutzt hast, das ist super cool, um klickbare Prototypen zu bauen. Man braucht eigentlich gar nicht mehr die Wireframe Stage, sondern das sieht schon ziemlich gut aus. Dass einfach Sachen schneller getestet werden können und dann noch schneller in Production, mit Production Ready Code gehen können.

Jan: Adap to the Speed. Welches Produkt, digital oder physisch, hat dich zuletzt so richtig begeistert?

Till: Da muss ich sagen, das ist richtig oldschool, aber ein ergonomisches Keyboard, das mein Leben verhindert, weil davor hatte ich Schmerzen, ich werde älter, plus ergonomische Maus. Wenn ihr Schmerzen habt, kauft euch ein ökonomisches Keyboard und Maus und arbeitet nicht die ganze Zeit am Laptop. Das ist gut für eure Hände und Arme.

Jan: Sehr gut. Hört auf, Till. Welcher private Bereich deines Lebens ist am stärksten dadurch beeinflusst, dass du Produktmanagement machst?

Till: Ich mache auch gerne Musik-Events mit Freunden, also ambient-Events mit langsamer Musik oder auch Parties. Da ist es gut, Produktmanagement-Skills zu haben, um Leute zu koordinieren oder auch Inhalte zu kuratieren.

Jan: Alles klar. Und wie steige ich heute, wenn ich neu ins Produktmanagement einsteigen will, am besten ein?

Till: Ich würde sagen, einfach selber erst mal was bauen und auch sich weiterhin den Coden beizubringen. Und das ist jetzt anders als vor ein paar Jahren, aber Prototypen zu Vibe-Coden und die verschiedenen Perspektiven zu verstehen. Ich finde, das ist essentiell im Produktmanagement, weil man ja so in der Mitte der verschiedenen Bereiche und Teams sitzt. Also, dass man versteht, okay, wie denken Engineers, wie funktioniert Engineering, wie macht man gutes Design, dass man selber mal was designt und dann auch das Verständnis von der Business-Seite hat, wie verkauft man ein Produkt. Und diese Perspektiven halt versteht und dann zwischen denen kommunizieren kann, sodass sich die Leute untereinander verstehen.

Jan: Vielen Dank für dieses Gespräch, Till.

Till: Vielen Dank dir, Jan, für die Einladung. Hat sehr viel Spaß gemacht.

Jan: Mach's gut. Das war's mit Folge 12. Ich bin gespannt zu hören, was ihr für euch mitgenommen habt. Danke nochmal an Till für die Einblicke in die Praxis. Und danke auch an Tim Nippert für das Audio Engineering dieser Folge. Wie immer eine kurze Bemerkung zum Abschluss. Ich biete Coaching für Produktmanagement und Produktleadership an. Solltest du einen Bereich haben, in dem du besser werden möchtest, dann melde dich gerne unter jan@produktkraft.com oder über LinkedIn bei mir. Beide Links findest du natürlich in den Show Notes. Bis bald.

Jan Hoppe

Generative AI Product Management: Wie sieht LLM Product Management in der operativen Praxis aus? – Till Scholich zu Gast (Product @ Ficus Health, ex Stanford Research Assistant)

AI First Product Management & Design, Evals, Prompt Management, Model Upgrades, Datenschutz und Abhängigkeiten von LLM Grundlagenforschung

Product Support Needed?

Credits

Links

Transkript (Auto Generated)

Wie lehrt und vermittelt man digitales Produktmanagement? Spannungen und Ergänzungen zwischen Theorie und Praxis – Sascha Hoffmann zu Gast (Prof für BWL & Online-Management @ Hochschule Fresenius)

Als Produktmanager Gründen: Eine authentische Erzählung, darüber, wie sich Start Up anfühlt – Alexander Hipp zu Gast (Founder Beyond, ex N26, ex XING)

PRODUKTKRAFT - Jan Hoppe