In der fünften Folge unseres Podcasts KI im Einkauf sprechen Fabian Heinrich (CEO von Mercanis) und Dr. Klaus Iffländer (Head of AI bei Mercanis) über die zentrale Rolle synthetischer Daten in der Weiterentwicklung von KI im Einkauf.Worum geht’s?
Synthetische Daten ermöglichen es, Large Language Models (LLMs) mit maßgeschneiderten, branchenspezifischen Informationen zu trainieren – und damit die Leistungsfähigkeit vertikaler KI-Agenten zu steigern. Ein essenzieller Schritt, um Einkaufsteams mit intelligenter Automatisierung zu unterstützen.
Ist das die Zukunft der KI im Einkauf? Wir beleuchten, wie synthetische Daten die Grundlage für spezialisierte KI-Anwendungen bilden – und was das für die Beschaffungswelt bedeutet.
In eigener Sache: Zum Procurement Unplugged by Mercanis Podcast gibt es einen E-Mail-Newsletter. Jetzt HIER anmelden!
Fabian Heinrich (00:01)
Liebe Zuhörerinnen und Zuhörer, herzlich willkommen zu einer weiteren Folge von Procurement Unplugged. Heute wieder mal mit Dr. KI, Dr. Klaus Iffländer. Wir haben jetzt schon einige Folgen das Thema KI, generative KI besprochen. In der letzten Folge hatten wir einen Deep Dive zu Vertical AI Agents und wie das das ganze Thema Software disruptieren kann, beziehungsweise auch alle heutige Software irgendwo kannibalisieren kann.
Heute geht es das Thema synthetische Daten und wie diese Daten zu einem Booster werden können für jegliche LLMs und auch die Vertical Agents. Das sind jetzt viele neue Wörter, wird auch hier und da vielleicht bisschen technisch, aber dafür haben wir unseren Dr. KI dabei. Herzlich willkommen Klaus.
Dr. Klaus Iffländer (00:54)
Hallo, freut mich wieder dabei zu sein.
Fabian Heinrich (00:57)
Und dann steigen wir doch gleich mal ein, bevor wir jetzt über LLMs oder alles Mögliche reden, was sind denn eigentlich synthetische Daten?
Dr. Klaus Iffländer (01:07)
Synthetische Daten sind Daten, die einfach künstlich erzeugt werden. Denn traditionell kommen Daten zum Beispiel aus anderen Systemen oder werden in Umfragen erhoben und kommen aus sonst welchen Datenquellen. Aus Datenbanken, E-Mails, also überall wo mit digitalen Daten gearbeitet wird.
Da kommen die her und da können die auch benutzt werden. Und manchmal ist es eben so, dass für bestimmte Zwecke diese Daten, die man eigentlich bräuchte, wenn auch nur zu Trainingszwecken, nicht zur Verfügung stehen. Und dann sind das genau diese Beispiele, wo man sich mit synthetischen Daten helfen kann. Zum Beispiel habe ich jetzt gehört, in der Robotik wird es stark eingesetzt, denn Roboter, die sich durch echte Welten bewegen, zum Beispiel zu Hause durch die Wohnung, müssen ja immer darauf trainiert werden, dass sie sich zurechtfinden können.
Und da man jetzt nicht endlos Roboter durch verschiedenste zu Hause schicken kann, die zu trainieren, umzugehen, macht man das so inzwischen, dass dort auch synthetische Daten generiert werden. Das heißt, es werden einfach quasi bisschen zufällig Wohnungen und Häuser entworfen, durch die sich Roboter...
Fabian Heinrich (02:28)
Das wäre jetzt auch meine nächste Frage gewesen, wo bekomme ich denn diese synthetischen Daten her? Das macht ja super viel Sinn, aber woher bekomme ich denn die synthetischen Daten?
Dr. Klaus Iffländer (02:38)
Die bekommt man nicht irgendwoher. Man kann natürlich auch Daten kaufen teilweise, aber klassischerweise werden synthetische Daten einfach generiert. Das heißt, die werden von Algorithmen einfach erzeugt. Das heißt, man gibt bestimmte Regeln vor. Zum Beispiel im Procurement so eine Preisentwicklung. Wäre halt aus Datensicht gesehen einfach eine Zeitreihe von Preisen. Und wenn man jetzt bestimmte Fälle damit trainieren will, zum Beispiel plötzliche Preisfälle oder plötzliche...
Oder langsame Preisanstiege, dann gibt man diese Regeln dem Algorithmus vor und der erstellt, also der denkt sich das quasi aus und dann erstellt er nach diesen Regeln halt genau solche Datensätze und die kann man dann benutzen, wiederum zum Beispiel LLMs damit zu trainieren.
Fabian Heinrich (03:30)
Genau, ich meine bei den Robotern, das ist ja einleuchtend, man hört sich ein bisschen so an wie diese Trainingssätze, die ich so gebraucht habe, früher, Machine Learning Algorithmen weiterzuentwickeln. Wieso sind diese synthetischen Daten jetzt so unersetzlich wichtig für die LLMs?
Dr. Klaus Iffländer (03:50)
Ja, es gab jetzt eine große Diskussion darüber, dass der Fortschritt in der LLM-Entwicklung sich verlangsamt hat. Und eine der Ursachen, die dafür verantwortlich gemacht wurden, war, dass die Trainingsdaten im gesamten Internet einfach ausgegangen sind. Es gibt ja nur eine begrenzte Anzahl von qualitativ hochwertigen Publikationen, die man als Trainingsdaten benutzen kann. Zum Beispiel komplett Wikipedia, komplett Twitter oder das komplette Reddit.
Solche Dinge werden benutzt, LLMs zu trainieren. Und es gibt aber nur ein Wikipedia. Darüber hinaus werden die Datenquellen irgendwann etwas dünn. Eine Möglichkeit, sich da zu behelfen, trotzdem LLMs weiterhin zu verbessern, sind synthetische Daten. Wir haben ja schon LLMs, die schon z.B. ganz gute Texte liefern können. Die kann man auch benutzen, um wieder neue Trainingsdaten zu generieren, die dann bestimmte Fälle abdecken.
Fabian Heinrich (04:51)
In den synthetischen Daten habe ich natürlich auch diese Vertikalisierung. Also nicht nur ich bekomme ich über synthetische Daten ein zweites oder drittes Wikipedia, das besser zu trainieren, sondern, ich kann die synthetischen Daten dann auch für mein vertikales Thema, Stichwort Einkauf, bekommen oder erstellen.
Dr. Klaus Iffländer (05:11)
Ganz genau, da macht es halt sehr viel Sinn. Also klar, man braucht jetzt nicht noch mehrere Wikipedias. Also es muss nicht sehr, sehr breit gestreut sein, die Datenquelle, sondern gerade, wenn man zum Beispiel vertikale Agenten aufbauen möchte und da bestimmte Fälle oder bestimmtes Hintergrundwissen eben reinbringen will, dann ist es eine valide Möglichkeit, genau solche Trainingsdaten zu erstellen. einfach als synthetische Daten.
Fabian Heinrich (05:41)
Und jetzt nochmal sehr blöd gefragt, wenn ich jetzt quasi meine LLMs trainieren möchte, beziehungsweise meine Vertical Agents, wo würde ich die synthetischen Daten dann generieren oder, also du hast vor, schon erwähnt, einkaufen. Ich meine, jetzt in dem Beispiel zu bleiben mit Wikipedia, ich kann mir jetzt schlecht ein zweites Wikipedia einkaufen.
Dr. Klaus Iffländer (06:04)
Ne, also mit Einkaufen meinte ich solche Sachen wie Preisentwicklung zum Beispiel. Da gibt es ja etablierte Firmen, die solche Daten vorhalten und auch pflegen und archivieren. Solchen Stellen kann man das einfügen. Das sind echte Daten und synthetische Daten würde man sich halt generieren. Also da würde man entsprechende Algorithmen erstellen oder...
Fabian Heinrich (06:16)
Gut, das wären ja dann echte Daten, das wären ja jetzt nicht synthetische Daten.
Dr. Klaus Iffländer (06:29)
spezialisierte LLMs dafür aufsetzen, die halt genau solche Daten dann erzeugen, wie zum Lieferantenausfälle. Stell dir vor, du hast eine Historie von Event und bei bestimmten davon werden dann einfach zum Zeitpunkt der Lieferung, fällt dann der Lieferant aus und du hast ein Problem. Wie soll der Agent darauf reagieren? Und solche Fälle vorab zu testen oder überhaupt zu trainieren, dafür müsste man sich dann diese Daten eben erzeugen.
Fabian Heinrich (07:04)
Okay, also jetzt sagen wir mal für die Zuhörer, das runterzudeclinieren, also ich will einen Agenten quasi bauen, beziehungsweise vielleicht jetzt eine Software wie Mercu AI baut, einen Agenten, und dann der neue Agent hat vielleicht die Aufgabe, Risikobewertung.
Für Polymere und dann habe ich irgendwo einen echten Datensatz und der echte Datensatz sind vielleicht meine historischen Ausfalldaten, historischen Preisdaten, verhandene Ausfallwahrscheinlichkeit, das ich irgendwo im ERP hinterlegt habe und basierend auf diesen Daten kann ich dann mit verschiedenen LLM-Algorithmen erst einmal synthetische Daten generieren, indem ich dann quasi mein Wikipedia 2345 N Wikipedia generiere und mit diesen N Wikipedia, die ich mir quasi basiert auf den Echtzeitdaten generiert habe, kann ich dann quasi diesen Vertical Agent auf diesen Use Case trainieren.
Dr. Klaus Iffländer (08:10)
Genau, und vor allem geht es dann darum, solche unterrepräsentierten Fälle abzubilden, wie zum Beispiel die Lieferantenausfälle. Denn wahrscheinlich hast du ja hoffentlich eine Historie von sehr zuverlässigen Lieferanten. Und wenn das aber fast immer so ist, dann ist es für den Agenten schwer zu wissen, was er denn machen soll.
Wenn der Fall eintritt, dass doch die Lieferanten jetzt kurzfristig ausfallen oder eine größere Zahl davon. Und genau diese Daten würde man sich dann generieren, damit der Agent dann auch darüber Bescheid weiß.
Fabian Heinrich (08:43)
Wenn man jetzt auch auf die technische Seite guckt, was wären jetzt so Anwendungsfälle, wo man sagt, das wären jetzt Beispiele, wo so ein synthetischer Datenbooster sehr viel Sinn machen würde und wo ich damit sehr viel Wert generieren kann?
Dr. Klaus Iffländer (09:00)
Ja, da gibt es einige. Zum Beispiel stell dir vor, du hast ein Chatbot im Procurement, wo bestimmte Anfragen bearbeitet werden oder bestimmte Bestellungen abgewickelt werden. Und es ist eine Interaktion zwischen dem Einkäufer und dem Lieferanten.
Dann könnte man diese Daten nehmen und noch weitere dazu generieren. Oder vielleicht hat man auch gar keine direkt zum Anfang. Dann könnte man solche Dialoge halt generieren. Weil stell dir vor, so wie du es in Chat GPT halt auch machen würdest, dass du sagst, liebes Chat GPT, stell dir vor, du bist jetzt ein Einkäufer und du bist im Gespräch mit einem Lieferanten. Wie läuft der Dialog ab? Und dann generierst du einfach hunderte solche Dialoge und nimmst die dann wieder deinem neuen Agenten, der gerade entwickelt und trainiert wird, dem beizubringen, was in bestimmten Situationen passiert oder wie er auf bestimmte Fragen antworten soll.
Fabian Heinrich (09:57)
Ja, meine, das ist natürlich gerade für uns als Software- bzw. Agent-Anbieter extrem hilfreich, weil wir brauchen jetzt nicht irgendwie Millionen von Trainingsdaten setzen. Wir können basierend auf verschiedenen Echtzeitdaten natürlich diese...
Replikationen durch die synthetischen Daten erstellen und so natürlich sehr mächtig diese Agenten eben trainieren. Deswegen ist natürlich für uns schon wahnsinniger Werttreiber oder wie du es ja anfangs genannt hast Booster, diese synthetischen Daten zu verwenden, quasi sehr intelligente Vertical Agents zu generieren.
Dr. Klaus Iffländer (10:45)
Genau, genau. Ihr habt natürlich verschiedene Daten schon zur Verfügung, aber oft ist so, dass eben bestimmte Fälle unterrepräsentiert sind oder es ist dann eben doch schwierig genau dafür, Produktdaten.
Ihr habt jetzt schon viele Produkte auf der Plattform und trotzdem ist es so, dass es in bestimmten Bereichen eben wenig... hinterlegte Produktspezifikationen gibt oder so. In solchen Fällen kann man sich dann auch Daten generieren oder Compliance-Dokumente. Gerade wenn neue Regelungen eingeführt werden. Letztes Jahr hatten wir das Lieferketten-Sorgfaltspflichten-Gesetz zum Beispiel und dann herrscht immer so eine gewisse Unsicherheit in der Branche, wie dann die Dokumente dann genau aussehen und wie das genau abzudecken ist.
Und für solche Dinge kann man sich dann eben auch Daten generieren, dann trotzdem eine entsprechende Software-Compliance oder überhaupt eine Abdeckung von Anwendungsfällen herzustellen.
Fabian Heinrich (11:41)
Ja, wenn man sich das bisschen durchdenkt, könnte man ja auch argumentieren, da gibt es jetzt gar nicht mehr so den Unterschied, David gegen Goliath, im Punkt von Daten. Man hat ja immer so gesagt, bis jetzt, okay, das sind jetzt Anbieter, die sind seit 20, 30 Jahren auf dem Markt, die haben die ganze Datenhoheit, die profitieren von den Daten, dem kann ich mir jetzt ja behelfen mit den synthetischen Daten und obwohl ich jetzt nicht seit 25 Jahren auf dem Markt bin, kann ich dann meine Agenten ähnlich gut Trainieren ist diese Schlussfolgerung so richtig auf technischer Ebene?
Dr. Klaus Iffländer (12:16)
Ja, ganz genau. Also vom Prinzip her ist es so, dass du diesen Größenunterschied damit ausgleichen kannst. Natürlich kann es sein, dass in 20 Jahren dann doch nochmal was vorgekommen ist, was man jetzt nicht über einen Algorithmus antizipieren konnte. Aber diese Unterschiede sind marginal, denke ich.
Fabian Heinrich (12:37)
Ja, sehr spannend. meine, das kommt natürlich auch wieder einher mit irgendwie technischen Herausforderungen oder Risikofaktoren oder vielleicht irgendwie, sage ich mal, Problematiken in der Implementierung, wie ich jetzt so quasi einen Vertical Agent auf das Level bringe über die synthetischen Daten. Vielleicht könntest du das noch mal kurz beleuchten.
Dr. Klaus Iffländer (13:03)
Ja, also ein großer Unterschied ist natürlich, mit welchem Anspruch man auch diese synthetischen Daten denn erstellt. Weil im einfachsten Fall ist es halt so, wie ich gesagt habe, man gibt in Chai GPT einen Prompt ein und dann kommen halt bestimmte Daten raus, die man generiert haben wollte. Dann ist es aber anders vielleicht mit quantitativem Daten, wo halt bestimmte Muster oder Verteilungen eine Rolle spielen und da den den Mehrwert darstellen.
Dann muss man halt wirklich dann auch programmieren und bestimmte Algorithmen erstellen, die dann genau auf solche Muster und Verteilungen achten bei der Datenerstellung, damit die generierten Daten das dann auch aufweisen und so dann als Trainingsdaten für genau den Zweck auch verwendbar sind. Und dann gibt es noch noch anspruchsvollere Methoden wie zum Beispiel die Generative Adversarial Networks. Und da ist es so, man nimmt erstmal einen Generator, der generiert im ersten Schritt erstmal zufällige Daten.
Fabian Heinrich (14:09)
Der Generator, generiert mich aus anti-maisenthetischen Daten, meine Enzikipädias.
Dr. Klaus Iffländer (14:14)
Genau, wenn du jetzt synthetisch... Genau, dann gibt es aber einen Gegenspieler dazu, der versucht zu unterscheiden, ob diese Daten jetzt wirklich synthetisch sind oder ob die echt sind. So, und klassifiziert halt die erzeugten Daten danach. Und wenn...
Wenn er das erkennt, also als unechte Daten, dann bekommt der Generator wieder dieses Feedback zurückgespielt und wird dadurch immer besser. Und der Gegenspieler, der das versucht zu unterscheiden, wird halt auch immer besser, weil er immer besser die Unterschiede erkennt. Und so werden beide Systeme immer besser. Und im Ergebnis bekommt man halt sehr, sehr realistische Daten generiert, weil die anfänglich sehr zufälligen Daten, die da erstellt werden, halt über die Zeit und über dieses Feedback halt immer präziser werden und so immer näher an den echten, also quasi den realen Daten immer näher dran sind. Also das ist halt ein sehr anspruchsvolles Modell, aber liefert auch sehr, gute Ergebnisse. Ist natürlich bisschen aufwendiger beim Aufsetzen, aber liefert sehr, gute Ergebnisse.
Fabian Heinrich (15:25)
Ja und wenn man das jetzt irgendwie bisschen in die Zukunft projiziert, was denkst du hat das für Implikation? Was hat das für Implikation irgendwo auf dem Softwaremarkt? Aber auch vor allem jetzt hier auf unser Thema Einkauf.
Dr. Klaus Iffländer (15:40)
Ja, also wie du sagst, gleicht das so bisschen die Größenunterschiede bei den Softwareanbietern aus, weil jetzt viele Unternehmen dadurch in der Lage sind.
Fabian Heinrich (15:49)
Also quasi das Argument, okay, Ariba hat jetzt einen Datenvorteil, die gibt es seit 1994, das gibt es nicht mehr, weil auch in Mercanis, die es seit 2020 gibt, können über synthetische Daten ähnlich quasi von einem Datenpool profitieren, der in gleicher Maße die Agenten trainiert.
Dr. Klaus Iffländer (16:11)
Genau, und die Frage ist vielmehr, welches Unternehmen macht am meisten draus? Also wer denkt in die Zukunft und entwickelt halt zeitgemäße vertikale Agenten, die halt wirklich die Einkaufsfunktion digital skalieren, als wären es zusätzliche digitale Mitarbeiter? Ich glaube, das wird auf jeden Fall kommen, dass da der Wettbewerb hingeht.
Fabian Heinrich (16:34)
Das ja eigentlich auch ganz spannend im Zusammenhang mit unserer letzten Folge, wo wir gesagt haben, früher oder später, den nächsten paar Jahren werden die meisten Software-Spieler kannibalisiert werden, weil ich nur noch das System of Records habe oder die Datenbanken und dann User Interface. Jetzt in dem Zusammenhang, wenn ich das mindset habe, mich zu kannibalisiert, habe ich ja wieder quasi ein...
Gleichgeleveltes Playing Field, weil der Unterschied der Daten dieser Wettbewerbsforschung, ich mir über die Jahre aufgebaut habe, kann ich mir mit dem Booster von synthetischen Daten ausgleichen.
Dr. Klaus Iffländer (17:10)
Ganz genau. Also das ist eine Entwicklung, die meiner Meinung nach kommen wird, dass es ein anderer Wettbewerb sein wird. für die User ist es natürlich ein Riesenvorteil, weil die Agenten immer fähiger werden. Also die werden mit immer besseren Daten trainiert und sind dann wirklich in einer Lage, Beispiel Preisverhandlungen durchzuführen.
Das ist natürlich ein Riesenfortschritt für die ganze Branche und die ganze Einkaufsfunktion.
Fabian Heinrich (17:41)
Ja, ich denke auch hier ebenso spannend für alle Chief Procurement Officer oder alle, die digitalisieren wollen, dass man sich anguckt, wer benutzt euch schon synthetische Daten, wer, sagen wir mal, bringt seine Agenten auf das nächste Level.
Und eigentlich jetzt, was man hier als Wissen mitnehmen kann, die alteingesessenen Spieler, selbst wenn sie zwei, drei Jahrzehnte Erfahrung haben, haben eigentlich keinen Erfahrungsvorteil mehr, weil der Erfahrungsvorteil waren ja oder sind die Daten und das gleichen jetzt die neuen Spieler oder das kann man jetzt mit der Technologie der synthetischen Daten ausgleichen. Also von dem her extrem spannend wieder mal Klaus, danke, dass du uns das Thema näher gebracht hast.
Vielen Dank, wir freuen uns schon auf die nächste Folge mit dir, wo es dann Inferenz-Time Computing und Reasoning geht. Vielen Dank dir.
Dr. Klaus Iffländer (18:39)
Danke dir, bis bald.