Zephyrnet-Logo

Generative KI und semantische Compliance – DATAVERSITY

Datum:

Nur CPT und seine Kollegen wissen, wie viele Aussagen basierend auf Ergebnissen generativer KI getroffen wurden. Aber es gibt jede Menge davon.

Mein Hintergrund als Datenmodellierer über viele Jahre lässt mich ein wenig zittern, denn was die freundlichen KI-Helfer uns dabei helfen zu produzieren, unterliegt kognitiven Prozessen, bei denen wir, die Leser, die Eingaben, die KI-Ergebnisse, im Hinblick auf die (von uns selbst) erfasste Semantik, spezifisch verarbeiten Wissen, das jeder von uns im Laufe der Zeit aufgebaut hat. Und wir erwarten, dass die KI-Ergebnisse ähnlichen (dh entsprechenden) Mustern folgen. 

Mit anderen Worten würde ich erwarten, dass „ChatSome“ implizit einer bestimmten Semantik entspricht, die in die Trainingssätze integriert ist:

Diagramm erstellt durch WebWOWL – Gehen Sie dorthin, um das Diagramm zu lesen

Das semantische Netzwerk im obigen Beispiel ist die bekannte FOAF-Ontologie (Friend of a Friend), die aus der World Wide Web-Community stammt. Wenn ChatSome also freundbezogene Themen bespricht, liegt es nahe, semantische Strukturen zu erwarten, die sich nicht allzu sehr vom oben genannten Standard (FOAF) unterscheiden.

Gemeinsame Semantik ist eine Notwendigkeit in der menschlichen Kommunikation.

Schnelles Engineering zur Rettung?

Die Antwort der KI-Vermarkter scheint vorerst sorgfältiges, kuratiertes „promptes Engineering“ zu sein – denn wenn Sie nicht definieren können, wonach Sie fragen, wie sollte dann eine KI (oder ein Mensch) in der Lage sein, intelligent zu antworten?

Siehe zum Beispiel diesen hervorragenden aktuellen Artikel von Oguz A. Acar aus der Harvard Business Review: „KI-Prompt-Engineering ist nicht die Zukunft"

Ich ermutige Sie, den Artikel zu lesen, aber das Wesentliche erfahren Sie in diesem Zitat: 

„Allerdings könnte die Bedeutung des Prompt Engineering trotz der damit verbundenen Begeisterung aus mehreren Gründen nur von kurzer Dauer sein. Erstens werden zukünftige Generationen von KI-Systemen intuitiver und besser in der Lage sein, natürliche Sprache zu verstehen, wodurch der Bedarf an sorgfältig entwickelten Eingabeaufforderungen verringert wird. Zweitens erweisen sich neue KI-Sprachmodelle wie GPT4 bereits als vielversprechend bei der Erstellung von Eingabeaufforderungen – die KI selbst steht kurz davor, die Eingabeaufforderungstechnik obsolet zu machen. Schließlich hängt die Wirksamkeit von Eingabeaufforderungen vom jeweiligen Algorithmus ab, was ihren Nutzen für verschiedene KI-Modelle und -Versionen einschränkt.

Was ist also eine dauerhaftere und anpassungsfähigere Fähigkeit, die es uns weiterhin ermöglicht, das Potenzial der generativen KI zu nutzen? Es ist Problem Formulierung – die Fähigkeit, Probleme zu erkennen, zu analysieren und abzugrenzen.“

Dem stimme ich weitgehend zu. Das bedeutet, dass noch mehr Arbeit zu erledigen ist. Tatsächlich scheint mir, dass das, was wir von einigen der optimistischsten und hoffnungsvollsten Marktmacher für generative KI hören, diesem berühmten (angeblichen) Zitat der schwedischen Autorin Astrid Lindgren ebenbürtig ist, die angeblich ihre Hauptfigur, Pippi, preisgibt Langstrumpf sagt: „Ich habe das noch nie zuvor versucht, also denke ich, dass ich das auf jeden Fall schaffen sollte.“

Hier ein Buchcover aus dem Pippi-Langstrumpf-Universum:

Bildquelle: Rakuten Kobo

Für Pippi war nichts zu schwierig, sogar das Heben ihres Pferdes! Es gibt mindestens 14 Bücher und eine Reihe von Filmen, die dies dokumentieren. Kinder und ihre Eltern sind bis ins Erwachsenenalter von diesen Geschichten fasziniert. Warum erinnert mich das an einige der Erzählungen aus Teilen Kaliforniens?

Es gibt jedoch ausgewogenere Ansichten: In seinem hervorragenden neuen Buch: „Die DataPreneurs – Das Versprechen der KI und die Schöpfer, die unsere Zukunft gestalten“, betont Bob Muglia, wie Yann LeCun von der New York University und Meta weist darauf hin, einige Grundlagen zum Lernen und Begreifen in „A Path Towards Autonomous Machine Intelligence Version 0.9.2, 2022“:

„Menschliche und nichtmenschliche Tiere scheinen in der Lage zu sein, durch Beobachtung und durch eine unvorstellbar kleine Menge an Interaktionen aufgabenunabhängig und unbeaufsichtigt enorme Mengen an Hintergrundwissen darüber zu lernen, wie die Welt funktioniert.“ Man kann die Hypothese aufstellen, dass dieses gesammelte Wissen die Grundlage für das bilden könnte, was oft als gesunder Menschenverstand bezeichnet wird. Der gesunde Menschenverstand kann als eine Sammlung von Modellen der Welt betrachtet werden, die einem Agenten sagen können, was wahrscheinlich, was plausibel und was unmöglich ist. Mithilfe solcher Weltmodelle können Tiere mit sehr wenigen Versuchen neue Fähigkeiten erlernen. Sie können die Konsequenzen ihres Handelns vorhersagen, sie können argumentieren, planen, erforschen und sich neue Lösungen für Probleme vorstellen. Wichtig ist auch, dass sie in einer unbekannten Situation gefährliche Fehler vermeiden können.“

Ein Blick auf den gesunden Menschenverstand lohnt sich auf jeden Fall, wie der folgende kleine Chat zeigt.

Ein aktueller Chat

Kürzlich habe ich mit GPT 4 darüber gesprochen Datenmodellierung. Ich habe nach den „25 wichtigsten Datenmodelltypen“ gefragt.

Als das Ergebnis zurückkam, fiel mir sofort auf, dass Faktenmodellierung nicht auf der Liste stand. Sobald ich das bemerkte, wurde das Ergebnis geändert und jetzt sah es so aus:

 „Ich entschuldige mich für die Unterlassung. Das Faktenmodell ist in der Tat eine wichtige Datenmodellierungstechnik, die zur Modellierung komplexer Systeme und zur Erfassung von Geschäftsregeln verwendet wird. Der Schwerpunkt liegt auf der Identifizierung und Definition der Fakten, die den Betrieb eines Systems beschreiben, sowie auf den Beziehungen zwischen diesen Fakten.

Daher sollte auch das Faktenmodell in die Liste der wichtigen Datenmodelle aufgenommen werden. Hier ist eine aktualisierte Liste der 25 wichtigsten Datenmodelle, einschließlich des Faktenmodells:

    Relationales Datenmodell

    Entity-Relationship (ER)-Datenmodell

    Objektorientiertes Datenmodell

    Objektrelationales Datenmodell

    Hierarchisches Datenmodell

    Netzwerkdatenmodell

    Dimensionales Datenmodell

    Flat-File-Datenmodell

    Semantisches Datenmodell

    Konzeptionelles Datenmodell

    Logisches Datenmodell

    Physisches Datenmodell

    Data Warehouse-Datenmodell

    Data-Mart-Datenmodell

    XML-Datenmodell

    NoSQL-Datenmodell

    Dokumentorientiertes Datenmodell

    Spaltenfamilien-Datenmodell

    Key-Value-Datenmodell

    Graph-Datenmodell

    RDF-Datenmodell

    OWL-Datenmodell

    UML-Datenmodell

    EAV-Datenmodell

    OLAP-Datenmodell

    Faktenmodell

Vielen Dank, dass Sie mich darauf aufmerksam gemacht haben.“

Ich: Sind Datentresor- und Ankermodelle auch wichtige Datenmodelltypen?

„Ja, sowohl Datentresor- als auch Ankermodelle sind wichtige Arten von Datenmodellen, die in den letzten Jahren an Popularität gewonnen haben.

Kostenlose Forschungsvorschau. ChatGPT kann ungenaue Informationen über Personen, Orte oder Fakten liefern.“ 

***Ende des Chats mit der ChatGPT-Version vom 23. März.

Ja, es wurden ungenaue Informationen geliefert. Und es fügte dem Ergebnis in einem zusätzlichen „Prompt Engineering“-Schritt Inhalte hinzu.

Ich bin versucht zu sagen: Pippi, mach deine Hausaufgaben!

Das Leben kann nur rückwärts verstanden werden, aber es muss vorwärts gelebt werden

Die obige Unterüberschrift ist ein Zitat des dänischen Philosophen Soren Kierkegaard:

Bildquelle: Königliche Bibliothek, Dänemark, 1923, gemeinfrei, via Wikimedia Commons

Große Sprachmodelle (LLMs) sind zwangsläufig Produkte vergangener Fakten über vergangene Ereignisse. Aber wir als generative KI-Konsumenten brauchen zukunftssichere Vorhersagen. Auch wenn alle „Transformatoren“ eine alte Nachricht sind. 

Es ist von entscheidender Bedeutung, sowohl vergangene als auch zukünftige Zusammenhänge zu verstehen. Tatsächlich sind generative KI und ihre Ergebnisse eine Übung der Kontextsensitivität – mit anderen Worten: Semantik, Bedeutung, Struktur, Beziehungen im Zeitverlauf.

Das ist die wahre Spaltung.

Das Ausführen generativer Vorhersagen auf der Grundlage leicht veralteter LLM-Inhalte ähnelt dem Ausführen eines Data Warehouse aus dem letzten Jahr.

Das Hinzufügen von Vorhersagen zusätzlich zu LLMs wird auch als Statistik bezeichnet. Das ist alles schön und gut, insbesondere wenn Ihnen einige Qualitäts- und Vertrauensindikatoren zur Verfügung stehen.

Bedarf an normativen semantischen Standards?

Als Fachleute (Datenmodellierer und Informationswissenschaftler) müssen wir verantwortungsvolle Maßnahmen ergreifen, um die generativen KI-Tools dazu zu zwingen, sich auf einen bestimmten Kontext und eine bestimmte Semantik zu beschränken. 

Dabei kann es sich um die eigenen Datenmodelle und das Glossar einer Organisation handeln, aber auch um offizielle Ontologien und Vokabulare der Branche, des Landes oder der EU schema.org und Wikidata und so weiter.
Wir benötigen, dass die KI-Ergebnisse klar definierte Kontexte aufweisen und die Einhaltung definierter Semantiken zeigen.

Es gibt viele Möglichkeiten in diesem Bereich.

In erster Linie würde ich gerne wissen:

Basiert dieses Ergebnis auf vollständig dokumentierbare, gesicherte Tatsachen? Oder kann es zu fiktionalen Semantiken und Behauptungen kommen? Mit anderen Worten: Ist das eine Tatsache oder eine Fiktion? Das kommt dem Beharren auf einer allgemeinen Bezeichnung mit der Bedeutung „Enthält nur beglaubigte Fakten“ nahe!

Wenn ich in einem stark regulierten Sektor wie Regierung, Finanzen oder Pharma tätig wäre, würde ich gerne wissen, mit welchem ​​Vertrauen ich auf die Ergebnisse vertrauen kann. Werden sie vor Gericht festhalten, Zum Beispiel? Sind sie multitemporal (oder zumindest bitemporal)?

Mit Blick auf Qualitätsmanagement im Allgemeinen (siehe zum Beispiel den ISO 9000 QMS-Satz von Normen) gibt es viele Aspekte von ISO 9000, von denen das Datenmanagement lernen könnte. Ein generatives KI-System könnte also entsprechend der Qualitätsperspektive gekennzeichnet werden, der es entspricht. Dies könnte zu einem führen ISO-Standard für semantisches Compliance-Management? Ähnlich der ISO 9000-Familie.

Ein weiterer wichtiger Aspekt ist Spezifität. Denken Sie an die FOAF-Ontologie, mit der wir begonnen haben. Tatsächlich gibt es so viele internationale und nationale Standards, Vokabulare und Branchendatenmodelle, dass die Einführung eines solchen sinnvoll wäre Compliance Stellungnahme zu KI-Ergebnissen.

Hier folgen einige Beispiele für „normative“ (oder zumindest häufig verwendete) semantische Medien, die für die Zuordnung von Bedeutung im Internet nützlich sind, entnommen aus Andrew Iliadis‘ jüngstem Buch mit diesem Titel (andrewiliadis.com):

Das Obige sind nur einige Beispiele.

Auch auf nationaler und internationaler Ebene gibt es zahlreiche öffentlich zugängliche Ontologien, Taxonomien, Datenmodelle, Schemata und was auch immer. 

Nun, eigentlich haben Sie auch einige selbst erstellte Datenmodelle. Wäre es nicht schön, eine Konformitätsprüfung zwischen Ihrer eigenen Semantik und der eines generativen KI-LLM durchzuführen? Könnte eine nette KI-Produktfunktion sein, wenn Sie mich fragen.

Nachweislich konforme generative KI

Wenn ich im Finanzsektor arbeite, möchte ich vielleicht wissen, ob das vorgeschlagene Ergebnis sowie das Sprachmodell zertifiziert sind, um dem Vokabular und der Semantik von FIBO (der vom EDM-Rat veröffentlichten Geschäftsontologie der Finanzbranche) zu entsprechen. . Wenn ich mich darauf verlassen kann, bin ich sicher zu Hause. Wenn nicht, muss ich es lesen, interpretieren und weitere Schlussfolgerungen ziehen – zusammen mit vielen Kollegen in der Abteilung für regulatorische Compliance. Im Finanzsektor werden diese Mitarbeiter mit dem BCBS 239 bereits in diesen Weg gelenkt Standard Ich frage nach integrierten Taxonomien und Architekturen. 

Nicht nur die Ergebnisse, sondern auch die Transformatoren und andere Teile von Sprachmodellen müssen nachweislich konform sein. 

Ich glaube ehrlich gesagt, dass die Welt Qualitätssicherung auf diesen Ebenen braucht, wenn Wirtschaft und Politik in größerem Maßstab auf der Grundlage generativer KI betrieben werden sollen. Also, bringen Sie diese zertifizierten KI-Generatoren mit! Und geben Sie uns, den Menschen mit HI, eine Chance!

spot_img

Neueste Intelligenz

spot_img