Zephyrnet-Logo

Data Audit im Zeitalter des maschinellen Lernens: Ziele und Herausforderungen

Datum:

Trotz seiner vielen Vorteile ist das Aufkommen von Hochleistungssystemen für maschinelles Lernen z Augmented Analytics hat in den letzten 10 Jahren zu einer wachsenden „Plug-and-Play“-Analysekultur geführt, bei der große Mengen undurchsichtiger Daten willkürlich auf einen Algorithmus geworfen werden, bis sie nützliche Business Intelligence liefern. Was bedeutet das in Bezug auf die Datenprüfung? Lassen Sie uns darüber diskutieren.

Data Audit und das Black-Box-Problem

Aufgrund der Black-Box-Natur eines typischen Arbeitsablaufs für maschinelles Lernen kann es schwierig sein, das Ausmaß der „dunklen“ Daten, die diese Prozesse überleben, zu verstehen oder zu erklären; oder das Ausmaß, in dem die nicht anerkannte Herkunft oder der unerforschte Umfang der Datenquellen später eine nachgelagerte Anwendung rechtlich entlarven könnten.

ERFAHREN SIE, WIE SIE EINEN DATENKATALOG IMPLEMENTIEREN

Beginnen Sie mit unseren Online-Kursen mit der Erstellung und Pflege eines erfolgreichen Datenkatalogs für Ihr Unternehmen.

Dies wirft mehrere Fragen auf:

  • Was sind die Auswirkungen von Maschinelles Lernen's rätselhafte Natur für die Datenprüfung?
  • Sind die Daten durch Gerichtsbarkeiten gegangen, die dem Unternehmen gesetzliche Aufbewahrungspflichten auferlegen?
  • Sind das sich entwickelnde Schema und die Herkunft der Daten ausreichend gut verstanden, um die Bedenken der Partner zu zerstreuen oder die „Due Diligence“-Phase eines Buy-Outs zu erfüllen?
  • Ist seine Undurchsichtigkeit angesichts kommender regulatorischer Standards, die es bei der Einführung der Daten noch nicht gab, eine potenziell fatale Gefahr?

Hier sehen wir uns mögliche Antworten auf einige dieser Fragen an, klären die Gründe für die Datenprüfung und definieren einige Richtlinien für den Umgang mit Datenprüfungen im Bereich KI und maschinelles Lernen. 

Ziele der Datenprüfung

In den meisten Gerichtsbarkeiten ist eine Datenprüfung derzeit keine offizielle und vorgeschriebene Veranstaltung. Vielmehr handelt es sich um einen Prozess, der unterschiedliche Transparenz- und Offenlegungsstandards beinhalten kann. 

Obwohl die Ziele für ein Datenaudit unterschiedlich sein können, je nachdem, ob das Audit auf Compliance (externe Anforderungen) oder auf Leistung (interne, kommerzielle Überprüfung von Prozessen) durchgeführt wird, ist jede Art von Audit eine lohnende Gelegenheit, Ihre Datenerfassung zu optimieren und Governance-Verfahren und -Richtlinien, und beide Bedarfsgruppen zu berücksichtigen.

Daher können einige der Ziele eines Datenaudits Folgendes umfassen:

  • Die Nutzung ungenutzter Datenressourcen zur Entwicklung neuer Prozesse
  • Die Reduzierung der Speicherlast eines Unternehmens durch die Identifizierung nicht umsetzbarer und rechtlich irrelevanter Daten
  • Die Notwendigkeit, Vorschriften (z. B. Datenschutzrichtlinien) und Lizenzbedingungen (einschließlich „Fair Use“-Klauseln) einzuhalten, wodurch rechtliche Verpflichtungen vermieden werden
  • Die Identifizierung von nicht indiziertem Material im Hinblick auf die Entwicklung eines Vorausplans dafür (z. B. Löschung, Bewertung der Governance-Anforderungen oder allgemeine Indexierung)
  • Die Erkennung und Entfernung bösartiger Daten bei gleichzeitiger Sicherung der Kanäle und Protokolle, die sie zugelassen haben
  • Die Etablierung von Workflows zur automatischen Behandlung von Datenanomalien bei zukünftigen Audits (z. B. wenn nicht konforme oder unzureichend gekennzeichnete Daten eine manuelle Warnung auslösen)

Licht ins Dunkel der Quelldaten bringen

Von Natur aus absorbieren und verschleiern Algorithmen für maschinelles Lernen ihre Datenquellen (Datensätze), definieren gewünschte Merkmale, die aus einem Datensatz extrahiert werden sollen, und verallgemeinern diese Merkmale im latenten Raum des Trainingsprozesses. Die resultierenden Algorithmen sind daher repräsentativ und abstrakt und werden im Allgemeinen als unfähig angesehen, ihre beitragenden Quelldaten explizit offenzulegen.

Das Vertrauen auf diese automatische Unklarheit wird jedoch zunehmend durch neuere Methoden zur Offenlegung von Quelldaten aus algorithmischen Ausgaben, wie z. B. Modellinversion, in Frage gestellt. 

Die Rolle der Modellinversion

Modellinversionstechniken erweisen sich als in der Lage, vertrauliche Informationen offenzulegen, die durch die Art und Weise geschützt werden sollten, wie maschinelles Lernen Quelldaten „abstrakt“ modelliert. Es umfasst eine Vielzahl von Techniken, die es ermöglichen, ein KI-System abzufragen und aus seinen verschiedenen Antworten auf verschiedene Anfragen ein Bild der beitragenden Daten zusammenzusetzen.

Dazu gehört das Aufdecken der „Gewichte“ eines Modells, die oft den inneren Wert eines Machine-Learning-Frameworks darstellen. Wenn die Gewichtungen von Material generiert wurden, das später IP-gesperrt wird und durch Modellinversion abgebildet werden kann (dh ihre Verwendung von urheberrechtlich geschützten Daten offengelegt wird), spielt es keine Rolle, ob der aktuelle Datensatz vom Standpunkt der Governance aus tadellos ist.

Drei Daten-Audit-Szenarien

In Anbetracht des oben Gesagten wird die Prüfung Ihrer Datenbestände zur Sicherstellung von Compliance-Standards in angemessener Vorwegnahme möglicher Prüfungen durch Dritte zu einem späteren Zeitpunkt zu einer absoluten Priorität. Lassen Sie uns in diesem Zusammenhang drei mögliche relevante Szenarien untersuchen:

  • FOSS-Datensätze: Wenn Ihr Analysesystem einen kostenlosen oder Open-Source-Datensatz (FOSS) verwendet hat und eine restriktive Lizenzänderung erfolgt, unterliegt jede Software (einschließlich Algorithmen für maschinelles Lernen), die unwissentlich mit IP-gesperrten Daten entwickelt wurde, ebenfalls Einschränkungen. Daher sollten Sie immer die langfristige Tragfähigkeit der Lizenz und der Daten prüfen. Ein weiteres zu berücksichtigendes potenzielles Risiko ist die Verwendung eines FOSS-Datensatzes, dessen Herkunft und IP-Integrität später von Dritten in Frage gestellt werden, die Anspruch auf die Daten erheben.
  • Synthetische Datensätze: Dies stellt einen immer beliebter werdenden Ansatz zur Datengenerierung dar, der künstlich erzeugten Text oder CGI-generierte Bilder enthält. Es lohnt sich, sich auch der Herkunft der Informationen in einem synthetischen Datensatz bewusst zu sein, den Sie nicht selbst erstellt haben. Sind alle beitragenden Datenquellen öffentlich bekannt und zur Einsicht verfügbar? Können Sie die gesamte Entstehungskette bis zur ersten Quelle verfolgen und mit der Gültigkeit und Dauerhaftigkeit der Lizenzbedingungen zufrieden sein?
  • Proprietäre Datensätze: Das Generieren eines eigenen Datensatzes ist der sicherste Weg, unangreifbare Quelldaten zu entwickeln, aber auch die teuerste und zeitaufwändigste Lösung. Aus diesem Grund nutzen mehrere Unternehmen die aktuellen laxen Vorschriften zum Data Scraping und nutzen Online-Material, das eine Domain für eine solche Verwendung verbieten könnte. Die Dinge können sich jedoch in Zukunft ändern und zu Streitigkeiten führen, die im Rechtsbereich definiert sind. Daher ist es ratsam, dies beim Entwerfen langfristiger Datenextraktions-, Verwahrungs- und Governance-Richtlinien zu berücksichtigen.

Ein Katalysator für die Datenprüfung

In dieser Zeit wird der Model-Inversion-Sektor von einem wachsenden Kreuzzug angeheizt Datenschutz und KI-Sicherheit. 

Tatsächlich deutet die Geschichte des Patent-Trollings in den letzten 30 Jahren darauf hin, dass der Trittbrettfahrer von Forschern mit öffentlichen Daten in den nächsten 10 Jahren die Aufmerksamkeit der Urheberrechtsdurchsetzer auf sich ziehen wird, wenn die nationalen KI-Richtlinien ausgereift sind, und dass die wachsenden Anforderungen an die Datentransparenz damit zusammenfallen werden Möglichkeiten der Modellumkehrung zur Offenlegung von Datenquellen.

spot_img

Neueste Intelligenz

VC-Café

VC-Café

spot_img