Dieses Startup möchte Ihre voreingenommene KI beheben, einen Datensatz nach dem anderen

Die Bekämpfung von Voreingenommenheit in KI-Systemen ist ein zunehmend großes Thema - und eine Herausforderung - für Unternehmen. Die Ausarbeitung einer Reihe von Grundsätzen ist ein guter Anfang, aber wenn es darum geht, die Lücke zwischen der Theorie und der praktischen Anwendung verantwortungsbewusster KI zu schließen, sind Unternehmen häufig ratlos.

Das in London ansässige Startup Synthesized hat sich zum Ziel gesetzt, diese Herausforderung zu bewältigen, und hat jetzt ein Tool auf den Markt gebracht, mit dem Verzerrungen in einem bestimmten Datensatz schnell erkannt und gemindert werden können. Für Datenwissenschaftler, die an einem KI-Projekt arbeiten, hat das Unternehmen eine Plattform erstellt, die Datensätze in Minuten scannt und eine eingehende Analyse der Art und Weise liefert, wie verschiedene Personengruppen in diesem Datensatz identifiziert werden.

Wenn eine bestimmte Gruppe im Vergleich zum Rest des Datensatzes überproportional an ein Kriterium gebunden ist, das eine Verzerrung erzeugt, kann die Software von Synthesized das Problem dem Benutzer anzeigen. Die Technologie generiert auch einen „Fairness Score“ für den Datensatz, der von null bis eins variiert und widerspiegelt, wie ausgewogen die Daten insgesamt sind.

SEHEN: Verwalten von KI und ML im Unternehmen 2020: Technologieleiter steigern die Projektentwicklung und -implementierung (TechRepublic Premium)

Wie der Name schon sagt, hat Synthesized auch eine Technologie zur Erzeugung synthetischer Daten entwickelt, die am Ende des Prozesses verwendet wird, um den Datensatz mit künstlichen Daten auszugleichen, die die Lücken füllen, in denen Verzerrungen festgestellt wurden, um sicherzustellen, dass jede Gruppe von Menschen ist fair vertreten.

Der Gründer von Synthesized, Nicolai Baldin, sagte gegenüber ZDNet: „Durch die Erstellung dieser simulierten und kuratierten hochwertigen Datensätze können Sie bessere Services erstellen. Wir wollten zeigen, dass es möglich ist, den Datensatz fairer zu gestalten, ohne die Qualität der Daten zu beeinträchtigen. Tatsächlich werden sich die Ergebnisse von KI-Modellen verbessern, da die fehlenden Gruppen vertreten sein werden. “

Der Prozess ist scheinbar unkompliziert. Für die Bias-Erkennungsplattform von Synthesized muss lediglich eine strukturierte Datendatei wie eine Excel-Tabelle hochgeladen werden, um den Analyseprozess zu starten. Benutzer können ein bestimmtes Ziel auswählen, z. B. das „Jahreseinkommen“, anhand dessen die Verzerrung ermittelt wird.

Die Software profiliert dann den gesamten Datensatz in Bezug auf das Ziel, um festzustellen, ob Minderheitengruppen in diesem Beispiel zu Unrecht verschiedenen Einkommensarten zugeordnet sind.

Der erste Schritt besteht darin, die Gruppen auszugraben, die wahrscheinlich diskriminiert werden, anhand derer die Technologie identifiziert gesetzlich geschützte Eigenschaften die im britischen und US-amerikanischen Recht definiert sind - Alter, Behinderung, Geschlecht, Ehe, Rasse, Religion, sexuelle Orientierung und so weiter.

Baldin führt beispielsweise einen öffentlich verfügbaren Datensatz von 32,000 Personen über die Plattform aus. Mit einigen sich überschneidenden geschützten Merkmalen werden von der Software fast 270 Minderheitengruppen profiliert. Beispielsweise werden 186 Personen im Datensatz als „weiblich, verheiratet, 33 bis 41 Jahre alt“ identifiziert.

Sobald die Software Gruppen geschützter Merkmale identifiziert und erstellt hat, kann sie beurteilen, ob ein bestimmter Cluster signifikante Unterschiede in Bezug auf das zu Beginn des Prozesses festgelegte Ziel aufweist - ob dieser Unterschied eine positive Tendenz widerspiegelt oder von eine negative.

„Was wir hier am Beispiel der Gruppe‚ weiblich, verheiratet, 33 bis 41 Jahre 'sehen können, ist eine positive Tendenz, was bedeutet, dass das Einkommen für diese Gruppe tatsächlich höher ist als das Gesamteinkommen für den gesamten Datensatz. ”Erklärt Baldin.

„Die Software kann diese abnormalen Gruppen also unter statistischen Gesichtspunkten finden“, fährt er fort. „Es profiliert den gesamten Datensatz über verschiedene Gruppen hinweg und vergleicht diese Verteilungen statistisch. Wenn es genügend Beweise dafür gibt, dass sich die Verteilung von der Gesamtverteilung unterscheidet, kennzeichnen wir sie. “

Basierend auf dem Ergebnis der Analyse wird dem Datensatz dann ein Fairness Score zugewiesen, und den Benutzern wird die Option gegeben, die Daten künstlich neu auszugleichen. Das Erstellen synthetischer Daten ist in der Tat das Herzstück des Technologie-Stacks von Synthesized. Mithilfe der Synthetisierungstechnologie kann die Plattform neue Gruppen von Personen simulieren, die zuvor als vermisst oder ungerecht dargestellt identifiziert wurden, und den Gesamt-Fairness-Score des Datensatzes anpassen.

„Wir haben in Wissenschaft und Industrie einige Versuche gesehen, diese Verzerrungen zu identifizieren, aber meines Wissens gibt es kein Tool, mit dem simulierte Datensätze ohne Beispiele für Verzerrungen erstellt werden können“, sagt Baldin.

Mithilfe der Synthetisierungstechnologie kann die Plattform neue Gruppen von Personen simulieren, die zuvor als vermisst oder ungerecht dargestellt identifiziert wurden.

Bild: Synthetisiert

Bias in AI ist seit Jahren ein heißes Thema und hat Einzelpersonen auf vielfältige Weise beeinflusst, von Rekrutierungsprozessen über Entscheidungen im Gesundheitswesen bis hin zu Strafverfolgung und Strafjustiz.

Im Sommer gab es breite Kritik an der Verwendung eines voreingenommenen Algorithmus um die Noten der britischen Schüler zu bestimmen, während die körperlichen Prüfungen abgesagt wurden. Das KI-System hatte seine Vorhersagen auf einen unfairen Datensatz gestützt, der Schüler aus ärmeren Verhältnissen benachteiligte.

In der Öffentlichkeit steigt der Druck für Unternehmen und Entwickler, ethische KI-Systeme zu entwickeln. Eine kürzlich in Großbritannien durchgeführte öffentliche Umfrage ergab dies die Hälfte der Erwachsenen in Großbritannien Sie hatten das Gefühl, dass sie Informatikern nicht vertrauen konnten, Algorithmen zu entwickeln, die auf die Verbesserung ihrer Lebensqualität ausgerichtet sind. Die Mehrheit der Befragten (62%) sagte auch, dass Computerprogrammierer als Chartered Professionals qualifiziert sein sollten, die beispielsweise ähnliche Standards wie Buchhalter erfüllen.

SEHEN: Die nächste große Herausforderung der Technologie: Allen gegenüber fairer sein

Unzählige White Papers zum verantwortungsvollen Umgang mit KI wurden jetzt von Regierungen auf der ganzen Welt veröffentlicht. Die größten Technologieunternehmen sind Einrichtung von Ethikkommissionen und sich zu Listen von KI-Prinzipien zu verpflichten. Dennoch fehlen praktische Werkzeuge, um Algorithmen fair und transparent zu machen.

Google Was-wäre-wenn-Werkzeug und IBMs KI Fairness Beide Pakete bieten Analysewerkzeuge zum Testen von Datensätzen auf Verzerrungen, sind jedoch weiterhin für Experten konzipiert. Baldin hofft, dass die intuitive Plattform von Synthesized mehr Benutzer dazu ermutigen wird, das Problem anzugehen.

Das heißt nicht, dass perfekt unvoreingenommene Datensätze wahrscheinlich bald Realität werden. „Wenn wir uns an die gesetzlichen Definitionen geschützter Merkmale halten, kann die Plattform alle Verzerrungen beseitigen“, so Baldin weiter. „Aber wir müssen vorsichtig sein mit dem, was wir unter‚ All 'verstehen. Es kann andere Gruppen geben, die nicht gesetzlich geschützt sind, von denen jedoch einige glauben, dass sie diskriminiert werden. “

Die Debatte ist nicht neu und wird nicht so schnell verschwinden. Um die Forschung auf diesem Gebiet voranzutreiben, hat Baldin jedoch beschlossen, den Bias-Identification-Teil der neuen Plattform von Synthesized als Open-Source-Version bereitzustellen, damit Ingenieure und Datenwissenschaftler neue Ideen einbringen können.

In der Zwischenzeit können interessierte Programmierer bereits die nutzen Programmund dürfen bis zu drei Datensätze kostenlos hochladen.

Künstliche Intelligenz

Quelle: https://www.zdnet.com/article/this-startup-wants-to-fix-your-biased-ai-one-dataset-at-at-time/#ftag=RSSbaffb68

Generative Datenintelligenz

Dieses Startup möchte Ihre voreingenommene KI reparieren, einen Datensatz nach dem anderen

Künstliche Intelligenz

Es ist an der Zeit, die Finanzierung der Luftwaffe und der Weltraumstreitkräfte neu zu verteilen

In Europa hergestellte Batterien könnten 60 % weniger COXNUMX-intensiv sein als chinesische – Analyse – CleanTechnica

Neueste Intelligenz

Xpeng kündigt Expansion nach Australien an; Ernennt TrueEV zum exklusiven Partner – CleanTechnica

Der Anstieg des Bewusstseins für Rückbuchungen und seine Auswirkungen auf Banken

BNB stabilisiert sich in Erwartung eines Aufwärtstrends über 580 USD

Das Memecoin Casino: Investieren vs. Glücksspiel

Immersed For Vision Pro bietet Ihnen virtuelle zusätzliche Monitore

Jack Dorsey prognostiziert, dass Bitcoin bis 1 die Grenze von 2030 Million US-Dollar überschreiten wird