Zephyrnet-logo

De Snorkel Flow-update biedt een geheel nieuwe benadering van bedrijfsgegevensbeheer

Datum:

Een van de belangrijkste voortdurende uitdagingen voor bedrijven die AI ontwikkelen, is het integreren van grote hoeveelheden bedrijfsgegevens in hun AI-modellen.

Deze gegevens vormen de levensader van veel AI-toepassingen, maar het beheer ervan kan een complex en tijdrovend proces zijn. Snorkel Flow, een recente update van het Snorkel AI-platform, heeft tot doel dit proces te stroomlijnen voor bedrijven die hiervan gebruik willen maken Lama 3, een krachtig AI-model van Meta AI, en Tweeling AI, een ander geavanceerd AI-model van Google.

Waarom is het beheren van bedrijfsgegevens cruciaal?

Bedrijfsgegevens omvatten een breed scala aan informatie die bedrijven verzamelen tijdens hun dagelijkse activiteiten. Dit kunnen klantgegevens, financiële gegevens, marketingcampagneresultaten, sensorgegevens van machines en nog veel meer zijn. Het effectief beheren van deze gegevens is om verschillende redenen cruciaal.

Ten eerste stelt het bedrijven in staat trends en patronen te identificeren die anders misschien over het hoofd zouden worden gezien. Door bijvoorbeeld de aankoopgeschiedenis van klanten te analyseren, kan een bedrijf ontdekken welke producten vaak samen worden gekocht, waardoor ze promoties en productplaatsingsstrategieën kunnen afstemmen.

Ten tweede kunnen bedrijfsgegevens worden gebruikt om de besluitvorming te verbeteren. Een financiële instelling kan bijvoorbeeld historische leninggegevens analyseren om nauwkeurigere risicobeoordelingsmodellen te ontwikkelen. Ten slotte zijn bedrijfsgegevens essentieel voor het trainen van AI-modellen. Deze modellen vereisen enorme hoeveelheden gelabelde gegevens om taken effectief te leren en uit te voeren.

Snorkel Flow bedrijfsgegevensbeheer
Bedrijfsgegevens zijn van cruciaal belang voor AI-toepassingen, omdat ze trendidentificatie mogelijk maken, de besluitvorming verbeteren en gelabelde gegevens leveren voor modeltraining (Image credit)

Het beheren van deze gegevens kan echter een grote uitdaging zijn. Bedrijfsgegevens bevinden zich vaak in verschillende formaten en locaties, waardoor ze moeilijk toegankelijk en te integreren zijn. Het proces van het labelen van gegevens voor AI-training kan ook duur en tijdrovend zijn.

Hier is waar Snorkelen stroom komt binnen.

De datavloed temmen

Snorkel Flow is een update van het Snorkel AI-platform, ontworpen om de integratie van bedrijfsgegevens met AI-modellen, met name Llama 3 en Gemini AI, te vereenvoudigen. Snorkel maakt gebruik van een techniek die zwakke labeling wordt genoemd en waarmee gebruikers ongelabelde gegevens kunnen gebruiken voor trainingsdoeleinden. Dit wordt bereikt door heuristieken, of ‘labelfuncties’ te definiëren die automatisch labels aan datapunten kunnen toewijzen op basis van specifieke criteria.

Stel je bijvoorbeeld een bedrijf voor dat een AI-model wil trainen om klantondersteuningstickets te identificeren die dringende aandacht vereisen. Er zou een labelfunctie kunnen worden gemaakt om tickets te identificeren die specifieke trefwoorden of zinsneden bevatten, zoals ‘dringend’ of ‘kritiek’. Hoewel deze labels misschien niet perfect zijn, kunnen ze nog steeds waardevol zijn voor het trainen van het AI-model.

Snorkel Flow bouwt voort op dit concept door een gestroomlijnde workflow te introduceren voor het beheren van het gegevenslabelingproces. Hiermee kunnen gebruikers labelfuncties definiëren, gegevensbronnen beheren en de kwaliteit van de gegenereerde labels bewaken. Dit kan de tijd en middelen die nodig zijn om bedrijfsgegevens voor te bereiden op AI-training aanzienlijk verminderen.

Snorkel Flow bedrijfsgegevensbeheer
De nieuwe update van Snorkel AI pakt uitdagingen op het gebied van bedrijfsgegevens aan door zwakke labeltechnieken te gebruiken, waardoor gebruikers ongelabelde gegevens kunnen gebruiken voor training door labelfuncties te definiëren op basis van specifieke criteria (Image credit)

Uitgebreide LLM- en gegevensbronintegraties

In een blogpost, legde Snorkel AI in detail de innovaties uit die ze naar Snorkel Flow brachten. Dit zijn de kenmerken van de vernieuwde Snorkel Flow:

  • LLM-integraties: Snorkel Flow ondersteunt nu niet alleen de verfijning van gevestigde modellen, maar ook de Gemini-familie van Google en Meta's Llama 3. Dit verruimt de mogelijkheden voor bedrijven om de LLM te kiezen die het beste bij hun behoeften past.
  • Integraties van gegevensbronnen: Nieuwe integraties met Databricks Unity Catalog, Vertex AI en Microsoft Azure Machine Learning stroomlijnen de gegevenstoegang voor labeling, beheer en ontwikkelingsdoeleinden. Bedrijven kunnen hun bestaande data-infrastructuur binnen Snorkel Flow benutten.

Multimodale dataondersteuning (bèta)

  • Beeldverwerking: Snorkel Flow introduceert programmatische labelfuncties voor afbeeldingen (momenteel in bèta). Hierdoor kunnen bedrijven beeldgegevens naast tekstgegevens gebruiken voor LLM-training. Bedrijven kunnen deze functie gebruiken om inzichten uit visuele gegevens te halen en deze te integreren met hun AI-oplossingen.

Verbeterde beveiliging en toegankelijkheid

  • Op rollen gebaseerde toegangscontrole (RBAC): Deze functie geeft beheerders gedetailleerde controle over gegevenstoegang binnen Snorkel Flow. Dit zorgt ervoor dat gevoelige informatie wordt beschermd door de toegang tot specifieke gebruikers en gegevensbronnen te beperken.
    Verbeterde documentverwerking:
  • Foundation Model (FM)-aangedreven PDF-workflow: Snorkel Flow bevat nu een speciale gebruikersinterface voor PDF-prompts voor het labelen van PDF's. Hierbij wordt gebruik gemaakt van geavanceerde basismodellen om het proces voor het extraheren van waardevolle inzichten uit complexe documenten te stroomlijnen.

Vereenvoudigde LLM-integratie:

  • Verbeterde SDK: De geüpgradede SDK maakt eenvoudigere integratie met verschillende aangepaste LLM-services mogelijk, waardoor bedrijven meer flexibiliteit krijgen in hun AI-ontwikkelingsproces.
  • Databricks-integratie: Naadloze compatibiliteit met Databricks Unity Catalog maakt moeiteloze implementatie van modellen binnen bestaande workflows mogelijk. Soortgelijke integratie is beschikbaar met Vertex AI en Azure Machine Learning.

Gestroomlijnde gegevensannotatie

  • Annotatie bij meerdere taken (R2 Release Preview): Met deze functie, momenteel in preview, kunnen MKB-bedrijven (vakdeskundigen) gegevens annoteren voor meerdere taken binnen één project. Dit verbetert de efficiëntie door de tijd voor het opzetten van projecten te verkorten en de workflows te stroomlijnen.
Snorkel Flow bedrijfsgegevensbeheer
Snorkel AI kan nu worden geïntegreerd met krachtige LLM-modellen zoals Llama 3 van Meta AI en Gemini AI van Googleen (Image credit)

Integratie met Llama 3 en Gemini AI

Snorkel Flow kan specifiek worden geïntegreerd met Llama 3 en Gemini AI, twee krachtige AI-modellen. Llama 3, ontwikkeld door Meta AI, is een feitelijk taalmodel, getraind op een enorme dataset van tekst en code. Hierdoor kan het complexe vragen op een informatieve manier begrijpen en erop reageren. Gemini AI daarentegen is een generatief taalmodel dat verschillende creatieve tekstformaten kan creëren, zoals gedichten, code, scripts, muziekstukken, e-mail, brieven, enz.

Door Snorkel Flow met deze modellen te integreren, kunnen bedrijven de kracht van AI benutten om inzichten uit hun bedrijfsgegevens te halen en verschillende taken te automatiseren. Lama 3 kan bijvoorbeeld worden gebruikt om klantrecensies te analyseren en gemeenschappelijke thema's of klachten te identificeren. Gemini AI zou ondertussen kunnen worden gebruikt om creatieve marketingteksten of productbeschrijvingen te genereren op basis van bestaande gegevens.

Door het gegevenslabelingproces te vereenvoudigen en compatibiliteit te bieden met krachtige modellen zoals Llama 3 en Gemini AI, heeft Snorkel Flow het potentieel om nieuwe mogelijkheden te ontsluiten voor bedrijven die de kracht van AI willen benutten.


Uitgelicht afbeeldingstegoed: rawpixel.com/Freepik

spot_img

Laatste intelligentie

spot_img