Zephyrnet-logo

Bouw een generatieve, op AI gebaseerde oplossing voor contentmoderatie op Amazon SageMaker JumpStart | Amazon-webservices

Datum:

Contentmoderatie speelt een cruciale rol bij het handhaven van de online veiligheid en het hooghouden van de waarden en normen van websites en sociale-mediaplatforms. Het belang ervan wordt onderstreept door de bescherming die het gebruikers biedt tegen blootstelling aan ongepaste inhoud, waardoor hun welzijn in digitale ruimtes wordt gewaarborgd. In de reclame-industrie dient contentmoderatie bijvoorbeeld om merken te beschermen tegen ongunstige associaties, en draagt โ€‹โ€‹zo bij aan merkverheffing en omzetgroei. Adverteerders geven prioriteit aan de afstemming van hun merk op de juiste inhoud om hun reputatie hoog te houden en negatieve publiciteit te voorkomen. Contentmoderatie is ook van cruciaal belang in de financiรซle en gezondheidszorgsector, waar het meerdere functies vervult. Het speelt een belangrijke rol bij het identificeren en beschermen van gevoelige persoonlijk identificeerbare en gezondheidsinformatie (PII, PHI). Door zich te houden aan interne normen en praktijken en aan externe regelgeving, verbetert contentmoderatie de digitale veiligheid voor gebruikers. Op deze manier wordt het onbedoeld delen van vertrouwelijke gegevens op openbare platforms voorkomen, waardoor de privacy van gebruikers en de gegevensbeveiliging worden gewaarborgd.

In dit bericht introduceren we een nieuwe methode om inhoudsmoderatie uit te voeren op beeldgegevens met multimodale pre-training en een groot taalmodel (LLM). Met multimodale voortraining kunnen we de beeldinhoud rechtstreeks opvragen op basis van een reeks interessante vragen en het model zal deze vragen kunnen beantwoorden. Hierdoor kunnen gebruikers met de afbeelding chatten om te bevestigen of deze ongepaste inhoud bevat die in strijd is met het beleid van de organisatie. We gebruiken het krachtige generatievermogen van LLM's om de uiteindelijke beslissing te genereren, inclusief veilige/onveilige labels en categorietype. Door een prompt te ontwerpen, kunnen we bovendien een LLM het gedefinieerde uitvoerformaat laten genereren, zoals het JSON-formaat. Met de ontworpen promptsjabloon kan de LLM bepalen of de afbeelding het moderatiebeleid schendt, de categorie van overtreding identificeren, uitleggen waarom en de uitvoer in een gestructureerd JSON-formaat leveren.

Wij gebruiken BLIP-2 als de multimodale pre-trainingsmethode. BLIP-2 is een van de modernste modellen op het gebied van multimodale pre-training en presteert beter dan de meeste bestaande methoden bij het visueel beantwoorden van vragen, het ondertitelen van afbeeldingen en het ophalen van afbeeldingstekst. Voor onze LLM gebruiken we Lama 2, de volgende generatie open-source LLM, die presteert beter dan bestaande open-source taalmodellen op veel benchmarks, waaronder redeneer-, codeer-, vaardigheids- en kennistests. Het volgende diagram illustreert de oplossingscomponenten.

Uitdagingen bij het modereren van inhoud

Traditionele methoden voor contentmoderatie, zoals menselijke moderatie, kunnen het groeiende volume aan door gebruikers gegenereerde content (UGC) niet bijhouden. Naarmate het volume van de UGC toeneemt, kunnen menselijke moderators overweldigd raken en moeite hebben om de inhoud effectief te modereren. Dit resulteert in een slechte gebruikerservaring, hoge moderatiekosten en merkrisico. Menselijke moderatie is ook gevoelig voor fouten, wat kan resulteren in inconsistente moderatie en bevooroordeelde beslissingen. Om deze uitdagingen aan te pakken, is contentmoderatie, mogelijk gemaakt door machine learning (ML), een oplossing gebleken. ML-algoritmen kunnen grote hoeveelheden UGC analyseren en inhoud identificeren die in strijd is met het beleid van de organisatie. ML-modellen kunnen worden getraind om patronen te herkennen en problematische inhoud te identificeren, zoals haatzaaiende uitlatingen, spam en ongepast materiaal. Volgens de studie Bescherm uw gebruikers, merk en budget met contentmoderatie op basis van AIMet ML-gebaseerde contentmoderatie kunnen organisaties tot 95% van de tijd die hun teams besteden aan het handmatig modereren van content terugwinnen. Hierdoor kunnen organisaties hun middelen richten op meer strategische taken, zoals communitybuilding en contentcreatie. ML-aangedreven inhoudsmoderatie kan ook de moderatiekosten verlagen, omdat het efficiรซnter is dan menselijke moderatie.

Ondanks de voordelen van ML-aangedreven inhoudsmoderatie, is er nog steeds ruimte voor verdere verbetering. De effectiviteit van ML-algoritmen is sterk afhankelijk van de kwaliteit van de gegevens waarop ze zijn getraind. Wanneer modellen worden getraind met behulp van bevooroordeelde of onvolledige gegevens, kunnen ze foutieve moderatiebeslissingen nemen, waardoor organisaties worden blootgesteld aan merkrisico's en mogelijke juridische aansprakelijkheden. De adoptie van op ML gebaseerde benaderingen voor contentmoderatie brengt verschillende uitdagingen met zich mee die een zorgvuldige afweging vereisen. Deze uitdagingen omvatten:

  • Gelabelde gegevens verkrijgen โ€“ Dit kan een kostbaar proces zijn, vooral voor complexe contentmoderatietaken waarvoor training van labelers nodig is. Deze kosten kunnen het een uitdaging maken om datasets te verzamelen die groot genoeg zijn om gemakkelijk een beheerd ML-model te trainen. Bovendien is de nauwkeurigheid van het model sterk afhankelijk van de kwaliteit van de trainingsgegevens, en vertekende of onvolledige gegevens kunnen resulteren in onnauwkeurige moderatiebeslissingen, wat kan leiden tot merkrisico's en wettelijke aansprakelijkheid.
  • Generalisatie van modellen โ€“ Dit is van cruciaal belang voor de adoptie van op ML gebaseerde benaderingen. Een model dat op รฉรฉn dataset is getraind, is mogelijk niet goed te generaliseren naar een andere dataset, vooral als de datasets verschillende distributies hebben. Daarom is het essentieel om ervoor te zorgen dat het model wordt getraind op een diverse en representatieve dataset om ervoor te zorgen dat het goed generaliseert naar nieuwe gegevens.
  • Operationele efficiรซntie โ€“ Dit is een andere uitdaging bij het gebruik van conventionele, op ML gebaseerde benaderingen voor contentmoderatie. Het voortdurend toevoegen van nieuwe labels en het opnieuw trainen van het model wanneer er nieuwe klassen worden toegevoegd, kan tijdrovend en kostbaar zijn. Bovendien is het essentieel om ervoor te zorgen dat het model regelmatig wordt bijgewerkt om gelijke tred te houden met veranderingen in de inhoud die wordt gemodereerd.
  • Uitlegbaarheid โ€“ Eindgebruikers kunnen het platform als bevooroordeeld of onrechtvaardig beschouwen als inhoud zonder rechtvaardiging wordt gemarkeerd of verwijderd, wat resulteert in een slechte gebruikerservaring. Op dezelfde manier kan het ontbreken van duidelijke uitleg het contentmoderatieproces inefficiรซnt, tijdrovend en kostbaar maken voor moderators.
  • Tegenstrijdige aard โ€“ Het vijandige karakter van moderatie van op afbeeldingen gebaseerde inhoud vormt een unieke uitdaging voor conventionele, op ML gebaseerde benaderingen. Slechte actoren kunnen proberen de mechanismen voor inhoudsmoderatie te omzeilen door de inhoud op verschillende manieren te wijzigen, zoals het gebruik van synoniemen van afbeeldingen of het inbedden van de daadwerkelijke inhoud in een groter geheel van niet-aanstootgevende inhoud. Dit vereist constante monitoring en bijwerking van het model om dergelijke vijandige tactieken te detecteren en erop te reageren.

Multimodaal redeneren met BLIP-2

Multimodale ML-modellen verwijzen naar modellen die gegevens uit meerdere bronnen of modaliteiten kunnen verwerken en integreren, zoals afbeeldingen, tekst, audio, video en andere vormen van gestructureerde of ongestructureerde gegevens. Een van de populaire multimodaliteitsmodellen zijn de visuele taalmodellen zoals BLIP-2, die computervisie en natuurlijke taalverwerking (NLP) combineren om zowel visuele als tekstuele informatie te begrijpen en te genereren. Deze modellen stellen computers in staat de betekenis van afbeeldingen en tekst te interpreteren op een manier die het menselijk begrip nabootst. Visie-taalmodellen kunnen een verscheidenheid aan taken uitvoeren, waaronder het ondertitelen van afbeeldingen, het ophalen van afbeeldingstekst, het visueel beantwoorden van vragen en meer. Een model voor ondertiteling van afbeeldingen kan bijvoorbeeld een beschrijving in natuurlijke taal van een afbeelding genereren, en een model voor het ophalen van afbeeldingstekst kan naar afbeeldingen zoeken op basis van een tekstquery. Modellen voor het visueel beantwoorden van vragen kunnen reageren op vragen in natuurlijke taal over afbeeldingen, en multimodale chatbots kunnen visuele en tekstuele input gebruiken om antwoorden te genereren. In termen van inhoudsmoderatie kunt u deze mogelijkheid gebruiken om zoekopdrachten uit te voeren op een lijst met vragen.

BLIP-2 bestaat uit drie delen. De eerste component is een bevroren beeldencoder, ViT-L/14 van CLIP, die beeldgegevens als invoer gebruikt. De tweede component is een bevroren LLM, FlanT5, die tekst uitvoert. Het derde onderdeel is een trainbare module genaamd Q-Former, een lichtgewicht transformator die de bevroren beeldencoder verbindt met de bevroren LLM. Q-Former maakt gebruik van leerbare zoekvectoren om visuele kenmerken uit de bevroren beeldencoder te extraheren en stuurt de nuttigste visuele kenmerken naar de LLM om de gewenste tekst uit te voeren.

Het pre-trainingsproces bestaat uit twee fasen. In de eerste fase wordt het leren van visuele taalrepresentatie uitgevoerd om Q-Former te leren de meest relevante visuele representatie voor de tekst te leren. In de tweede fase wordt generatief leren van visie naar taal uitgevoerd door de output van Q-Former te verbinden met een bevroren LLM en Q-Former te trainen om visuele representaties uit te voeren die door de LLM kunnen worden geรฏnterpreteerd.

BLIP-2 levert state-of-the-art prestaties op verschillende visuele taaltaken, ondanks dat er aanzienlijk minder trainbare parameters zijn dan bestaande methoden. Het model demonstreert ook nieuwe mogelijkheden voor het genereren van zero-shot afbeeldingen naar tekst die natuurlijke taalinstructies kunnen volgen. De volgende afbeelding is gewijzigd ten opzichte van de origineel onderzoekspapier.

Overzicht oplossingen

Het volgende diagram illustreert de oplossingsarchitectuur.

In de volgende secties laten we zien hoe u BLIP-2 kunt implementeren in een Amazon Sage Maker eindpunt en gebruik BLIP-2 en een LLM voor inhoudsmoderatie.

Voorwaarden

U hebt een AWS-account nodig met een AWS Identiteits- en toegangsbeheer (IAM)-rol met machtigingen voor het beheren van bronnen die zijn gemaakt als onderdeel van de oplossing. Voor details, zie Maak een zelfstandig AWS-account aan.

Als dit de eerste keer is dat u ermee werkt Amazon SageMaker Studio, moet je eerst een SageMaker-domein. Bovendien moet u mogelijk een verhoging van het servicequotum aanvragen voor de overeenkomstige SageMaker-hostinginstanties. Voor het BLIP-2-model gebruiken we een ml.g5.2xlarge SageMaker-hostinginstantie. Voor het Llama 2 13B-model gebruiken we een ml.g5.12xlarge SageMaker-hostinginstantie.

Implementeer BLIP-2 op een SageMaker-eindpunt

U kunt een LLM hosten op SageMaker met behulp van de Grote modelinferentie (LMI) container die is geoptimaliseerd voor het hosten van grote modellen met behulp van DJLServing. DJLServing is een krachtige universele modelserving-oplossing, mogelijk gemaakt door de Deep Java Library (DJL), die programmeertaal-agnostisch is. Voor meer informatie over DJL en DJLServing, zie Implementeer grote modellen op Amazon SageMaker met behulp van DJLServering en DeepSpeed โ€‹โ€‹model parallelle inferentie. Met behulp van de SageMaker LMI-container kan het BLIP-2-model eenvoudig worden geรฏmplementeerd met de Hugging Face-bibliotheek en worden gehost op SageMaker. Je kan lopen blip2-sagemaker.ipynb voor deze stap.

Om de Docker-image en het modelbestand voor te bereiden, moet u de Docker-image van DJLServing ophalen, het inferentiescript en de configuratiebestanden verpakken als een model.tar.gz bestand en upload het naar een Amazon eenvoudige opslagservice (Amazon S3) bak. U kunt verwijzen naar de inferentiescript en configuratiebestand voor meer details.

inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=sess.boto_session.region_name, version="0.22.1"
)
! tar czvf model.tar.gz blip2/
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Wanneer de Docker-image en de gevolgtrekkingsgerelateerde bestanden gereed zijn, maakt u het model, de configuratie voor het eindpunt en het eindpunt:

from sagemaker.utils import name_from_base
blip_model_version = "blip2-flan-t5-xl"
model_name = name_from_base(blip_model_version)
model = Model( image_uri=inference_image_uri, model_data=s3_code_artifact, role=role, name=model_name,
)
model.deploy( initial_instance_count=1, instance_type="ml.g5.2xlarge", endpoint_name=model_name
)

Wanneer de eindpuntstatus in gebruik wordt genomen, kunt u het eindpunt aanroepen voor het ondertitelen van afbeeldingen en de geรฏnstrueerde zero-shot vision-to-taal generatietaak. Voor de taak voor het ondertitelen van afbeeldingen hoeft u alleen maar een afbeelding door te geven aan het eindpunt:

import base64
import json
from PIL import Image smr_client = boto3.client("sagemaker-runtime") def encode_image(img_file): with open(img_file, "rb") as image_file: img_str = base64.b64encode(image_file.read()) base64_string = img_str.decode("latin1") return base64_string def run_inference(endpoint_name, inputs): response = smr_client.invoke_endpoint( EndpointName=endpoint_name, Body=json.dumps(inputs) ) print(response["Body"].read()) test_image = "carcrash-ai.jpeg"
base64_string = encode_image(test_image)
inputs = {"image": base64_string}
run_inference(endpoint_name, inputs)

Voor de geรฏnstrueerde zero-shot vision-to-taal generatietaak moet u, naast de invoerafbeelding, de vraag definiรซren als een prompt:

base64_string = encode_image(test_image)
inputs = {"prompt": "Question: what happened in this photo? Answer:", "image": base64_string}
run_inference(endpoint_name, inputs)

Gebruik BLIP-2 en LLM voor contentmoderatie

In deze fase kunt u vragen stellen over de gegeven afbeelding en verborgen informatie ophalen. Met de LLM organiseert u de zoekopdrachten en haalt u informatie op om het resultaat in JSON-indeling te genereren. Je kunt deze taak grofweg opsplitsen in de volgende twee deeltaken:

  1. Haal informatie uit de afbeelding met het BLIP-2-model.
  2. Genereer het eindresultaat en de uitleg met de LLM.

Haal informatie uit de afbeelding met het BLIP-2-model

Om voldoende nuttige verborgen informatie uit de gegeven afbeelding te halen, moet u query's definiรซren. Omdat elke query het eindpunt รฉรฉn keer aanroept, zullen veel query's tot een langere verwerkingstijd leiden. Daarom raden we aan om zoekopdrachten van hoge kwaliteit te maken en alle polissen te bestrijken, maar ook zonder doublures. In onze voorbeeldcode definiรซren we de query's als volgt:

check_list = [ "Does this photo contain complete naked person?", "Does this photo contain topless person?", "Does this photo contain weapon?", "Does this photo contain contact information?", "Does this photo contain a smoker?", "Does this photo contain blood?", "Are there persons fighting in this photo?", "Does this photo contain harassment words?"
]

Roep met de voorgaande query's het eindpunt van BLIP-2 aan om de informatie op te halen met de volgende code:

test_image = "./surf_swimwear.png"
raw_image = Image.open(test_image).convert('RGB') base64_string = encode_image(test_image)
conversations = """"""
for question in check_list: inputs = {"prompt": f"Question: {question}? Answer:", "image": base64_string} response = run_inference(endpoint_name, inputs) conversations += f"""
Question: {question}
Answer: {response}. """

Naast de informatie die door query's wordt opgehaald, kunt u informatie verkrijgen met de taak voor het ondertitelen van afbeeldingen door het eindpunt aan te roepen zonder de prompt veld in de lading:

inputs = {"image": base64_string}
response = smr_client.invoke_endpoint(
EndpointName=endpoint_name, Body=json.dumps(inputs)
)
image_caption = response["Body"].read().decode('utf-8')

U kunt de inhoud van vragen en antwoorden combineren met het bijschrift van de afbeelding en deze opgehaalde informatie gebruiken voor de vervolgtaak, die in het volgende gedeelte hieronder wordt beschreven.

Genereer het eindresultaat en de uitleg met de LLM

Grote taalmodellen (LLM's) zoals Llama 2 kunnen resultaten van hoge kwaliteit genereren met de juiste promptsjabloon. Gebruik makend van Amazon SageMaker JumpStartkunnen ML-beoefenaars kiezen uit een brede selectie van openbaar beschikbare basismodellen. Met slechts een paar klikken in SageMaker Studio kunt u dat nu doen ontdek en implementeer Llama 2.

De uiteindelijke resultaten zijn afhankelijk van een LLM met een specifiek promptsjabloon. Een dergelijke prompt bestaat uit: het moderatiebeleid gebaseerd op categorieรซn van ongepast of aanstootgevend moderatie categorieรซn; beeldinformatie geรซxtraheerd uit BLIP-2; de vraagsjabloon aan de LLM waarin wordt gevraagd of de foto onveilige inhoud bevat en waarin wordt gevraagd naar de categorie en de reden ervan als deze onveilig is; en instructies om de resultaten in JSON-indeling uit te voeren. Met de ontworpen promptsjabloon kan de LLM bepalen of de afbeelding het moderatiebeleid schendt, de categorie van overtreding identificeren, uitleggen waarom en de uitvoer in een gestructureerd JSON-formaat leveren.

De kernbroncode is als volgt:

prompt_template = f"""
The following is our company's content moderation policy, based on the moderation policy, we gather image information from the user uploaded image. Please answer the question with json format. ###### moderation policy ######
{moderation_policy} ###### Image information ######
{conversations} ###### Question ######
Based on the following Moderation policy and QA, tell me if the photo containes unsafe content, also give its category and reason if it's unsafe. Please anwser the question with the following format and only put explanation into the reason field: """ prompt_template += """
{ "flag": "xxx", "category": "xxx", "reason": "the reason is ..."
} """ dialog = [ {"role": "user", "content": prompt_template}
]

U kunt de prompt aanpassen op basis van uw eigen gebruiksscenario. Verwijs naar de notitieboekje voor meer details. Wanneer de prompt gereed is, kunt u het LLM-eindpunt aanroepen om resultaten te genereren:

endpoint_name = "jumpstart-dft-meta-textgeneration-llama-2-70b-f" def query_endpoint(payload): client = boto3.client("sagemaker-runtime") response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/json", Body=json.dumps(payload), CustomAttributes="accept_eula=true", ) response = response["Body"].read().decode("utf8") response = json.loads(response) return response payload = { "inputs": [dialog], "parameters": {"max_new_tokens": 256, "top_p": 0.9, "temperature": 0.5}
}
result = query_endpoint(payload)[0]

Een deel van de gegenereerde uitvoer is als volgt:

> Assistant: { "flag": "unsafe", "category": "Suggestive", "reason": "The photo contains a topless person, which is considered suggestive content."
} Explanation:
The photo contains a topless person, which violates the moderation policy's rule number 2, which states that suggestive content includes "Female Swimwear Or Underwear, Male Swimwear Or Underwear, Partial Nudity, Barechested Male, Revealing Clothes and Sexual Situations." Therefore, the photo is considered unsafe and falls under the category of Suggestive.

Af en toe voegt Lama 2 naast het antwoord van de assistent nog extra uitleg toe. U kunt de parseercode gebruiken om JSON-gegevens uit de origineel gegenereerde resultaten te extraheren:

answer = result['generation']['content'].split('}')[0]+'}'
json.loads(answer)

Voordelen van generatieve benaderingen

In de voorgaande secties is getoond hoe u het kerngedeelte van modelinferentie kunt implementeren. In deze sectie behandelen we verschillende aspecten van generatieve benaderingen, inclusief vergelijkingen met conventionele benaderingen en perspectieven.

In de volgende tabel worden elke benadering vergeleken.

. Generatieve aanpak Classificatiebenadering
Gelabelde gegevens verkrijgen Vooraf getraind model op een groot aantal afbeeldingen, zero-shot gevolgtrekking Vereist gegevens uit alle soorten categorieรซn
Generalisatie van modellen Voorgetraind model met verschillende soorten afbeeldingen Vereist een groot volume aan inhoudsmoderatiegerelateerde gegevens om de modelgeneralisatie te verbeteren
Operationele efficiรซntie Zero-shot-mogelijkheden Vereist het trainen van het model voor het herkennen van verschillende patronen, en het opnieuw trainen wanneer labels worden toegevoegd
Uitlegbaarheid Redenering als tekstuitvoer, geweldige gebruikerservaring Moeilijk te redeneren, moeilijk uit te leggen en te interpreteren
Tegenstrijdige aard Robuust Herscholing met hoge frequentie

Potentiรซle gebruiksscenario's van multimodaal redeneren die verder gaan dan inhoudsmoderatie

De BLIP-2-modellen kunnen voor meerdere doeleinden worden toegepast, met of zonder fijnafstelling, waaronder het volgende:

  • Afbeelding bijschrift โ€“ Hierbij wordt het model gevraagd een tekstbeschrijving te genereren voor de visuele inhoud van de afbeelding. Zoals geรฏllustreerd in de volgende voorbeeldafbeelding (links), kunnen we dit hebben โ€œeen man staat met een surfplank op het strandโ€ als de afbeeldingsbeschrijving.
  • Visuele vraagbeantwoording โ€“ Zoals de voorbeeldafbeelding in het midden laat zien, kunnen we dit vragen โ€œIs het commercieel gerelateerde inhoudโ€ en we hebben "Ja" als antwoord. Bovendien ondersteunt BLIP-2 het meerrondegesprek en geeft de volgende vraag weer: "Waarom denk je dat?" Gebaseerd op de visuele cue en LLM-mogelijkheden, voert BLIP-2 uit โ€œHet is een teken voor Amazon.โ€
  • Ophalen van afbeeldingstekst โ€“ Gezien de vraag als โ€œTekst op de afbeeldingโ€, kunnen we de afbeeldingstekst extraheren โ€œHet is maandag, maar blijf lachenโ€ zoals gedemonstreerd in de afbeelding rechts.

De volgende afbeeldingen tonen voorbeelden om de zero-shot beeld-naar-tekst-mogelijkheid van visuele kennisredenering te demonstreren.

Zoals we uit verschillende voorbeelden hierboven kunnen zien, openen multimodaliteitsmodellen nieuwe mogelijkheden voor het oplossen van complexe problemen die traditionele modellen met รฉรฉn modaliteit moeilijk zouden kunnen aanpakken.

Opruimen

Om te voorkomen dat er in de toekomst kosten in rekening worden gebracht, verwijdert u de bronnen die als onderdeel van dit bericht zijn gemaakt. U kunt dit doen door de instructies te volgen in de sectie voor het opschonen van notebooks, of door de gemaakte eindpunten te verwijderen via de SageMaker-console en bronnen die zijn opgeslagen in de S3-bucket.

Conclusie

In dit bericht bespraken we het belang van contentmoderatie in de digitale wereld en benadrukten we de uitdagingen ervan. We hebben een nieuwe methode voorgesteld om de inhoudsmoderatie met afbeeldingsgegevens te verbeteren en vragen te beantwoorden op basis van de afbeeldingen om automatisch nuttige informatie te extraheren. We hebben ook verdere discussies gevoerd over de voordelen van het gebruik van een generatieve, op AI gebaseerde aanpak in vergelijking met de traditionele, op classificatie gebaseerde aanpak. Ten slotte illustreerden we de mogelijke gebruiksscenarioโ€™s van beeldtaalmodellen die verder gaan dan contentmoderatie.

We moedigen u aan om meer te leren door SageMaker te verkennen en een oplossing te bouwen met behulp van de multimodale oplossing die in dit bericht wordt aangeboden en een dataset die relevant is voor uw bedrijf.


Over de auteurs

Gorden Wang is een Senior AI/ML Specialist TAM bij AWS. Hij ondersteunt strategische klanten met best practices op het gebied van AI/ML in vele sectoren. Hij heeft een passie voor computer vision, NLP, generatieve AI en MLOps. In zijn vrije tijd houdt hij van hardlopen en wandelen.

Yanwei Cui, PhD, is een Senior Machine Learning Specialist Solutions Architect bij AWS. Hij begon onderzoek naar machine learning bij IRISA (Research Institute of Computer Science and Random Systems) en heeft een aantal jaren ervaring met het bouwen van AI-aangedreven industriรซle toepassingen op het gebied van computer vision, natuurlijke taalverwerking en online voorspelling van gebruikersgedrag. Bij AWS deelt hij zijn domeinexpertise en helpt hij klanten zakelijke mogelijkheden te ontsluiten en bruikbare resultaten te behalen met machinaal leren op schaal. Buiten zijn werk houdt hij van lezen en reizen.

Melanie Li, PhD, is een Senior AI/ML-specialist TAM bij AWS in Sydney, Australiรซ. Ze helpt zakelijke klanten oplossingen te bouwen met behulp van de modernste AI/ML-tools op AWS en biedt begeleiding bij het ontwerpen en implementeren van ML-oplossingen met best practices. In haar vrije tijd houdt ze ervan om de natuur te verkennen en tijd door te brengen met familie en vrienden.

spot_img

Laatste intelligentie

spot_img