شعار زيفيرنت

قم بضبط نموذج Amazon Titan Image Generator G1 الخاص بك باستخدام تخصيص نموذج Amazon Bedrock | خدمات الويب الأمازون

التاريخ:

أمازون تيتان lmage مولد G1 هو نموذج متطور لتحويل النص إلى صورة، وهو متاح عبر أمازون بيدروك، وهو قادر على فهم المطالبات التي تصف كائنات متعددة في سياقات مختلفة ويلتقط هذه التفاصيل ذات الصلة في الصور التي ينشئها. وهو متوفر في مناطق AWS شرق الولايات المتحدة (شمال فرجينيا) وغرب الولايات المتحدة (أوريغون) ويمكنه تنفيذ مهام تحرير الصور المتقدمة مثل الاقتصاص الذكي والرسم الداخلي وتغييرات الخلفية. ومع ذلك، يرغب المستخدمون في تكييف النموذج مع الخصائص الفريدة في مجموعات البيانات المخصصة التي لم يتم تدريب النموذج عليها بالفعل. يمكن أن تتضمن مجموعات البيانات المخصصة بيانات خاصة للغاية تتوافق مع إرشادات علامتك التجارية أو أنماط محددة مثل حملة سابقة. لمعالجة حالات الاستخدام هذه وإنشاء صور مخصصة بالكامل، يمكنك ضبط Amazon Titan Image Generator باستخدام بياناتك الخاصة باستخدام نماذج مخصصة لأمازون Bedrock.

بدءًا من إنشاء الصور ووصولاً إلى تحريرها، تتمتع نماذج تحويل النص إلى صورة بتطبيقات واسعة النطاق في مختلف الصناعات. يمكنها تعزيز إبداع الموظف وتوفير القدرة على تخيل إمكانيات جديدة ببساطة من خلال الأوصاف النصية. على سبيل المثال، يمكن أن يساعد في التصميم وتخطيط الأرضيات للمهندسين المعماريين ويسمح بالابتكار بشكل أسرع من خلال توفير القدرة على تصور التصاميم المختلفة دون الحاجة إلى العملية اليدوية لإنشائها. وبالمثل، يمكن أن يساعد في التصميم عبر مختلف الصناعات مثل التصنيع، وتصميم الأزياء في مجال البيع بالتجزئة، وتصميم الألعاب من خلال تبسيط إنشاء الرسومات والرسوم التوضيحية. تعمل نماذج تحويل النص إلى صورة أيضًا على تحسين تجربة عملائك من خلال السماح بالإعلانات المخصصة بالإضافة إلى روبوتات الدردشة المرئية التفاعلية والغامرة في حالات استخدام الوسائط والترفيه.

في هذا المنشور، نوجهك خلال عملية الضبط الدقيق لنموذج Amazon Titan Image Generator للتعرف على فئتين جديدتين: الكلب رون والقطة سميلا، حيواناتنا الأليفة المفضلة. نناقش كيفية إعداد بياناتك لمهمة الضبط الدقيق للنموذج وكيفية إنشاء مهمة تخصيص النموذج في Amazon Bedrock. وأخيرًا، نعرض لك كيفية اختبار نموذجك المضبوط ونشره باستخدام الإنتاجية المقدمة.

رون الكلب سميلا القطة

تقييم قدرات النموذج قبل ضبط الوظيفة

يتم تدريب النماذج الأساسية على كميات كبيرة من البيانات، لذلك من الممكن أن يعمل نموذجك بشكل جيد بما فيه الكفاية خارج الصندوق. لهذا السبب، من الممارسات الجيدة التحقق مما إذا كنت تحتاج بالفعل إلى ضبط النموذج الخاص بك ليناسب حالة الاستخدام الخاصة بك أو ما إذا كانت الهندسة السريعة كافية. دعونا نحاول إنشاء بعض الصور للكلب Ron وSmila القطة باستخدام نموذج Amazon Titan Image Generator الأساسي، كما هو موضح في لقطات الشاشة التالية.

كما هو متوقع، فإن النموذج الجاهز لا يعرف رون وسميلا بعد، وتظهر المخرجات التي تم إنشاؤها كلابًا وقططًا مختلفة. مع بعض الهندسة السريعة، يمكننا تقديم المزيد من التفاصيل لنقترب من مظهر حيواناتنا الأليفة المفضلة.

على الرغم من أن الصور التي تم إنشاؤها تشبه إلى حد كبير صور رون وسميلا، إلا أننا نرى أن النموذج غير قادر على إعادة إنتاج الشبه الكامل لهما. لنبدأ الآن مهمة الضبط الدقيق للصور من رون وسميلا للحصول على مخرجات متسقة وشخصية.

الضبط الدقيق لمولد الصور Amazon Titan

توفر لك Amazon Bedrock تجربة بدون خادم لضبط نموذج Amazon Titan Image Generator الخاص بك. ما عليك سوى إعداد بياناتك وتحديد المعلمات الفائقة الخاصة بك، وسوف تتولى AWS العبء الثقيل نيابةً عنك.

عند استخدام نموذج Amazon Titan Image Generator للضبط الدقيق، يتم إنشاء نسخة من هذا النموذج في حساب تطوير نموذج AWS، الذي تملكه وتديره AWS، ويتم إنشاء مهمة تخصيص النموذج. تصل هذه المهمة بعد ذلك إلى بيانات الضبط الدقيق من VPC ويتم تحديث أوزان طراز Amazon Titan. يتم بعد ذلك حفظ النموذج الجديد في ملف خدمة تخزين أمازون البسيطة (Amazon S3) الموجود في نفس حساب تطوير النموذج الموجود في النموذج المُدرب مسبقًا. يمكن استخدامه الآن للاستدلال من خلال حسابك فقط ولا تتم مشاركته مع أي حساب AWS آخر. عند تشغيل الاستدلال، يمكنك الوصول إلى هذا النموذج عبر ملف حساب السعة المتوفرة أو مباشرة باستخدام الاستدلال الدفعي لـ Amazon Bedrock. بغض النظر عن طريقة الاستدلال المختارة، تظل بياناتك في حسابك ولا يتم نسخها إلى أي حساب مملوك لشركة AWS أو استخدامها لتحسين نموذج Amazon Titan Image Generator.

يوضح الرسم البياني التالي سير العمل هذا.

خصوصية البيانات وأمن الشبكات

تظل بياناتك المستخدمة للضبط الدقيق، بما في ذلك المطالبات، وكذلك النماذج المخصصة، خاصة في حساب AWS الخاص بك. ولا تتم مشاركتها أو استخدامها للتدريب النموذجي أو تحسينات الخدمة، ولا تتم مشاركتها مع موفري النماذج الخارجيين. يتم تشفير جميع البيانات المستخدمة للضبط الدقيق أثناء النقل وأثناء الراحة. تظل البيانات في نفس المنطقة التي تتم فيها معالجة استدعاء API. تستطيع ايضا استخذام AWS الرابط الخاص لإنشاء اتصال خاص بين حساب AWS حيث توجد بياناتك وVPC.

إعداد البيانات

قبل أن تتمكن من إنشاء مهمة تخصيص النموذج، تحتاج إلى القيام بذلك قم بإعداد مجموعة بيانات التدريب الخاصة بك. يعتمد تنسيق مجموعة بيانات التدريب الخاصة بك على نوع مهمة التخصيص التي تقوم بإنشائها (الضبط الدقيق أو التدريب المسبق المستمر) وطريقة بياناتك (نص إلى نص، أو نص إلى صورة، أو صورة إلى-). التضمين). بالنسبة لنموذج Amazon Titan Image Generator، يتعين عليك توفير الصور التي تريد استخدامها للضبط الدقيق والتسمية التوضيحية لكل صورة. تتوقع Amazon Bedrock أن يتم تخزين صورك على Amazon S3 وأن يتم توفير أزواج الصور والتسميات التوضيحية بتنسيق JSONL مع خطوط JSON متعددة.

كل سطر JSON عبارة عن نموذج يحتوي على مرجع الصورة، وS3 URI للصورة، وتعليق يتضمن مطالبة نصية للصورة. يجب أن تكون صورك بتنسيق JPEG أو PNG. يعرض الكود التالي مثالاً للتنسيق:

{"image-ref": "s3://bucket/path/to/image001.png", "caption": ""} {"image-ref": "s3://bucket/path/to/image002.png", "caption": ""} {"image-ref": "s3://bucket/path/to/image003.png", "caption": ""}

نظرًا لأن "Ron" و"Smila" هما اسمان يمكن استخدامهما أيضًا في سياقات أخرى، مثل اسم الشخص، فإننا نضيف المعرفات "Ron the dog" و"Smila the cat" عند إنشاء الموجه لتحسين نموذجنا . على الرغم من أنها ليست شرطًا لضبط سير العمل بشكل دقيق، إلا أن هذه المعلومات الإضافية توفر مزيدًا من الوضوح السياقي للنموذج عندما يتم تخصيصه للفئات الجديدة وستتجنب الخلط بين ""رون الكلب"" وشخص يُدعى رون" و" سميلا القطة” مع مدينة سميلا في أوكرانيا. باستخدام هذا المنطق، تظهر الصور التالية عينة من مجموعة بيانات التدريب لدينا.

رون الكلب يرقد على سرير كلب أبيض رون الكلب يجلس على أرضية من البلاط رون الكلب يرقد على مقعد السيارة
سميلا القطة مستلقية على الأريكة سميلا القطة تحدق في الكاميرا وهي مستلقية على الأريكة سميلا القطة مستلقية في حاملة الحيوانات الأليفة

عند تحويل بياناتنا إلى التنسيق المتوقع بواسطة مهمة التخصيص، نحصل على بنية العينة التالية:

{"مرجع الصورة": "/ron_01.jpg", "caption": "الكلب رون مستلقي على سرير كلب أبيض"} {"image-ref": "/ron_02.jpg", "caption": "رون الكلب يجلس على أرضية من البلاط"} {"image-ref": "/ron_03.jpg", "caption": "رون الكلب مستلقي على مقعد السيارة"} {"image-ref": "/smila_01.jpg", "caption": "ابتسم القطة مستلقية على الأريكة"} {"image-ref": "/smila_02.jpg", "caption": "القطة سميلا تجلس بجوار النافذة بجوار تمثال قطة"} {"image-ref": "/smila_03.jpg", "caption": "ابتسم القطة مستلقية على حاملة الحيوانات الأليفة"}

بعد أن أنشأنا ملف JSONL الخاص بنا، نحتاج إلى تخزينه في حاوية S3 لبدء مهمة التخصيص الخاصة بنا. ستعمل وظائف الضبط الدقيق لـ Amazon Titan Image Generator G1 مع ما بين 5 إلى 10,000 صورة. بالنسبة للمثال الذي تمت مناقشته في هذا المنشور، نستخدم 60 صورة: 30 للكلب رون و30 للقطط سميلا. بشكل عام، سيؤدي توفير المزيد من أنواع النمط أو الفئة التي تحاول تعلمها إلى تحسين دقة النموذج الذي تم ضبطه بدقة. ومع ذلك، كلما زاد عدد الصور التي تستخدمها للضبط الدقيق، كلما زاد الوقت المطلوب لإكمال مهمة الضبط الدقيق. يؤثر عدد الصور المستخدمة أيضًا على تسعير عملك الذي تم ضبطه بدقة. تشير إلى أسعار أمازون بيدروك للمزيد من المعلومات.

الضبط الدقيق لمولد الصور Amazon Titan

الآن بعد أن أصبحت لدينا بيانات التدريب جاهزة، يمكننا أن نبدأ مهمة تخصيص جديدة. يمكن إجراء هذه العملية عبر وحدة تحكم Amazon Bedrock أو واجهات برمجة التطبيقات. لاستخدام وحدة تحكم Amazon Bedrock، أكمل الخطوات التالية:

  1. في وحدة تحكم Amazon Bedrock، اختر نماذج مخصصة في جزء التنقل.
  2. على تخصيص النموذج القائمة، اختر إنشاء وظيفة الضبط الدقيق.
  3. في حالة اسم الموديل المضبوط، أدخل اسمًا لنموذجك الجديد.
  4. في حالة تكوين الوظيفة، أدخل اسمًا لمهمة التدريب.
  5. في حالة ادخال البيانات، أدخل مسار S3 لبيانات الإدخال.
  6. في مجلة معلمات هايبر القسم، توفير القيم لما يلي:
    1. عدد من الخطوات – عدد مرات تعرض النموذج لكل دفعة.
    2. حجم الدفعة - عدد العينات المعالجة قبل تحديث معلمات النموذج.
    3. معدل التعليم - معدل تحديث معلمات النموذج بعد كل دفعة. يعتمد اختيار هذه المعلمات على مجموعة بيانات معينة. كمبدأ توجيهي عام، نوصيك بالبدء بتثبيت حجم الدفعة على 8، ومعدل التعلم على 1e-5، وتعيين عدد الخطوات وفقًا لعدد الصور المستخدمة، كما هو مفصل في الجدول التالي.
عدد الصور المقدمة 8 32 64 1,000 10,000
عدد الخطوات الموصى بها 1,000 4,000 8,000 10,000 12,000

إذا كانت نتائج مهمة الضبط الدقيق الخاصة بك غير مرضية، فكر في زيادة عدد الخطوات إذا لم تلاحظ أي علامات للنمط في الصور التي تم إنشاؤها، وتقليل عدد الخطوات إذا لاحظت النمط في الصور التي تم إنشاؤها ولكن مع التحف أو التشويش. إذا فشل النموذج الذي تم ضبطه بدقة في التعرف على النمط الفريد في مجموعة البيانات الخاصة بك حتى بعد 40,000 خطوة، ففكر في زيادة حجم الدفعة أو معدل التعلم.

  1. في مجلة بيانات الناتج القسم، أدخل مسار إخراج S3 حيث يتم تخزين مخرجات التحقق من الصحة، بما في ذلك فقدان التحقق المسجل بشكل دوري ومقاييس الدقة.
  2. في مجلة الوصول إلى الخدمة القسم، إنشاء جديد إدارة الهوية والوصول AWS (IAM) أو اختر دور IAM موجودًا مع الأذونات اللازمة للوصول إلى حاويات S3 الخاصة بك.

يمكّن هذا التفويض Amazon Bedrock من استرداد مجموعات بيانات الإدخال والتحقق من الحاوية المخصصة لك وتخزين مخرجات التحقق بسلاسة في حاوية S3 الخاصة بك.

  1. اختار نموذج الضبط الدقيق.

من خلال مجموعة التكوينات الصحيحة، ستقوم Amazon Bedrock الآن بتدريب النموذج المخصص الخاص بك.

انشر Amazon Titan Image Generator المضبوط بدقة مع الإنتاجية المتوفرة

بعد إنشاء نموذج مخصص، تسمح لك الإنتاجية المتوفرة بتخصيص معدل ثابت ومحدد مسبقًا لقدرة المعالجة للنموذج المخصص. يوفر هذا التخصيص مستوى ثابتًا من الأداء والقدرة على التعامل مع أحمال العمل، مما يؤدي إلى أداء أفضل في أحمال عمل الإنتاج. الميزة الثانية للإنتاجية المتوفرة هي التحكم في التكلفة، لأن التسعير القياسي القائم على الرمز المميز مع وضع الاستدلال عند الطلب قد يكون من الصعب التنبؤ به على نطاقات واسعة.

عند اكتمال الضبط الدقيق للنموذج الخاص بك، سيظهر هذا النموذج على نماذج مخصصة الصفحة على وحدة تحكم Amazon Bedrock.

لشراء الإنتاجية المتوفرة، حدد النموذج المخصص الذي قمت بضبطه واختياره للتو شراء الإنتاجية المتوفرة.

يؤدي هذا إلى ملء النموذج المحدد الذي تريد شراء الإنتاجية المتوفرة له مسبقًا. لاختبار النموذج الذي تم ضبطه بدقة قبل النشر، قم بتعيين وحدات النموذج على قيمة 1 وقم بتعيين مدة الالتزام على لا يوجد التزام. يتيح لك هذا البدء بسرعة في اختبار النماذج الخاصة بك باستخدام المطالبات المخصصة الخاصة بك والتحقق مما إذا كان التدريب كافيًا. علاوة على ذلك، عند توفر نماذج جديدة مضبوطة وإصدارات جديدة، يمكنك تحديث الإنتاجية المتوفرة طالما قمت بتحديثها بإصدارات أخرى من نفس النموذج.

نتائج الضبط الدقيق

بالنسبة لمهمتنا المتمثلة في تخصيص النموذج على الكلب رون وسميلا القطة، أظهرت التجارب أن أفضل المعلمات الفائقة كانت 5,000 خطوة بحجم دفعة 8 ومعدل تعلم 1e-5.

فيما يلي بعض الأمثلة على الصور التي تم إنشاؤها بواسطة النموذج المخصص.

رون الكلب يرتدي عباءة البطل الخارق رون الكلب على القمر رون الكلب في حمام السباحة مع النظارات الشمسية
سميلا القطة على الثلج سميلا القطة بالأبيض والأسود تحدق في الكاميرا سميلا القطة ترتدي قبعة عيد الميلاد

وفي الختام

في هذا المنشور، ناقشنا متى يجب استخدام الضبط الدقيق بدلاً من هندسة المطالبات الخاصة بك لإنشاء صور ذات جودة أفضل. لقد أظهرنا كيفية ضبط نموذج Amazon Titan Image Generator ونشر النموذج المخصص على Amazon Bedrock. لقد قدمنا ​​أيضًا إرشادات عامة حول كيفية إعداد بياناتك للضبط الدقيق وتعيين المعلمات الفائقة المثالية لتخصيص النموذج بشكل أكثر دقة.

كخطوة تالية، يمكنك تعديل ما يلي مثال لحالة الاستخدام الخاصة بك لإنشاء صور شديدة التخصيص باستخدام Amazon Titan Image Generator.


حول المؤلف

ميرا لاديرا تانك هو أحد كبار علماء بيانات الذكاء الاصطناعي التوليدي في AWS. تتمتع بخلفية في التعلم الآلي، ولديها أكثر من 10 سنوات من الخبرة في تصميم وبناء تطبيقات الذكاء الاصطناعي مع العملاء في مختلف الصناعات. وباعتبارها رائدة تقنية، فإنها تساعد العملاء على تسريع تحقيقهم لقيمة الأعمال من خلال حلول الذكاء الاصطناعي التوليدية على Amazon Bedrock. في أوقات فراغها، تستمتع مايرا بالسفر واللعب مع قطتها سميلا وقضاء الوقت مع عائلتها في مكان دافئ.

داني ميتشل هو مهندس حلول متخصص في الذكاء الاصطناعي/تعلم الآلة في Amazon Web Services. وهو يركز على حالات استخدام رؤية الكمبيوتر ومساعدة العملاء عبر أوروبا والشرق الأوسط وإفريقيا على تسريع رحلة التعلم الآلي الخاصة بهم.

بهاراتي سرينيفاسان هي عالمة بيانات في AWS Professional Services، حيث تحب إنشاء أشياء رائعة على Amazon Bedrock. وهي شغوفة بتعزيز قيمة الأعمال من تطبيقات التعلم الآلي، مع التركيز على الذكاء الاصطناعي المسؤول. بعيدًا عن بناء تجارب الذكاء الاصطناعي الجديدة للعملاء، تحب بهاراتي كتابة الخيال العلمي وتحدي نفسها من خلال رياضات التحمل.

أشين جاين هو عالم تطبيقي في فريق الذكاء العام الاصطناعي في أمازون (AGI). يتمتع بخبرة في نماذج تحويل النص إلى صورة ويركز على إنشاء Amazon Titan Image Generator.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة