اكتشف حالات الاستخدام الواقعية الخاصة بـ Amazon CodeWhisperer المدعوم بواسطة أجهزة الكمبيوتر المحمولة AWS Glue Studio | خدمات الويب من أمازون

يهتم العديد من العملاء بتعزيز الإنتاجية في دورة حياة تطوير البرامج الخاصة بهم باستخدام الذكاء الاصطناعي التوليدي. حديثاً، أعلنت AWS عن التوفر العام لبرنامج Amazon CodeWhisperer، وهو رفيق ترميز الذكاء الاصطناعي الذي يستخدم النماذج الأساسية ضمن الغطاء لتحسين إنتاجية مطوري البرامج. مع أمازون CodeWhisperer، يمكنك قبول الاقتراح الرئيسي بسرعة، أو عرض المزيد من الاقتراحات، أو الاستمرار في كتابة التعليمات البرمجية الخاصة بك. يقلل هذا التكامل من الوقت الإجمالي المستغرق في كتابة تكامل البيانات ومنطق الاستخراج والتحويل والتحميل (ETL). كما أنه يساعد المبرمجين على مستوى المبتدئين على كتابة الأسطر الأولى من التعليمات البرمجية. أجهزة الكمبيوتر الدفترية AWS Glue Studio يسمح لك بتأليف مهام تكامل البيانات من خلال واجهة دفتر الملاحظات بدون خادم المستندة إلى الويب.

في هذا المنشور، نناقش حالات الاستخدام الواقعية لـ CodeWhisperer المدعوم من دفاتر ملاحظات AWS Glue Studio.

حل نظرة عامة

لهذا المنصب، يمكنك استخدام CSV مجموعة بيانات أرباح الرياضة الإلكترونية، متاح للتنزيل عبر Kaggle. يتم استخراج البيانات من eSportsEarnings.com، والذي يوفر معلومات عن أرباح لاعبي وفرق الرياضات الإلكترونية. الهدف هو إجراء تحويلات باستخدام دفتر ملاحظات AWS Glue Studio مع توصيات CodeWhisperer ثم إعادة كتابة البيانات إلى خدمة تخزين أمازون البسيطة (Amazon S3) بتنسيق ملف Parquet بالإضافة إلى الأمازون الأحمر.

المتطلبات الأساسية المسبقة

الحل لدينا لديه المتطلبات الأساسية التالية:

قم بإعداد AWS Glue Studio.
تكوين إدارة الهوية والوصول AWS دور (IAM) للتفاعل مع CodeWhisperer. قم بإرفاق السياسة التالية بدور IAM الخاص بك والمرتبط بدفتر ملاحظات AWS Glue Studio:
```
{ "Version": "2012-10-17", "Statement": [{ "Sid": "CodeWhispererPermissions", "Effect": "Allow", "Action": [ "codewhisperer:GenerateRecommendations" ], "Resource": "*" }]
}
```
قم بتنزيل ملف CSV مجموعة بيانات أرباح الرياضة الإلكترونية وتحميل ملف CSV highest_earning_players.csv إلى المجلد S3 الذي ستستخدمه في حالة الاستخدام هذه.

قم بإنشاء دفتر ملاحظات AWS Glue Studio

هيا بنا نبدأ. قم بإنشاء مهمة دفتر ملاحظات AWS Glue Studio جديدة من خلال إكمال الخطوات التالية:

في وحدة تحكم AWS Glue ، اختر دفاتر مع وظائف ETL في جزء التنقل.
أختار مفكرة Jupyter واختر إنشاء.
في حالة اسم العمل، أدخل CodeWhisperer-s3toJDBC.

سيتم إنشاء دفتر ملاحظات جديد باستخدام عينات الخلايا كما هو موضح في لقطة الشاشة التالية.

نستخدم الخلية الثانية في الوقت الحالي، حتى تتمكن من إزالة كافة الخلايا الأخرى.

في الخلية الثانية، قم بتحديث تكوين الجلسة التفاعلية عن طريق تعيين ما يلي:
1. نوع العامل إلى G.1X
2. عدد العمال إلى 3
3. إصدار AWS الغراء إلى 4.0
علاوة على ذلك، قم باستيراد DynamicFrame وحدة و current_timestamp تعمل على النحو التالي:
```
from pyspark.sql.functions import current_timestamp
from awsglue.dynamicframe import DynamicFrame
```

بعد إجراء هذه التغييرات، يجب أن يبدو دفتر الملاحظات مثل لقطة الشاشة التالية.

الآن، دعونا نتأكد من أن CodeWhisperer يعمل على النحو المنشود. في أسفل اليمين ستجد الشفرة الخيار بجانب الغراء PySpark الحالة، كما هو موضح في لقطة الشاشة التالية.

يمكنك اختيار الشفرة لعرض الخيارات المستخدمة الاقتراحات التلقائية.

قم بتطوير التعليمات البرمجية الخاصة بك باستخدام CodeWhisperer في دفتر ملاحظات AWS Glue Studio

في هذا القسم، نعرض كيفية تطوير مهمة دفتر ملاحظات AWS Glue لـ Amazon S3 كمصدر بيانات ومصادر بيانات JDBC كهدف. بالنسبة لحالة الاستخدام الخاصة بنا، نحتاج إلى التأكد من تمكين الاقتراحات التلقائية. اكتب توصيتك باستخدام CodeWhisperer باتباع الخطوات التالية:

اكتب تعليقًا باللغة الطبيعية (باللغة الإنجليزية) لقراءة ملفات Parquet من حاوية S3 الخاصة بك:
```
# Read CSV files from S3
```

بعد إدخال التعليق السابق ثم اضغط أدخل، سيظهر زر CodeWhisperer الموجود في نهاية الصفحة أنه قيد التشغيل لكتابة التوصية. سيظهر مخرج توصية CodeWhisperer في السطر التالي ويتم اختيار الرمز بعد الضغط عليه علامة التبويب. يمكنك معرفة المزيد في إجراءات المستخدم.

بعد إدخال التعليق السابق، سيقوم CodeWhisperer بإنشاء مقتطف تعليمات برمجية مشابه لما يلي:

df = (spark.read.format("csv") .option("header", "true") .option("inferSchema", "true") .load("s3://<bucket>/<path>/highest_earning_players.csv"))

لاحظ أنك بحاجة إلى تحديث المسارات لتتوافق مع مجموعة S3 التي تستخدمها بدلاً من مجموعة CodeWhisperer.

من مقتطف التعليمات البرمجية السابق، استخدم CodeWhisperer Spark DataFrames لقراءة ملفات CSV.

يمكنك الآن تجربة بعض إعادة الصياغة للحصول على اقتراح باستخدام وظائف DynamicFrame:

# Read CSV file from S3 with the header format option using DynamicFrame"

الآن سيقوم CodeWhisperer بإنشاء مقتطف تعليمات برمجية قريب مما يلي:

dyF = glueContext.create_dynamic_frame.from_options( connection_type="s3", connection_options={ "paths": ["s3://<bucket>/<path>/highest_earning_players.csv"], "recurse": True, }, format="csv", format_options={ "withHeader": True, }, transformation_ctx="dyF")

إعادة صياغة الجمل المكتوبة الآن أثبتت أنه بعد بعض التعديلات على التعليقات التي كتبناها، حصلنا على التوصية الصحيحة من CodeWhisperer.

بعد ذلك، استخدم CodeWhisperer لطباعة مخطط AWS Glue DynamicFrame السابق باستخدام التعليق التالي:
```
# Print the schema of the above DynamicFrame
```

سيقوم CodeWhisperer بإنشاء مقتطف تعليمات برمجية قريب مما يلي:

dyF.printSchema()

نحصل على الناتج التالي.

نستخدم الآن CodeWhisperer لإنشاء بعض وظائف التحويل التي يمكنها معالجة AWS Glue DynamicFrame الذي تمت قراءته مسبقًا. نبدأ بإدخال الرمز في خلية جديدة.

أولاً، اختبر ما إذا كان بإمكان CodeWhisperer استخدام وظائف سياق AWS Glue الصحيحة مثل خيار الحل:
```
# Convert the "PlayerId" type from string to integer
```

أوصى CodeWhisperer بمقتطف تعليمات برمجية مشابه لما يلي:

dyF = dyF.resolveChoice(specs=[('PlayerId', 'cast:long')])
dyF.printSchema()

لا يمثل مقتطف الشفرة السابق التعليق الذي أدخلناه بدقة.

يمكنك تطبيق إعادة صياغة الجملة وتبسيطها من خلال تقديم التعليقات الثلاثة التالية. كل واحد لديه سؤال مختلف ونحن نستخدم withColumn طريقة Spark Frame والتي تستخدم في صب أنواع الأعمدة:
```
# Convert the DynamicFrame to spark data frame
# Cast the 'PlayerId' column from string to Integer using WithColumn function # Convert the spark frame back to DynamicFrame and print the schema
```

سوف يلتقط CodeWhisperer الأوامر السابقة ويوصي بمقتطف التعليمات البرمجية التالي بالتسلسل:

df = dyF.toDF()
df = df.withColumn("PlayerId", df["PlayerId"].cast("integer"))
dyF = DynamicFrame.fromDF(df, glueContext, "dyF")
dyF.printSchema()

يؤكد الإخراج التالي PlayerId يتم تغيير العمود من السلسلة إلى عدد صحيح.