Zephyrnet لوگو

وسیع پیمانے پر LLM ہیلوسینیشنز کوڈ ڈیولپر اٹیک کی سطح کو وسعت دیں۔

تاریخ:

حال ہی میں جاری کی گئی تحقیق کے مطابق، سافٹ ویئر ڈویلپرز کا بڑے لینگوئج ماڈلز (LLMs) کا استعمال حملہ آوروں کے لیے نقصان دہ پیکجوں کو ترقیاتی ماحول میں تقسیم کرنے کے لیے پہلے سوچنے سے بڑا موقع فراہم کرتا ہے۔

ایل ایل ایم سیکیورٹی وینڈر لاسو سیکیورٹی کا مطالعہ پچھلے سال کی ایک رپورٹ کا فالو اپ ہے حملہ آوروں کا غلط استعمال کرنے والے LLMs کے فریب کاری کے رجحان کو، یا بظاہر قابل فہم لیکن حقیقتاً بنیاد پر نہیں، صارف کے ان پٹ کے جواب میں نتیجہ پیدا کرنا۔

اے آئی پیکیج ہیلوسینیشن

۔ گزشتہ مطالعہ جب سافٹ ویئر ڈویلپرز نے ترقیاتی ماحول میں AI- فعال چیٹ بوٹ کی مدد طلب کی تو کوڈ لائبریریوں کے ناموں کو گھڑنے کے لیے ChatGPT کے رجحان پر توجہ مرکوز کی۔ دوسرے لفظوں میں، چیٹ بوٹ بعض اوقات پبلک کوڈ ریپوزٹریز پر موجود نہ ہونے والے پیکجوں کے لنکس نکال دیتا ہے جب کوئی ڈویلپر اسے کسی پروجیکٹ میں استعمال کرنے کے لیے پیکیج تجویز کرنے کے لیے کہہ سکتا ہے۔

سیکیورٹی محقق بار لانیاڈو، مطالعہ کے مصنف اور اب لاسو سیکیورٹی میں، نے پایا کہ حملہ آور آسانی سے ایک حقیقی بدنیتی پر مبنی پیکج کو اس مقام پر چھوڑ سکتے ہیں جس کی طرف ChatGPT اشارہ کرتا ہے اور اسے وہی نام دے سکتا ہے جو hallucinated پیکیج کا ہے۔ کوئی بھی ڈویلپر جو ChatGPT کی سفارش کی بنیاد پر پیکج کو ڈاؤن لوڈ کرتا ہے اس کے بعد وہ اپنے ترقیاتی ماحول میں میلویئر متعارف کروا سکتا ہے۔

لانیاڈو کا فالو اپ تحقیق چار مختلف بڑے لینگویج ماڈلز میں پیکیج ہیلوسینیشن کے مسئلے کی وسیع پیمانے پر جانچ کی: GPT-3.5-Turbo، GPT-4، Gemini Pro (سابقہ ​​Bard)، اور Coral (Cohere)۔ اس نے مختلف پروگرامنگ زبانوں اور فریکوئنسی جس کے ساتھ انہوں نے ایک ہی فریکوئنسی پیکج کو پیدا کیا ہے اس کے لیے ہر ماڈل کی حرکات کا بھی تجربہ کیا۔

ٹیسٹوں کے لیے، لانیاڈو نے ہزاروں "کیسے کریں" سوالات کی ایک فہرست مرتب کی جو مختلف پروگرامنگ ماحول میں ڈویلپرز — python, node.js, go, .net, ruby ​​— زیادہ تر ترقیاتی ماحول میں LLMs سے مدد لیتے ہیں۔ لانیاڈو نے پھر ہر ماڈل کو کوڈنگ سے متعلق سوال کے ساتھ ساتھ سوال سے متعلق پیکیج کی سفارش بھی کی۔ انہوں نے ہر ماڈل سے کہا کہ وہ اسی مسئلے کو حل کرنے کے لیے مزید 10 پیکجوں کی سفارش کرے۔

دہرائے جانے والے نتائج

نتائج پریشان کن تھے۔ چونکا دینے والی 64.5% "گفتگو" لانیاڈو نے جیمنی کے ساتھ ہیلوسینیٹڈ پیکجز تیار کیں۔ کورل کے ساتھ، یہ تعداد 29.1 فیصد تھی۔ دیگر LLMs جیسے GPT-4 (24.2%) اور GPT3.5 (22.5%) زیادہ بہتر نہیں تھے۔

جب لانیاڈو نے ہر ماڈل سے سوالات کا ایک ہی سیٹ 100 بار پوچھا کہ یہ دیکھنے کے لیے کہ ماڈلز ایک ہی پیکجوں کو کتنی کثرت سے ہیلوسینیٹ کرتے ہیں، تو اس نے دیکھا کہ تکرار کی شرح بھی ابرو اٹھا رہی ہے۔ مثال کے طور پر، کوہیر نے 24 فیصد سے زیادہ وقت میں وہی فریب شدہ پیکجوں کو نکالا؛ GPT-3.5 اور Gemini تقریباً 14%، اور GPT-4 20% پر چیٹ کریں۔ کئی مثالوں میں، مختلف ماڈلز نے ایک ہی یا ملتے جلتے پیکجوں کو دھوکہ دیا۔ اس طرح کے کراس ہیلوسینیٹڈ ماڈلز کی سب سے زیادہ تعداد GPT-3.5 اور Gemini کے درمیان واقع ہوئی۔

لانیاڈو کا کہنا ہے کہ یہاں تک کہ اگر مختلف ڈویلپرز نے ایک ہی موضوع پر ایک LLM سے سوال پوچھا لیکن سوالات کو مختلف طریقے سے تیار کیا، تو اس بات کا امکان ہے کہ LLM ہر معاملے میں ایک ہی فریب شدہ پیکیج کی سفارش کرے گا۔ دوسرے لفظوں میں، کوئی بھی ڈویلپر جو LLM کوڈنگ اسسٹنس کے لیے استعمال کرتا ہے ممکنہ طور پر اسی طرح کے بہت سے فریب شدہ پیکجوں کا سامنا کرے گا۔

لانیاڈو کا کہنا ہے کہ "سوال بالکل مختلف ہو سکتا ہے لیکن اسی طرح کے موضوع پر، اور فریب نظر آجائے گا، جو اس تکنیک کو بہت موثر بناتا ہے۔" "موجودہ تحقیق میں، ہمیں بہت سے مختلف سوالات اور مضامین اور یہاں تک کہ مختلف ماڈلز کے لیے 'دوہرانے والے پیکجز' موصول ہوئے، جس سے ان فریب شدہ پیکجوں کے استعمال ہونے کا امکان بڑھ جاتا ہے۔"

استحصال کرنے میں آسان

مثال کے طور پر چند ہیلوسینیٹڈ پیکجوں کے ناموں سے لیس حملہ آور انہی ناموں کے پیکجز کو مناسب ذخیروں میں اپ لوڈ کر سکتا ہے یہ جانتے ہوئے کہ ایل ایل ایم ڈویلپرز کو اس کی طرف اشارہ کرے گا۔ یہ ظاہر کرنے کے لیے کہ خطرہ نظریاتی نہیں ہے، لانیاڈو نے "ہگنگ فیس-کلی" نامی ایک ہیلوسینیٹڈ پیکیج لیا جس کا سامنا اسے اپنے ٹیسٹ کے دوران ہوا اور اسی نام کے ساتھ ایک خالی پیکج مشین لرننگ ماڈلز کے لیے Hugging Face repository میں اپ لوڈ کیا۔ وہ کہتے ہیں کہ ڈویلپرز نے اس پیکج کو 32,000 سے زیادہ بار ڈاؤن لوڈ کیا۔

دھمکی آمیز اداکار کے نقطہ نظر سے، پیکج فریب کاری میلویئر کی تقسیم کے لیے نسبتاً سیدھا ویکٹر پیش کرتی ہے۔ "جیسا کہ ہم نے تحقیقی نتائج سے دیکھا، یہ اتنا مشکل نہیں ہے،" وہ کہتے ہیں۔ لانیاڈو نے مزید کہا کہ اوسطاً، تمام ماڈلز نے تقریباً 35 سوالات کے لیے 48,000 فیصد ایک ساتھ فریب کیا۔ GPT-3.5 میں فریب کا سب سے کم فیصد تھا۔ جیمنی نے چاروں ماڈلز میں اوسطاً 18% کی تکرار کے ساتھ سب سے زیادہ اسکور کیا، وہ نوٹ کرتا ہے۔

لینیڈو تجویز کرتا ہے کہ ڈویلپرز احتیاط برتتے ہیں جب LLM سے پیکج کی سفارشات پر عمل کرتے ہوئے انہیں اس کی درستگی کا مکمل یقین نہ ہو۔ وہ یہ بھی کہتا ہے کہ جب ڈویلپرز کو ایک غیر مانوس اوپن سورس پیکج کا سامنا ہوتا ہے تو انہیں پیکیج ریپوزٹری کا دورہ کرنے اور اس کی کمیونٹی کے سائز، اس کے دیکھ بھال کے ریکارڈ، اس کے معلوم خطرات، اور اس کی مجموعی مصروفیت کی شرح کا جائزہ لینے کی ضرورت ہوتی ہے۔ ڈویلپرز کو پیکیج کو ترقیاتی ماحول میں متعارف کرانے سے پہلے اسے اچھی طرح اسکین کرنا چاہیے۔

اسپاٹ_مگ

تازہ ترین انٹیلی جنس

اسپاٹ_مگ