شعار زيفيرنت

قم بتحميل Dataset مباشرة إلى Colab من أي مكان في المتصفح باستخدام CurlWget Extension

التاريخ:

تم نشر هذه المقالة كجزء من مدونة علوم البيانات

جدول المحتويات

  1. المُقدّمة
  2. ملحق CurlWget
  3. تحميل البيانات على Colab من أي موقع
  4. التعامل مع تنسيقات الملفات المختلفة في Collaboratory
  5. احفظ الملفات وأعد استخدامها دون إهدار الإنترنت
  6. إذا تمت مشاركة الملفات معك على gdrive
  7. وفي الختام
  8. عن المؤلف

 

المُقدّمة

تعد Google coaboratory واحدة من أكثر بيئات أجهزة الكمبيوتر المحمولة jupyter استخدامًا على الويب لتنفيذ التعلم الآلي ونماذج التعلم العميق على وحدات المعالجة المركزية المتطورة ووحدات معالجة الرسومات ووحدات المعالجة المركزية (TPU).

إذا كنت جديدًا في علم البيانات والتعلم العميق ، ففكر في الترحيل من دفاتر jupyter التي تعمل على جهازك المحلي إلى دفاتر google colab.

هناك العديد من المزايا لاستخدام كولاب واختراق متعدد لتخصيص الكمبيوتر الدفتري الخاص بك حسب احتياجاتك. ولكن هناك عيبًا كبيرًا في استخدام دفاتر كولاب على دفاتر جوبيتر.

نظرًا لأن google colaboratory هي بيئة دفتر ملاحظات تستند إلى الويب ، فأنت بحاجة إلى تحميل البيانات من جهازك المحلي إلى الخادم. تحميل البيانات بطيء نسبيًا في colab.

عندما تكون في علم البيانات ، فإنك تتعامل مع مجموعات بيانات تتراوح من 100 ميغابايت إلى بضع غيغابايت. ويستغرق تحميل مجموعة بيانات ذات حجم ملف كبير وقتًا طويلاً في google colaboratory.

في هذه المدونة ، سأشارك حلاً مناسبًا لهذه المشكلة يمكنك من خلاله تحميل حتى 10 غيغابايت من مجموعة البيانات في بضع ثوانٍ.

للقيام بذلك ، يجب أن تكون على دراية بامتداد CurlWget ، وهو مفتاح مشكلتنا. هذا الامتداد هو المنقذ ويسهل تحميل البيانات من أي مكان على المتصفح إلى colab مباشرة.

ملحق CurlWget

نظرًا لاستضافة google colab على خوادم تستند إلى Linux ، يمكننا استخدام بعض أوامر Linux الأساسية. CurlWget هو مكون إضافي صغير يساعد في توفير سلسلة سطر أوامر "curl" أو "wget" للنسخ / اللصق في جلسة وحدة التحكم فقط مثل google colab.

ملحق CurlWget

1. انقر هنا للتنقل إلى صفحة الامتداد وإضافة الامتداد إلى chrome.

التمديد - ملحق CurlWget

2 قم بتثبيت التمديد. تحتاج إلى تثبيت لاستخدامه بشكل أكبر.

3. أنت الآن جاهز لمزيد من العملية.

تخيل أنك لا تستخدم الامتداد لتحميل مجموعة البيانات مباشرة. للقيام بذلك ، عليك أولاً تنزيل مجموعة البيانات على نظامك المحلي ، ثم مرة أخرى ، عليك تحميلها على colab ، الأمر الذي يكلفك الكثير من الوقت. تستغرق عملية إعداد البيانات لبناء المزيد من النماذج عليها وقتًا وطاقة.

 

تحميل البيانات على Colab من أي موقع

تحميل بيانات تمديد CurlWget

1. سأستخدم مجموعة بيانات Microsoft Malware بحجم ملف 1.5 جيجابايت ؛ إذا كنت تريد معرفة المزيد عن مجموعة البيانات ، فانقر فوق هنا. سيتم نقلك مباشرة إلى "DATA PAGE" ، قم بالتمرير لأسفل وانقر فوق "تنزيل الكل" للحصول على مجموعة البيانات الكاملة. اختر مجموعة البيانات التي تريد تحميلها وتابعها.

تمديد شريط CurlWget

2. سترى بياناتك قيد التنزيل ، وعليك إلغاء التنزيل. نعم ، تقرأ بشكل صحيح ؛ قم بإلغاء التنزيل.

حق

3. بعد إلغاء التنزيل ، انقر فوق امتداد CurlWget الذي قمت بتثبيته مسبقًا. سترى شيئًا مكتوبًا عليه. انقر داخل المربع الرمادي ؛ بمجرد النقر بداخله ، يتم تحديد كل النص تلقائيًا ؛ انسخه بالضغط على ctrl + C على لوحة المفاتيح.

4. انتقل إلى التعاون ، أضف نوع خلية شفرة فارغًا "!" ولصق كل النص الذي نسخته من الامتداد دون أي مسافة بين "!" والنص الذي نسخته وقم بتشغيل الخلية.

5. هذا كل شيء ، تم تحميل الملف / المجلد الخاص بك مباشرة إلى قرص تخزين google colab في 26 ثانية فقط.

سيتم تحميل مجموعات البيانات ذات حجم الملف بالجيجابايت بسرعة بضع مئات من الميجابايت / ثانية وستكلف بضعة ميغا بايت فقط من الإنترنت الخاص بك. يمكنك تحميل البيانات من أي حجم ملف ، مع الأخذ في الاعتبار أنك لا تتجاوز مساحة التخزين المحدودة على القرص التي يوفرها colab.

التعامل مع تنسيقات الملفات المختلفة في Colaboratory

هناك طرق مختلفة لتحميل البيانات من أماكن أخرى وأنواع ملفات مختلفة ، ولكن هذه الطريقة تعمل بنفس الطريقة لجميع البيانات نظرًا لوجودها على المستعرض. الآن دعنا نرى كيف ستقرأ وتستخدم الملف الذي قمت بتحميله.

استيراد الباندا كبيانات pd = pd.read_csv ('filename.csv')

1. إذا كان الملف بتنسيق CSV ، فيمكنك قراءته مباشرةً باستخدام حيوانات الباندا.

! unzip "filepath"

2. إذا كان الملف بتنسيق مضغوط ، يجب أولاً فك ضغط الملف. استخدم الأمر أعلاه لفك ضغط البيانات.

يمكنك نسخ مسار الملف بالنقر فوق الملف الذي ستظهر به 3 نقاط ، والنقر فوقه والنقر فوق مسار النسخ ولصقه بالضغط على Ctrl + V حيث تريده.

وبالمثل ، يمكنك untar و unrar و tar و rar على التوالي.

احفظ الملفات وأعد استخدامها دون إهدار الإنترنت

بشكل عام ، عندما نعمل على نماذج التعلم الآلي والتعلم العميق ، يتعين علينا معالجة ملف البيانات الخام مسبقًا قبل استخدامه في النموذج. قد يكون هناك موقف يتعين عليك فيه حفظ البيانات المعالجة مسبقًا لاستخدامها في النماذج بشكل أكبر. لحفظ البيانات ، يجب عليك تنزيلها من colab وتخزينها على جهاز الكمبيوتر المحلي الخاص بك ولكن تنزيل البيانات أيضًا بطيء جدًا في google colab ، كما أنه يستهلك الكثير من الإنترنت. لتجنب هذه المشكلة ، استخدم gdrive لنقل ملفك مباشرة من colab إلى gdrive بحيث يمكنك استخدامه متى احتجت إليه.

من google.colab import drive.mount ('/ content / gdrive')

1. استخدم الكود أدناه لتحميل gdrive

2. يتطلب منك Colab إضافة رمز المصادقة ؛ انقر فوق الارتباط الموجود أسفل خلية الكود. سيوجهك إلى الرمز ، ونسخه ، ولصقه في المربع ، ثم اضغط على إدخال.

3. يتم الآن تحميل جميع الملفات والمجلدات الخاصة ببرنامج gdrive على وحدة تخزين القرص الخاصة بـ colab.

4. انقر على أيقونة المجلد. سترى جميع الملفات الموجودة في gdrive الخاص بك.

5. انسخ مسار الملف الذي تريد استخدامه واقرأه بالمكتبة المناسبة.

بعد إجراء تغييرات في ملف البيانات أو إنشاء ملفات جديدة لمشروعك ، احفظه مباشرة على gdrive من colab.

1. استخدم مكتبة مناسبة تحفظ الملفات من نوع الملف على القرص.

ملحق CurlWget 3

2. اختر مسار المجلد الذي تريد حفظ الملف فيه ، وأضف اسم الملف إلى ملفك وقم بتشغيل الخلية. سترى أنه تم تحميل الملف مباشرة إلى gdrive.

ملاحظة: - إذا قمت بالفعل بتثبيت gdrive على google colab وقمت بإجراء تغييرات على gdrive ، فسيتم تحديثه ديناميكيًا في colab. لا تحتاج إلى تحميل مرة أخرى.

وإذا كنت تجري تغييرات على gdrive عبر colab ، فسيتم تحديث gdrive تلقائيًا.

 

إذا تمت مشاركة الملفات معك على gdrive

إذا شارك زميلك أو صديقك رابط محرك google يحتوي على ملفات البيانات المطلوبة لمشروعك ، فيمكنك استخدام الملف مباشرة على google colab دون تنزيله على نظامك المحلي. 

كما لاحظت ، فإن تركيب محرك الأقراص على google colab يتضمن فقط الملفات والمجلدات من مجلد My Drive. لاستخدام الملفات / المجلدات من تمت مشاركتها معي ، يجب إضافة هذا الملف إلى ملفاتي. اتبع الخطوات أدناه لإضافة الملف الذي تمت مشاركته معي في مجلد ملفاتي.

ملحق CurlWget المجلد

1. حدد الملف / المجلد واضغط Shift + Z على لوحة المفاتيح.

2. حدد المجلد الموجود على My Drive حيث تريد نسخ الملف / المجلد الخاص بك وانقر فوق ADD SHORTCUT

مؤلف ملحق CurlWget

3. يتم إضافة الملف / المجلد إلى My Drive الخاص بك ؛ يمكنك أيضًا مشاهدة التغييرات في google colab.

وفي الختام

يجب أن تكون قد واجهت طرقًا مختلفة لتحميل البيانات على google colab إما عن طريق روابط API أو عناوين URL أو ببساطة تحميل البيانات. يمكنك استخدام هذه الطريقة لجميع التنسيقات والبيانات التي يتم تنزيلها على نظامك المحلي. بدلاً من جعل تحميل البيانات على colab عملية مرهقة ، استخدم CurlWget. بمجرد تحميل البيانات من خلال CurlWget ، استخدم google colab لتخزين بيانات المعالجة المسبقة لتجنب المعالجة المسبقة مرارًا وتكرارًا.

أتمنى أن تكون قد وجدت هذه المدونة مفيدة ، وقد تسهل عليك التعامل مع مجموعات البيانات الكبيرة.

 

عن المؤلف

أنا شريا شوكلا حاليًا في سنتي الثالثة في BIT ، مسرة. تواصل معي على لينكدين:، واترك رسالة إذا كنت مهتمًا بمزيد من الاختراقات مثل هذا أو إذا كنت تريد التعرف على علوم البيانات والتعلم الآلي.

الوسائط الموضحة في هذه المقالة على CurlWget Extension ليست مملوكة من قبل Analytics Vidhya ويتم استخدامها وفقًا لتقدير المؤلف.

أفلاطون. Web3 مُعاد تصوره. تضخيم ذكاء البيانات.
انقر هنا للوصول.

المصدر: https://www.analyticsvidhya.com/blog/2021/08/load-dataset-directly-into-colab-from-anywhere-on-the-browser-using-curlwget-extension/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة