شعار زيفيرنت

كيفية الوصول إلى Gemini API واستخدامها مجانًا - KDnuggets

التاريخ:

كيفية الوصول إلى Gemini API واستخدامها مجانًا
صورة المؤلف 

الجوزاء هو نموذج جديد طورته جوجل، وأصبح بارد قابلاً للاستخدام مرة أخرى. مع Gemini، أصبح من الممكن الآن الحصول على إجابات مثالية تقريبًا لاستفساراتك من خلال تزويدها بالصور والصوت والنص.

في هذا البرنامج التعليمي، سنتعرف على Gemini API وكيفية إعدادها على جهازك. سنستكشف أيضًا وظائف Python API المختلفة، بما في ذلك إنشاء النص وفهم الصور.

الجوزاء هو نموذج جديد للذكاء الاصطناعي تم تطويره من خلال التعاون بين فرق Google، بما في ذلك Google Research وGoogle DeepMind. تم تصميمه خصيصًا ليكون متعدد الوسائط، مما يعني أنه يمكنه فهم أنواع مختلفة من البيانات والعمل معها مثل النص والتعليمات البرمجية والصوت والصور والفيديو.

Gemini هو نموذج الذكاء الاصطناعي الأكثر تقدمًا والأكبر الذي طورته Google حتى الآن. وقد تم تصميمه ليكون مرنًا للغاية حتى يتمكن من العمل بكفاءة على مجموعة واسعة من الأنظمة، بدءًا من مراكز البيانات وحتى الأجهزة المحمولة. وهذا يعني أن لديها القدرة على إحداث ثورة في الطريقة التي يمكن بها للشركات والمطورين إنشاء تطبيقات الذكاء الاصطناعي وتوسيع نطاقها.

فيما يلي ثلاثة إصدارات من نموذج Gemini مصممة لحالات استخدام مختلفة:

  • الجوزاء الترا: الذكاء الاصطناعي الأكبر والأكثر تقدمًا القادر على أداء المهام المعقدة.
  • الجوزاء برو: نموذج متوازن يتمتع بأداء جيد وقابلية للتوسع.
  • الجوزاء نانو: الأكثر كفاءة للأجهزة المحمولة.

 

كيفية الوصول إلى Gemini API واستخدامها مجانًا
صورة من التعريف ببرج الجوزاء
 

يتمتع Gemini Ultra بأداء متطور، يتجاوز أداء GPT-4 في عدة مقاييس. إنه النموذج الأول الذي يتفوق في الأداء على الخبراء البشريين في المعيار الضخم لفهم اللغة متعدد المهام، والذي يختبر المعرفة العالمية وحل المشكلات عبر 57 موضوعًا متنوعًا. يعرض هذا الفهم المتقدم وقدراته على حل المشكلات.

لاستخدام واجهة برمجة التطبيقات، يتعين علينا أولاً الحصول على مفتاح واجهة برمجة التطبيقات الذي يمكنك من هنا: https://ai.google.dev/tutorials/setup

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

بعد ذلك انقر على زر "الحصول على مفتاح API" ثم انقر على "إنشاء مفتاح API في مشروع جديد".

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

انسخ مفتاح API وقم بتعيينه كمتغير بيئة. نحن نستخدم Deepnote ومن السهل جدًا علينا تعيين المفتاح بالاسم "GEMINI_API_KEY". ما عليك سوى الانتقال إلى التكامل والتمرير لأسفل وتحديد متغيرات البيئة.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

في الخطوة التالية، سنقوم بتثبيت واجهة برمجة تطبيقات Python باستخدام PIP:

pip install -q -U google-generativeai

بعد ذلك، سنقوم بتعيين مفتاح API لـ GenAI من Google وبدء المثيل.

import google.generativeai as genai
import os

gemini_api_key = os.environ["GEMINI_API_KEY"]
genai.configure(api_key = gemini_api_key)

بعد إعداد مفتاح API، أصبح استخدام نموذج Gemini Pro لإنشاء المحتوى أمرًا بسيطًا. قم بتوفير مطالبة لوظيفة "إنشاء_محتوى" وعرض الإخراج كـ Markdown.

from IPython.display import Markdown

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Who is the GOAT in the NBA?")

Markdown(response.text)

هذا مذهل، لكنني لا أتفق مع القائمة. ومع ذلك، فأنا أفهم أن الأمر كله يتعلق بالتفضيلات الشخصية.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

يمكن لـ Gemini إنشاء استجابات متعددة، تسمى الاستجابات المرشحة، لموجه واحد. يمكنك اختيار الأنسب. وفي حالتنا، كان لدينا إجابة واحدة فقط.

response.candidates

كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

لنطلب منه كتابة لعبة بسيطة بلغة بايثون.

response = model.generate_content("Build a simple game in Python")

Markdown(response.text)

والنتيجة بسيطة وإلى هذه النقطة. تبدأ معظم ماجستيرات القانون في شرح كود بايثون بدلاً من كتابته.

كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا

يمكنك تخصيص استجابتك باستخدام الوسيطة "Generation_config". نحن نقصر عدد المرشحين على 1، ونضيف كلمة التوقف "مسافة"، ونحدد الحد الأقصى للرموز ودرجة الحرارة.

response = model.generate_content(
    'Write a short story about aliens.',
    generation_config=genai.types.GenerationConfig(
        candidate_count=1,
        stop_sequences=['space'],
        max_output_tokens=200,
        temperature=0.7)
)

Markdown(response.text)

وكما ترون، توقف الرد قبل كلمة "مساحة". مدهش.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا

يمكنك أيضًا استخدام الوسيطة "stream" لدفق الاستجابة. إنه مشابه لواجهات برمجة التطبيقات Anthropic وOpenAI ولكنه أسرع.

model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Write a Julia function for cleaning the data.", stream=True)

for chunk in response:
    print(chunk.text)

كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا

في هذا القسم سوف نقوم بالتحميل مسعود الأسلمي الصورة واستخدامها لاختبار تعدد الوسائط في Gemini Pro Vision.

قم بتحميل الصور إلى `PIL` وعرضها.

import PIL.Image

img = PIL.Image.open('images/photo-1.jpg')

img

لدينا صورة عالية الجودة لقوس روا أوغوستا.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

لنقم بتحميل نموذج Gemini Pro Vision وتزويده بالصورة.

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(img)

Markdown(response.text)

وقد حدد النموذج القصر بدقة وقدم معلومات إضافية عن تاريخه وهندسته المعمارية.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

لنقدم نفس الصورة إلى GPT-4 ونسأله عن الصورة. لقد قدم كلا النموذجين إجابات متشابهة تقريبًا. لكني أحب استجابة GPT-4 أكثر.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

سنقدم الآن النص والصورة إلى واجهة برمجة التطبيقات. لقد طلبنا من نموذج الرؤية كتابة مدونة سفر باستخدام الصورة كمرجع.

response = model.generate_content(["Write a travel blog post using the image as reference.", img])

Markdown(response.text)

لقد زودني بمدونة قصيرة. كنت أتوقع تنسيق أطول.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

بالمقارنة مع GPT-4، واجه نموذج Gemini Pro Vision صعوبات في إنشاء مدونة طويلة التنسيق.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا

يمكننا إعداد النموذج لإجراء جلسة محادثة ذهابًا وإيابًا. بهذه الطريقة، يتذكر النموذج السياق والاستجابة باستخدام المحادثات السابقة.

في حالتنا، لقد بدأنا جلسة الدردشة وطلبنا من العارضة مساعدتي في البدء بلعبة Dota 2.

model = genai.GenerativeModel('gemini-pro')

chat = model.start_chat(history=[])

chat.send_message("Can you please guide me on how to start playing Dota 2?")

chat.history

كما ترى، فإن كائن "الدردشة" يقوم بحفظ سجل المستخدم ووضع الدردشة.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 
يمكننا أيضًا عرضها بأسلوب Markdown.

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا
 

دعونا نطرح سؤال المتابعة.

chat.send_message("Which Dota 2 heroes should I start with?")

for message in chat.history:
    display(Markdown(f'**{message.role}**: {message.parts[0].text}'))

يمكننا التمرير لأسفل ورؤية الجلسة بأكملها مع النموذج.

 
كيفية الوصول إلى Gemini API واستخدامها مجانًا

كيفية الوصول إلى Gemini API واستخدامها مجانًا

أصبحت نماذج التضمين شائعة بشكل متزايد في التطبيقات المدركة للسياق. يسمح نموذج Gemini embedding-001 بتمثيل الكلمات أو الجمل أو المستندات بأكملها كمتجهات كثيفة تقوم بتشفير المعنى الدلالي. يتيح تمثيل المتجهات هذا إمكانية مقارنة التشابه بين أجزاء مختلفة من النص بسهولة من خلال مقارنة متجهات التضمين المقابلة لها.

يمكننا توفير المحتوى لـ "embed_content" وتحويل النص إلى تضمينات. الأمر بهذه البساطة.

output = genai.embed_content(
    model="models/embedding-001",
    content="Can you please guide me on how to start playing Dota 2?",
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

print(output['embedding'][0:10])
[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

يمكننا تحويل أجزاء متعددة من النص إلى تضمينات عن طريق تمرير قائمة من السلاسل إلى وسيطة "المحتوى".

output = genai.embed_content(
    model="models/embedding-001",
    content=[
        "Can you please guide me on how to start playing Dota 2?",
        "Which Dota 2 heroes should I start with?",
    ],
    task_type="retrieval_document",
    title="Embedding of Dota 2 question")

for emb in output['embedding']:
    print(emb[:10])
[0.060604308, -0.023885584, -0.007826327, -0.070592545, 0.021225851, 0.043229062, 0.06876691, 0.049298503, 0.039964676, 0.08291664]

[0.04775657, -0.044990525, -0.014886052, -0.08473655, 0.04060122, 0.035374347, 0.031866882, 0.071754575, 0.042207796, 0.04577447]

إذا كنت تواجه مشكلة في إعادة إنتاج نفس النتيجة، فراجع ملفي مساحة عمل Deepnote.

هناك العديد من الوظائف المتقدمة التي لم نغطيها في هذا البرنامج التعليمي التمهيدي. يمكنك معرفة المزيد حول Gemini API بالانتقال إلى Gemini API: البدء السريع مع بايثون.

في هذا البرنامج التعليمي، تعلمنا عن Gemini وكيفية الوصول إلى Python API لإنشاء الاستجابات. على وجه الخصوص، تعلمنا عن إنشاء النص، والفهم المرئي، والتدفق، وتاريخ المحادثة، والمخرجات المخصصة، والتضمين. ومع ذلك، فإن هذا مجرد خدش سطحي لما يمكن أن يفعله الجوزاء.

لا تتردد في مشاركة ما قمت بإنشائه باستخدام واجهة برمجة تطبيقات Gemini المجانية. الاحتمالات لا حدود لها.

 
 

عابد علي عوان (@ 1abidaliawan) هو عالم بيانات متخصص محترف يحب بناء نماذج التعلم الآلي. يركز حاليًا على إنشاء المحتوى وكتابة مدونات تقنية حول تقنيات التعلم الآلي وعلوم البيانات. عابد حاصل على درجة الماجستير في إدارة التكنولوجيا ودرجة البكالوريوس في هندسة الاتصالات. تتمثل رؤيته في بناء منتج للذكاء الاصطناعي باستخدام شبكة عصبية بيانية للطلاب الذين يعانون من مرض عقلي.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة