son olarak yeniden: 2024'ü icat et Amazon, etkinlikte yapay zekayı ve içerik oluşturmayı geliştirmek için oluşturulmuş en gelişmiş Nova temel modellerini yayınladı. Bu makalede, Nova'nın mimarisini ele alacağım, güçlü yeteneklerini vurgulayacağım ve ardından bu yenilikçi teknolojiyle ilgili uygulamalı deneyimimi paylaşmak için onu test edeceğim.
İçindekiler
Amazon Nova Temel Modelleri Nelerdir?
Amazon Nova, temel modellerde bir sonraki evrimdir ve benzersiz fiyat-performansla birleştirilmiş en son teknoloji zekayı sunar. Sadece Amazon Bedrock aracılığıyla sunulan bu modeller, çok çeşitli uygulamaları güçlendirir.
Görüntü ve metin analiziyle belgeleri işlemekten pazarlama içeriği oluşturmayı ölçeklendirmeye veya görsel verileri yorumlayıp yanıtlayabilen AI asistanları oluşturmaya kadar, Amazon Nova ihtiyaçlarınızı karşılamak için zeka ve esneklik sağlar. Paket, çeşitli kullanım durumlarına hassasiyet ve yenilikle hitap eden iki özel model kategorisi içerir: Anlama ve Yaratıcı İçerik Oluşturma.
AWS Nova Modellerinin Türleri
Modelleri anlamak: Metin ve Görsel Zeka
Amazon Nova Micro, Nova Lite ve Nova Pro, metin, görüntü ve video girişlerini işlemek ve metin tabanlı çıktılar sunmak için tasarlanmış gelişmiş anlayışlı modellerdir. Bu modeller, çeşitli operasyonel ihtiyaçları karşılamak için doğruluk, hız ve maliyeti dengeleyen çok yönlü bir yetenek yelpazesi sunar. Temel özellikler şunlardır:
- Verimli ve maliyet etkin çıkarım çeşitli istihbarat katmanlarında
- Son teknoloji anlayışı metin, resim ve videoların
- İnce ayar desteği metin, resim ve video girişleri için
- Son teknoloji çok modlu geri alma-artırılmış üretim (RAG) ve aracılık yetenekleri
- Eksiksiz bütünleşme Amazon Bedrock aracılığıyla tescilli veriler ve uygulamalarla
Her birine bir bakalım:
Amazon Nova Mikro
Amazon Nova Micro, ultra düşük gecikme ve uygun maliyetli performans için optimize edilmiş yalnızca metin modelidir. Dil anlama, çeviri, muhakeme, kod tamamlama, beyin fırtınası ve matematiksel problem çözme gibi çok çeşitli görevlerde mükemmeldir. Saniyede 200 belirteci aşan bir üretim hızıyla, hızlı yanıtlar gerektiren uygulamalar için mükemmeldir.
Ana Özellikler
- Maksimum Token Sayısı: 128k'ya kadar token'ı destekler
- Diller: 200'dan fazla dille uyumlu
- İnce ayar: Metin girişiyle ince ayar yapmayı tam olarak destekler
Amazon Nova Lite
Amazon Nova Lite, metin, resim ve video girişlerini işlemek için tasarlanmış ultra hızlı ve uygun maliyetli bir çok modlu modeldir. Çeşitli görevlerdeki etkileyici doğruluğu, olağanüstü hızıyla birleştiğinde, maliyet verimliliğinin öncelik olduğu etkileşimli ve yüksek hacimli uygulamalar için idealdir.
Ana Özellikler
- Maksimum Token Sayısı: 300k'ya kadar token'ı destekler
- Diller: 200'dan fazla dille uyumlu
- İnce ayar: Metin, resim ve video girişleriyle ince ayar yapmayı tam olarak destekler
Amazon Nova Pro
Amazon Nova Pro, çok çeşitli görevler için doğruluk, hız ve maliyetin en iyi kombinasyonuna sahip, oldukça yetenekli bir çok modlu modeldir. Amazon Nova Pro'nun yetenekleri, sektör lideri hızı ve maliyet verimliliğiyle bir araya gelerek onu video özetleme, soru-cevap, matematiksel akıl yürütme, yazılım geliştirme ve çok adımlı iş akışlarını yürütebilen AI aracıları dahil olmak üzere hemen hemen her görev için ilgi çekici bir model haline getirir. Metin ve görsel zeka kıyaslamalarında en son teknoloji doğruluğa ek olarak, Amazon Nova Pro, Kapsamlı RAG Kıyaslaması (CRAG), Berkeley İşlev Çağrısı Liderlik Tablosu ve Mind2Web tarafından ölçüldüğü üzere talimat izleme ve aracı iş akışlarında üstündür.
Ana Özellikler
- Maksimum belirteçler: 300k
- Diller: 200+ dil
- İnce ayar destekleniyor: Evet, metin, resim ve video girişiyle.
Amazon Nova Premier
Karmaşık akıl yürütme görevleri için en yetenekli çok modlu model ve özel modelleri damıtmak için en iyi öğretmen olarak kullanım. Amazon Nova Premier hala eğitim aşamasındadır. 2025'in başlarında kullanılabilirliği hedefliyorlar.
Yaratıcı İçerik Üretimi: Kavramları Hayata Geçirmek
Amazon Nova paketi, reklam, pazarlama ve eğlence gibi çok çeşitli uygulamalara yönelik, gerçekçi çok modlu içerik oluşturmaya yönelik iki son teknoloji model içerir:
Amazon Nova Tuval
Stil ve içerik üzerinde hassas kontrolle yüksek kaliteli görseller üretmek için tasarlanmış son teknoloji bir görüntü oluşturma modeli. Amazon Nova Canvas, yaratıcı esneklik için gelişmiş özellikler sunar ve TIFA (Metinden Görüntüye Sadakat Değerlendirmesi) ve ImageReward gibi ölçütlerde mükemmeldir.
Temel İşlevler
- Metinden Görüntüye Üretim:
- 512p'den 2K yatay çözünürlüğe kadar değişen çözünürlüklerde görüntü üretir.
- Maksimum 1 milyon piksele kadar esnek en boy oranlarını (4:4 ila 1:4.2) destekler.
- Müşterilerin, modelin stilini, renk paletini yönlendirmek veya varyasyonlar oluşturmak için referans görseller sağlamasına olanak tanır.
- Resim düzenleme:
- Doğal dil maskesi istemlerini kullanarak belirli alanları hedefleyerek iç boyama ve dış boyama gibi hassas düzenleme yetenekleri sunar.
- Konuyu korurken arka planları sorunsuz bir şekilde değiştirmek veya ayarlamak için arka plan kaldırma özelliğini içerir.
Amazon Nova Makarası
Profesyonel kalitede video içeriği oluşturmak için tasarlanmış son teknoloji bir video oluşturma modeli. Amazon Nova Reel, video kalitesi ve tutarlılığının insan tarafından değerlendirilmesinde mevcut modellerden daha iyi performans gösterir.
Temel İşlevler
- Metin İstemlerinden Videolar Oluşturun: 6p çözünürlükte ve saniyede 720 kare hızında 24 saniyelik videolar oluşturur.
- Referans Görüntülerden ve İstemlerden Videolar Oluşturun: Dinamik, yönlendirilmiş hareket üretmek için statik görüntüleri ve metinsel girdileri birleştirir.
- Kamera Hareket Kontrolü: Metin komutlarıyla yönlendirilen “yakınlaştırma” ve “ileri kaydırma” gibi 20’den fazla kamera hareket efekti sunarak görsel dinamikler üzerinde hassas kontrol sağlar.
Amazon Nova: Ölçütler ve Sonuçlar
Amazon Nova modelleri, MMLU, ARC-C ve GSM8K'da mükemmellik göstererek çekirdek ve aracı metin kıyaslamalarında olağanüstü performans sunar. GPT-4 ve Claude gibi önde gelen modellere karşı test edilen Nova, doğruluk, muhakeme ve görev yürütmede yeni standartlar belirler.
Temel Yetenek Metni Ölçütleri ve Sonuçları
MMLU, ARC-C, DROP, GPQA, MATH, GSM8K, IFEval ve BigBench-Hard (BBH) dahil olmak üzere temel yetenek kıyaslamalarındaki nicel sonuçlar. Aksi belirtilmediği sürece, referans değerleri Claude, GPT-4, Llama ve Gemini modelleri için orijinal teknik raporlardan ve web sitelerinden alınmıştır. Etiketli sonuçlar M bağımsız olarak ölçüldü, Claude'un IFEval puanları ise belirtilmemiş puanlama metodolojisi nedeniyle yıldız işareti (∗) ile işaretlendi.
Agentic Metin Ölçütleri ve Sonuçları
3 Kasım 17 güncellemesi itibarıyla Berkeley Function Calling Leaderboard (BFCL) v2024'ün sonuçları, o tarihte mevcut olan en son model sürümlerini içerir. Llama 3.2 11B ve 90B için, Llama 3.1 8B ve 70B'nin lider tablosu sonuçları, paylaşılan metin LLM nedeniyle kullanılır.
Sonraki bölümde AWS Nova'yı nasıl kullanacağınızı göstereceğim. AWS Nova'ya erişimde sorun yaşıyorsanız, makaledeki ayrıntılı talimatlarımı inceleyin – AWS'de Nova'ya Nasıl Erişilir?
Belge Analizi için Amazon Nova Pro Kullanımı
Belge analizinin yeteneklerini göstermek için bu Makaleyi Analytics Vidhya blogundan indirdim Ajanları Atomik Yolla Oluşturun! PDF formatında.
İlk olarak, Model Erişim bölümüne gittim Amazon Bedrock konsolu ve yeni Amazon Nova modellerine erişim talep ettim. Sonra, Playground bölümünde Chat/Text seçeneğini seçtim ve Amazon Nova Pro modelini seçtim. Daha sonra karar kılavuzu PDF'ini yükledim ve şunu sordum:
Bu belgenin özetini 100 kelimede yazın. Sonra, bir karar ağacı oluşturun.
Çıktı:
Çıktı, okumadan önce belgeye genel bir bakış sağlayan yapılandırılmış bir karar ağacı üreten talimatlarımı takip ediyor.
Video Analizi için Amazon Nova Pro Kullanımı
Nova Pro Arayüzü
Video analizini göstermek için girişe bir video gireceğim:
Amazon Nova Pro yüklenen videoları analiz edebiliyor mu diye sordum:
Videoda neler oluyor?
Çıktı:
Videonun başında bir çıkıntının üzerinde üç kedi var. Bir kedi gri ve beyaz, biri kahverengi ve beyaz, biri de beyaz. Beyaz kedi çıkıntının sağ tarafında. Kediler farklı yönlere bakıyor. Arka planda bazı bitkiler ve ağaçlar var. Video ilerledikçe kediler çıkıntının üzerinde durmaya devam ediyor. Beyaz kedi çıkıntının ortasına doğru hareket ediyor. Kediler farklı yönlere bakmaya devam ediyor. Arka plandaki bitkiler ve ağaçlar aynı kalıyor.
Nova Pro API
Videodan nesneler veya metin gibi belirli bilgileri çıkarmak için daha ayrıntılı bir komut istemi kullanabilirim. Amazon Nova'nın şu anda bir videodaki sesi işlemediğini unutmayın.
Amazon Bedrock Converse API'sini kullanarak Amazon Nova Pro modelini çağırmak ve videoyu analiz etmek için Python için AWS SDK'yı (Boto3) da kullanabilirim. Lütfen API'yi kullanmak için AWS'nin sisteminizde düzgün şekilde yapılandırıldığından emin olun. Ayrıca, işlemleri yürütmek için gerekli izinlere sahip olduğunuzu doğrulayın.
import boto3
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-pro-v1:0"
VIDEO_FILE = "/home/abhishek/Downloads/cats_sample"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
with open(VIDEO_FILE, "rb") as f:
video = f.read()
user_message = "Describe this video."
messages = [ { "role": "user", "content": [
{"video": {"format": "mp4", "source": {"bytes": video}}},
{"text": user_message}
] } ]
response = bedrock_runtime.converse(
modelId=MODEL_ID,
messages=messages,
inferenceConfig={"temperature": 0.0}
)
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)
Amazon Nova Pro, API ile yüklenen (önceki kodda olduğu gibi) veya Amazon Basit Depolama Hizmeti (Amazon S3) kovasında depolanan videoları analiz edebilir.
Çıktı:
Video Oluşturma İçin Amazon Nova Reel Kullanımı
Şimdi, yalnızca metin içeren bir istemden başlayarak ve ardından bir referans görüntü sağlayarak Amazon Nova Reel kullanarak bir video oluşturalım. Bir video oluşturmak birkaç dakika sürdüğü için, Amazon Bedrock API üç yeni işlem tanıttı:
- AsyncInvoke'u Başlat: Video oluşturmayı başlatır.
- AsyncInvoke'u Alın: Oluşturulmanın durumunu izler.
- ListAsyncInvokes: Devam eden veya tamamlanmış tüm video görevlerini listeler.
Amazon Nova Reel, yakınlaştırma veya kamerayı hareket ettirme gibi kamera kontrol eylemlerini destekler. Bu Python betiği, bu metin isteminden bir video oluşturur:
A colorful flower garden with roses, sunflowers,
tulips, and lavender swaying in the sunlight.
The camera zooms in to capture the
intricate details of each bloom..
İlk çağrıdan sonra, betik videonun oluşturulması tamamlanana kadar periyodik olarak durumu kontrol eder. Kod her çalıştığında farklı bir sonuç almak için rastgele bir tohum geçiririm.
import random
import time
import boto3
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
S3_DESTINATION_BUCKET = "<BUCKET>"
video_prompt = "A colorful flower garden with roses, sunflowers, tulips, and lavender swaying in the sunlight. The camera zooms in to capture the intricate details of each bloom."
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
model_input = {
"taskType": "TEXT_VIDEO",
"textToVideoParams": {"text": video_prompt},
"videoGenerationConfig": {
"durationSeconds": 6,
"fps": 24,
"dimension": "1280x720",
"seed": random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)
invocation_arn = invocation["invocationArn"]
s3_prefix = invocation_arn.split('/')[-1]
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"nS3 URI: {s3_location}")
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response["status"]
print(f"Status: {status}")
if status != "InProgress":
break
time.sleep(SLEEP_TIME)
if status == "Completed":
print(f"nVideo is ready at {s3_location}/output.mp4")
else:
print(f"nVideo generation status: {status}")
Çıktı:
Birkaç dakika sonra, betik tamamlanır ve çıktı Amazon Simple Storage Service (Amazon S3) konumunu yazdırır. Çıktı videosunu AWS Komut Satırı Arayüzü'nü (AWS CLI) kullanarak indiririm veya manuel olarak indirebilirim:
aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-text.mp4
Ortaya çıkan video budur. İstenildiği gibi kamera konuya yakınlaşır.
Amazon Nova Reel'i Referans Görüntüyle Kullanma
Videonun oluşturulması üzerinde daha iyi bir kontrole sahip olmak için Amazon Nova Reel'e aşağıdaki gibi bir referans görseli sağlayabilirim:
Sağlanan görselin [1280×720] boyutlarında olması gerekmektedir.
Bu betik, referans görseli ve bir kamera eylemi (iha görüntüsü ve yakınlaştırıldığında bir çiçeğin üzerinde oturan bir arı) içeren bir metin istemini kullanarak bir video oluşturur:
import base64
import random
import time
import boto3
S3_DESTINATION_BUCKET = "<BUCKET>"
AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
input_image_path = "seascape.png"
video_prompt = "drone view then a bee sitting on a flower when zoomed in"
bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
# Load the input image as a Base64 string.
with open(input_image_path, "rb") as f:
input_image_bytes = f.read()
input_image_base64 = base64.b64encode(input_image_bytes).decode("utf-8")
model_input = {
"taskType": "TEXT_VIDEO",
"textToVideoParams": {
"text": video_prompt,
"images": [{ "format": "png", "source": { "bytes": input_image_base64 } }]
},
"videoGenerationConfig": {
"durationSeconds": 6,
"fps": 24,
"dimension": "1280x720",
"seed": random.randint(0, 2147483648)
}
}
invocation = bedrock_runtime.start_async_invoke(
modelId=MODEL_ID,
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)
invocation_arn = invocation["invocationArn"]
s3_prefix = invocation_arn.split('/')[-1]
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"nS3 URI: {s3_location}")
while True:
response = bedrock_runtime.get_async_invoke(
invocationArn=invocation_arn
)
status = response["status"]
print(f"Status: {status}")
if status != "InProgress":
break
time.sleep(SLEEP_TIME)
if status == "Completed":
print(f"nVideo is ready at {s3_location}/output.mp4")
else:
print(f"nVideo generation status: {status}")
Çıktı:
Tekrar AWS CLI kullanarak çıktıyı indiriyorum:
aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-image.mp4
Ortaya çıkan video budur. Kamera referans görüntüden başlar ve ileri doğru hareket eder.
Yapay Zekayı Sorumlu Bir Şekilde Oluşturmak
Amazon Nova modelleri, geliştirme sürecinde müşteri güvenliği, emniyeti ve güvenine büyük önem verilerek tasarlanıyor ve çeşitli kullanım durumlarını desteklemek için gereken esnekliği ve gönül rahatlığını garanti ediyor.
Sağlam güvenlik özellikleri ve içerik denetleme yetenekleriyle Amazon Nova, yapay zekayı sorumlu bir şekilde benimsemeniz için gereken kontrolleri sağlar. Bu modeller tarafından oluşturulan her görüntü ve video, daha fazla şeffaflık için dijital filigran içerir.
Amazon Nova temel modellerinin gelişmiş yetenekleriyle eşleşmek için kapsamlı korumalar mevcuttur. Bu güvenlik önlemleri yanlış bilgi, çocuk cinsel istismarı materyali (CSAM) ve kimyasal, biyolojik, radyolojik veya nükleer (CBRN) tehditlerle ilişkili riskler gibi kritik sorunları etkin bir şekilde ele alır.
Son Not
Amazon Nova, uygulamalı deneyimimde güçlü bir araç olduğunu kanıtladı. Belgeleri analiz etmekten yüksek kaliteli videolar oluşturmaya kadar, modeller etkileyici hız, doğruluk ve çok yönlülük sergiledi. Özellikle video analizi, beklentilerimi çok aşan ayrıntılı ve içgörülü çıktılarıyla öne çıktı.
Şimdi, sizden haber almak isterim! Amazon Nova'yı deneme şansınız oldu mu? Performansı, özellikleri veya test ettiğiniz belirli görevler hakkında ne düşünüyorsunuz? Aşağıdaki yorum bölümünde bana bildirin.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://www.analyticsvidhya.com/blog/2024/12/amazon-nova/