Zephyrnet Logosu

OpenAI Kırmızı Takım Ağı

Tarih:

S: Ağa katılmak neleri gerektirecek?

A: Ağın bir parçası olmak, yeni bir modeli test etme veya halihazırda konuşlandırılmış bir model üzerinde ilgi alanını test etme fırsatları hakkında sizinle iletişime geçilebileceği anlamına gelir. Ağın bir parçası olarak yürütülen çalışmalar, bir gizlilik sözleşmesi (NDA) kapsamında yürütülmektedir, ancak geçmişte kırmızı ekip bulgularımızın çoğunu Sistem Kartlarında ve blog gönderilerinde yayınlamıştık. Kırmızı ekip projelerinde harcadığınız zaman için tazminat alacaksınız.

S: Ağın bir parçası olmak için beklenen süre taahhüdü nedir? 

A: Taahhüt etmeye karar verdiğiniz zaman, programınıza bağlı olarak ayarlanabilir. Ağdaki herkesle her fırsatta iletişime geçilmeyeceğini, OpenAI'nin belirli bir kırmızı ekip projesine uygun seçimleri yapacağını ve sonraki kırmızı ekip kampanyalarında yeni perspektifleri vurgulayacağını unutmayın. Bir yılda 5 saat kadar kısa bir süre bile bizim için değerli olacaktır; bu nedenle ilgileniyorsanız ancak zamanınız sınırlıysa başvuruda bulunmaktan çekinmeyin.

Soru: Başvuru sahiplerine kabulleri ne zaman bildirilecek?

A: OpenAI, ağın üyelerini sürekli olarak seçecek ve 1 Aralık 2023'e kadar başvuruda bulunabilirsiniz. Bu başvuru döneminden sonra, gelecekteki yeniden başvuru fırsatlarını yeniden değerlendireceğiz.

S: Ağın bir parçası olmak, her yeni model için kırmızı ekip oluşturmamın isteneceği anlamına mı geliyor?

A: Hayır, OpenAI belirli bir kırmızı ekip projesine uygun seçimleri yapacaktır ve her yeni modeli test etmeyi beklememelisiniz.

S: Ağ üyelerinde aradığınız kriterler nelerdir?

A: Aradığımız bazı kriterler şunlardır:

  • Kırmızı ekiple ilgili belirli bir alanda kanıtlanmış uzmanlık veya deneyim
  • Yapay zeka güvenliğini iyileştirme konusunda tutkuluyuz
  • Çıkar çatışması yok
  • Farklı geçmişler ve geleneksel olarak yeterince temsil edilmeyen gruplar
  • Çeşitli coğrafi temsil 
  • Birden fazla dilde akıcılık
  • Teknik yetenek (gerekli değil)

S: İşbirliğine dayalı diğer güvenlik fırsatları nelerdir?

A: Ağa katılmanın ötesinde yapay zeka güvenliğine katkıda bulunacak başka işbirliği fırsatları da var. Örneğin, seçeneklerden biri yapay zeka sistemlerinde güvenlik değerlendirmeleri oluşturmak veya yürütmek ve sonuçları analiz etmektir.

OpenAI'nin açık kaynağı Değerlendirmeler depo (bir parçası olarak yayınlandı) GPT-4 lansmanı) bu süreci hızlı bir şekilde başlatmak için kullanıcı dostu şablonlar ve örnek yöntemler sunar.

Değerlendirmeler basit Soru-Cevap testlerinden daha karmaşık simülasyonlara kadar değişebilir. Somut örnekler olarak, yapay zeka davranışlarını çeşitli açılardan değerlendirmek için OpenAI tarafından geliştirilen örnek değerlendirmeler şunlardır:

Ikna

  • YapMeSay: Bir yapay zeka sistemi başka bir yapay zeka sistemini gizli bir kelime söylemesi için ne kadar iyi kandırabilir?
  • MakeMePay: Bir yapay zeka sistemi başka bir yapay zeka sistemini para bağışlamaya ne kadar ikna edebilir?
  • Oy Pusulası Teklifi: Bir yapay zeka sistemi başka bir yapay zeka sisteminin siyasi bir öneriye verdiği desteği ne kadar iyi etkileyebilir?

Steganografi (gizli mesajlaşma)

  • steganografi: Bir yapay zeka sistemi, başka bir yapay zeka sistemi tarafından yakalanmadan gizli mesajları ne kadar iyi iletebilir?
  • Metin Sıkıştırma: Bir yapay zeka sistemi, gizli mesajların gizlenmesini sağlamak için mesajları ne kadar iyi sıkıştırabilir ve açabilir?
  • Uçuş Noktası: Bir yapay zeka sistemi başka bir yapay zeka sistemiyle doğrudan iletişim olmadan ne kadar iyi koordine olabilir?

Yapay zeka sistemlerini değerlendirmede yaratıcılığı ve denemeyi teşvik ediyoruz. Tamamlandığında, değerlendirmenizle açık kaynağa katkıda bulunmanızı bekliyoruz Değerlendirmeler Daha geniş AI topluluğu tarafından kullanılmak üzere repo.

Ayrıca bize başvurabilirsiniz. Araştırmacı Erişim ProgramıYapay zekanın sorumlu bir şekilde devreye alınması ve ilgili risklerin azaltılmasıyla ilgili alanları incelemek için ürünlerimizi kullanan araştırmacıları desteklemek için krediler sağlayan krediler.

spot_img

En Son İstihbarat

spot_img