Kuruluşlar, verilerin yapılandırılmamış olması nedeniyle çoğunun keşfedilmesi zor olan büyük miktarda veriye erişebilir. Analize yönelik geleneksel yaklaşımlar yapılandırılmamış veri anahtar kelime veya eşanlamlı eşleştirmeyi kullanın. Bir belgenin tüm içeriğini yansıtmazlar, bu da onları yapılandırılmamış verilerle baş etmede daha az etkili kılar.
Buna karşılık, metin yerleştirmeler şunları kullanır: makine öğrenme (ML) yapılandırılmamış verilerin anlamını yakalama yetenekleri. Gömmeler, metni sayısal vektörlere çeviren ve bir belgedeki bağlamsal bilgileri kodlayan temsili dil modelleri tarafından oluşturulur. Bu, anlamsal arama gibi uygulamalara olanak sağlar. Alma Artırılmış Nesil (RAG), konu modelleme ve metin sınıflandırma.
Örneğin, finansal hizmetler sektöründeki uygulamalar, kazanç raporlarından içgörü elde etmeyi, mali tablolardan bilgi aramayı ve mali haberlerde yer alan hisse senetleri ve piyasalar hakkındaki duyarlılığı analiz etmeyi içerir. Metin yerleştirmeler, sektör profesyonellerinin belgelerden öngörüler elde etmesine, hataları en aza indirmesine ve performanslarını artırmasına olanak tanır.
Bu yazıda, Cohere'in yazılımını kullanarak farklı dillerdeki finans haberlerinde arama ve sorgulama yapabilen bir uygulamayı sergiliyoruz. Gömmek ve Yeniden Sırala olan modeller Amazon Ana Kayası.
Cohere'in çok dilli yerleştirme modeli
Cohere, birinci sınıf büyük dil modelleri (LLM'ler) ve bilgisayarların metin içinde arama yapmasına, anlam yakalamasına ve sohbet etmesine olanak tanıyan LLM destekli çözümler geliştiren lider bir kurumsal yapay zeka platformudur. Kullanım kolaylığı ve güçlü güvenlik ve gizlilik kontrolleri sağlarlar.
Cohere'in çok dilli yerleştirme modeli 100'den fazla dil için belgelerin vektör temsillerini oluşturur ve Amazon Bedrock'ta mevcuttur. Bu, AWS müşterilerinin buna bir API olarak erişmesine olanak tanıyarak temel altyapıyı yönetme ihtiyacını ortadan kaldırır ve hassas bilgilerin güvenli bir şekilde yönetilmesini ve korunmasını sağlar.
Çok dilli model, benzer anlamlara sahip metinleri anlamsal vektör uzayında birbirine yakın konumlar atayarak gruplandırır. Çok dilli bir yerleştirme modeliyle geliştiriciler, aşağıdaki şekilde gösterildiği gibi, farklı modeller arasında geçiş yapmaya gerek kalmadan birden çok dildeki metni işleyebilir. Bu, işlemeyi daha verimli hale getirir ve çok dilli uygulamalar için performansı artırır.
Cohere'in yerleştirme modelinin öne çıkan bazı özellikleri şunlardır:
- Belge kalitesine odaklanın – Tipik yerleştirme modelleri belgeler arasındaki benzerliği ölçmek için eğitilir, ancak Cohere'in modeli aynı zamanda belge kalitesini de ölçer
- RAG uygulamaları için daha iyi erişim – RAG uygulamaları, Cohere'in yerleştirme modelinin üstün olduğu iyi bir erişim sistemi gerektirir
- Uygun maliyetli veri sıkıştırma – Cohere özel, sıkıştırmaya duyarlı bir eğitim yöntemi kullanır ve bu da vektör veritabanınız için önemli maliyet tasarrufu sağlar
Metin gömmeye yönelik kullanım örnekleri
Metin yerleştirmeleri, yapılandırılmamış verileri yapılandırılmış bir forma dönüştürür. Bu, tüm bu belgeleri nesnel olarak karşılaştırmanıza, parçalara ayırmanıza ve bunlardan içgörüler elde etmenize olanak tanır. Aşağıda Cohere'in yerleştirme modelinin mümkün kıldığı örnek kullanım durumları verilmiştir:
- Anlamsal arama – Bir vektör veritabanıyla birleştirildiğinde, arama ifadesi anlamına dayalı mükemmel alaka düzeyiyle güçlü arama uygulamalarına olanak tanır
- Daha büyük bir sistem için arama motoru – RAG sistemleri için bağlı kurumsal veri kaynaklarından en alakalı bilgileri bulur ve alır
- Metin sınıflandırması – Niyet tanımayı, duyarlılık analizini ve gelişmiş belge analizini destekler
- Konu modelleme – Ortaya çıkan konuları ve temaları ortaya çıkarmak için bir belge koleksiyonunu farklı kümelere dönüştürür
Rerank ile gelişmiş arama sistemleri
Geleneksel anahtar kelime arama sistemlerinin halihazırda mevcut olduğu işletmelerde, modern anlamsal arama yeteneklerini nasıl tanıtacaksınız? Uzun süredir bir şirketin bilgi mimarisinin parçası olan bu tür sistemler için, yerleştirme tabanlı yaklaşıma tam geçiş çoğu durumda mümkün değildir.
Cohere'in Yeniden Sıralama uç noktası bu açığı kapatmak için tasarlandı. Kullanıcının sorgusu başına ilgili belgelerin sıralamasını sağlamak için arama akışının ikinci aşaması olarak görev yapar. Kuruluşlar, ilk aşama erişim için mevcut bir anahtar kelime (hatta anlamsal) sistemini koruyabilir ve ikinci aşama yeniden sıralamada Yeniden Sıralama uç noktasıyla arama sonuçlarının kalitesini artırabilir.
Rerank, anlamsal arama teknolojisini tek bir kod satırıyla kullanıcının yığınına dahil ederek arama sonuçlarını iyileştirmek için hızlı ve basit bir seçenek sunar. Uç nokta ayrıca çoklu dil desteğiyle birlikte gelir. Aşağıdaki şekilde alma ve yeniden sıralama iş akışı gösterilmektedir.
Çözüme genel bakış
Finansal analistlerin bilgili kalabilmeleri için finansal yayınlar ve haber medyası gibi birçok içeriği sindirmeleri gerekir. Göre Finans Uzmanları Derneği (AFP)Finansal analistler zamanlarının %75'ini katma değer analizi yerine veri toplamak veya süreci yönetmek için harcıyorlar. Bir sorunun cevabını çeşitli kaynak ve belgelerde bulmak, zaman alıcı ve sıkıcı bir iştir. Cohere yerleştirme modeli, analistlerin belirli bir sorguyla en alakalı makaleleri bulup sıralamak için birden çok dilde çok sayıda makale başlığında hızlı bir şekilde arama yapmasına yardımcı olarak çok büyük miktarda zaman ve çaba tasarrufu sağlar.
Aşağıdaki kullanım örneği örneğinde, Cohere'in Embed modelinin farklı dillerdeki finans haberlerinde tek bir benzersiz kanalda nasıl arama ve sorgulama yaptığını gösteriyoruz. Ardından, yerleştirme erişiminize Rerank eklemenin (veya onu eski bir sözcüksel aramaya eklemenin) sonuçları nasıl daha da iyileştirebileceğini gösteriyoruz.
Destekleyici not defteri şu adreste mevcuttur: GitHub.
Aşağıdaki diyagram uygulamanın iş akışını göstermektedir.
Amazon Bedrock aracılığıyla model erişimini etkinleştirin
Amazon Bedrock kullanıcılarının, modellerin kullanıma hazır hale getirilmesi için erişim talebinde bulunması gerekir. Ek modellere erişim istemek için Model erişimi Amazon Ana Kayasındaki gezinme bölmesi konsol. Daha fazla bilgi için bakınız Model erişimi. Bu izlenecek yol için Cohere Embed Multilingual modeline erişim talep etmeniz gerekir.
Paketleri yükleyin ve modülleri içe aktarın
Öncelikle gerekli paketleri kuruyoruz ve bu örnekte kullanacağımız modülleri içe aktarıyoruz:
ithalat belgeleri
15 dili (İngilizce, Türkçe, Danca, İspanyolca, Lehçe, Yunanca, Fince, İbranice, Japonca, Macarca, Norveççe, Rusça, İtalyanca, İzlandaca ve İsveççe) kapsayan gerçek dünyadaki makale başlıklarının bir listesini içeren bir veri kümesi (MultiFIN) kullanıyoruz ). Bu, finansal doğal dil işleme (NLP) için seçilmiş açık kaynaklı bir veri kümesidir ve şu adreste mevcuttur: GitHub deposu.
Bizim durumumuzda, MultiFIN verilerini içeren bir CSV dosyasının yanı sıra çevirileri içeren bir sütun oluşturduk. Bu sütunu modeli beslemek için kullanmıyoruz; Danca veya İspanyolca konuşmayanlar için sonuçları yazdırırken takip etmemize yardımcı olması için bunu kullanıyoruz. Veri çerçevemizi oluşturmak için bu CSV'ye işaret ediyoruz:
Sorgulanacak belgelerin listesini seçin
MultiFIN'in 6,000 farklı dilde 15'den fazla kaydı bulunmaktadır. Örnek kullanım durumumuz için üç dile odaklanıyoruz: İngilizce, İspanyolca ve Danca. Ayrıca başlıkları uzunluğa göre sıralayıp en uzun olanları seçiyoruz.
En uzun makaleleri seçtiğimiz için uzunluğun tekrarlanan dizilerden kaynaklanmamasını sağlıyoruz. Aşağıdaki kod, durumun böyle olduğu bir örneği göstermektedir. Bunu temizleyeceğiz.
df['text'].iloc[2215]
Belge listemiz üç dile güzel bir şekilde dağıtılmıştır:
Veri kümemizdeki en uzun makale başlığı aşağıdadır:
Belgeleri yerleştirme ve dizine ekleme
Şimdi belgelerimizi gömmek ve yerleştirmeleri saklamak istiyoruz. Gömmeler, belgemizin anlamsal anlamını özetleyen çok büyük vektörlerdir. Özellikle Cohere’in 3.0 boyutlu yerleştirmeler oluşturan embed-multilingual-v1,024 modelini kullanıyoruz.
Bir sorgu iletildiğinde, sorguyu da gömeriz ve en yakın komşuları bulmak için hnswlib kütüphanesini kullanırız.
Bir Cohere istemcisi oluşturmak, belgeleri gömmek ve arama dizinini oluşturmak yalnızca birkaç satır kod gerektirir. Sonuçların görüntülenmesini zenginleştirmek için belgenin dilini ve çevirisini de takip ediyoruz.
Bir geri alma sistemi oluşturun
Daha sonra, bir sorguyu girdi olarak alan, onu gömen ve onunla daha yakından ilişkili dört başlığı bulan bir işlev oluşturuyoruz:
Geri alma sistemini sorgulayın
Sistemimizin birkaç farklı sorguyla ne yaptığını inceleyelim. İngilizce ile başlıyoruz:
Sonuçlar şöyledir:
Aşağıdakilere dikkat edin:
- İlgili ancak biraz farklı sorular soruyoruz ve model, en alakalı sonuçları en üstte sunacak kadar incelikli.
- Modelimiz anahtar kelime bazlı arama değil, semantik arama gerçekleştirmektedir. "Yapay zeka" yerine "veri bilimi" gibi bir terim kullanıyor olsak bile modelimiz ne sorulduğunu anlayabilir ve en alakalı sonucu en üstte döndürebilir.
Danca bir sorguya ne dersiniz? Aşağıdaki sorguya bakalım:
Önceki örnekte, İngilizce kısaltması "PP&E" "mülk, tesis ve ekipman" anlamına gelir ve modelimiz bunu sorgumuza bağlamayı başardı.
Bu durumda, döndürülen tüm sonuçlar Danca dilindedir ancak model, anlamsal anlamı daha yakınsa, sorgu dışındaki bir dildeki bir belgeyi döndürebilir. Tam bir esnekliğe sahibiz ve birkaç satır kodla modelin yalnızca sorgu dilindeki belgelere mi bakacağını yoksa tüm belgelere mi bakacağını belirtebiliriz.
Cohere Rerank ile sonuçları iyileştirin
Gömmeler çok güçlüdür. Ancak şimdi, belgelerin bir sorguya göre alaka düzeyini puanlamak üzere eğitilmiş Cohere'in Rerank uç noktasıyla sonuçlarımızı nasıl daha da hassaslaştırabileceğimize bakacağız.
Rerank'ın bir diğer avantajı da eski bir anahtar kelime arama motorunun üzerinde çalışabilmesidir. Bir vektör veritabanına geçmeniz veya altyapınızda köklü değişiklikler yapmanız gerekmez ve yalnızca birkaç satır kod gerekir. Yeniden sıralama şurada mevcut: Amazon Adaçayı Yapıcı.
Yeni bir sorgu deneyelim. Bu sefer SageMaker kullanıyoruz:
Bu durumda anlamsal bir arama cevabımızı bulup sonuçlarda görüntüleyebildi, ancak en üstte değil. Ancak sorguyu, alınan dokümanların listesiyle birlikte Rerank uç noktamıza tekrar ilettiğimizde, Rerank en alakalı dokümanı en üstte gösterebilir.
İlk olarak istemciyi ve Rerank uç noktasını oluşturuyoruz:
Belgeleri Rerank'a ilettiğimizde model, en alakalı olanı doğru bir şekilde seçebiliyor:
Sonuç
Bu gönderide Cohere'in çok dilli yerleştirme modelinin Amazon Bedrock'ta finansal hizmetler alanında kullanılmasına yönelik bir adım adım yol sunuldu. Özellikle çok dilli bir finansal makale arama uygulamasının örneğini gösterdik. Gömme modelinin bilginin etkili ve doğru bir şekilde keşfedilmesini nasıl sağladığını, böylece bir analistin üretkenliğini ve çıktı kalitesini nasıl artırdığını gördük.
Cohere'in çok dilli yerleştirme modeli 100'den fazla dili destekler. Farklı dillerde bir dizi belgeyle çalışmayı gerektiren uygulama oluşturmanın karmaşıklığını ortadan kaldırır. Tutarlı Gömme modeli Gerçek dünya uygulamalarında sonuç sunmak üzere eğitilmiştir. Gürültülü verileri girdi olarak işler, karmaşık RAG sistemlerine uyum sağlar ve sıkıştırmaya duyarlı eğitim yöntemi sayesinde maliyet verimliliği sağlar.
Amazon Bedrock'ta Cohere'in çok dilli yerleştirme modeliyle oluşturmaya bugün başlayın.
Yazarlar Hakkında
James Yi Amazon Web Services'te Technology Partners COE Tech ekibinde Kıdemli AI/ML İş Ortağı Çözümleri Mimarıdır. İş değeri elde etmek amacıyla AI/ML uygulamalarını tasarlamak, dağıtmak ve ölçeklendirmek için kurumsal müşteriler ve iş ortaklarıyla birlikte çalışma konusunda tutkulu. İş dışında futbol oynamaktan, seyahat etmekten ve ailesiyle vakit geçirmekten hoşlanıyor.
Gonzalo Betegon En son doğal dil işleme teknolojisi sağlayıcısı olan Cohere'de Çözüm Mimarıdır. Büyük dil modellerinin dağıtımı yoluyla kuruluşların iş ihtiyaçlarını karşılamalarına yardımcı olur.
Meor Amer En son doğal dil işleme (NLP) teknolojisinin sağlayıcısı olan Cohere'de Geliştirici Avukatıdır. Cohere'in Büyük Dil Modelleri (LLM'ler) ile geliştiricilerin son teknoloji uygulamalar oluşturmasına yardımcı oluyor.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/