Zephyrnet-logo

Herschikking 3: Enterprise Search- en RAG-systemen stimuleren

Datum:

Introductie

Cohere introduceerde zijn basismodel van de volgende generatie, Rerank 3 voor efficiënt Enterprise Search en Ophalen Augmented Generation(VOD). Het Rerank-model is compatibel met elk type databank of zoekindex en kan ook worden geïntegreerd in elke juridische applicatie met native zoekmogelijkheden. U zult zich niet voorstellen dat één enkele regel code de zoekprestaties kan verbeteren of de kosten voor het uitvoeren van een RAG-applicatie met een verwaarloosbare impact op de latentie.  

Laten we eens kijken hoe dit basismodel enterprise search- en RAG-systemen vooruit zal helpen, met verbeterde nauwkeurigheid en efficiëntie. 

Herrangschik 3

Mogelijkheden van herrangschikking 

Rerank biedt de beste mogelijkheden voor enterprise search, waaronder het volgende: 

  • 4K-contextlengte die de zoekkwaliteit voor langere documenten aanzienlijk verbetert. 
  • Het kan zoeken in multi-aspect en semi-gestructureerde gegevens zoals tabellen, code, JSON documenten, facturen en e-mails. 
  • Het kan meer dan 100 talen omvatten.
  • Verbeterde latentie en lagere totale eigendomskosten (TCO)

Generatieve AI-modellen met lange contexten hebben het potentieel om een ​​RAG uit te voeren. Om de nauwkeurigheidsscore, latentie en kosten te verbeteren, moet de RAG-oplossing een combinatie van generatie vereisen AI-modellen en natuurlijk het Rerank-model. De zeer nauwkeurige semantische herschikking van rerank3 zorgt ervoor dat alleen de relevante informatie naar het generatiemodel wordt gevoerd, wat de responsnauwkeurigheid vergroot en de latentie en kosten zeer laag houdt, vooral bij het ophalen van de informatie uit miljoenen documenten. 

Bedrijfsgegevens zijn vaak erg complex en de huidige systemen die in de organisatie worden geplaatst, ondervinden moeilijkheden bij het doorzoeken van multi-aspect en semi-gestructureerde gegevensbronnen. Het is vooral zo dat in de organisatie de nuttigste gegevens niet in het eenvoudige documentformaat staan, zoals JSON heel gebruikelijk is in bedrijfsapplicaties. Rerank 3 is eenvoudig in staat om complexe, multi-aspecten, zoals e-mails, te rangschikken op basis van alle relevante metadatavelden, inclusief hun recentheid. 

Verbeterde Enterprise Search
Meertalige ophaalnauwkeurigheid gebaseerd op nDCG@10 op MIRACL (hoger is beter).

Rerank 3 verbetert aanzienlijk hoe goed code wordt opgehaald. Dit kan de productiviteit van engineers verhogen doordat ze sneller de juiste codefragmenten kunnen vinden, zowel binnen de codebase van hun bedrijf als in grote documentatiebronnen.

Herschik 3 | Verbeterde Enterprise Search
Nauwkeurigheid van code-evaluatie gebaseerd op nDCG@10 op Codesearchnet, Stackoverflow, CosQA, Human Eval, MBPP, DS1000 (hoger is beter).

Technologiegiganten houden zich ook bezig met meertalige gegevensbronnen en het voorheen meertalig ophalen was de grootste uitdaging met op trefwoorden gebaseerde methoden. De Rerank 3-modellen bieden sterke meertalige prestaties met meer dan 100 talen, waardoor het ophaalproces voor niet-Engelssprekende klanten wordt vereenvoudigd. 

Verbeterde Enterprise Search
Meertalige ophaalnauwkeurigheid gebaseerd op nDCG@10 op MIRACL (hoger is beter).

Een belangrijke uitdaging bij semantische zoek- en RAG-systemen is de optimalisatie van data chunking. Rerank 3 pakt dit aan met een 4k-contextvenster, waardoor directe verwerking van grotere documenten mogelijk is. Dit leidt tot een betere contextoverweging tijdens het scoren van de relevantie.

Herschik 3 | Verbeterde Enterprise Search

Rerank 3 wordt ook ondersteund in de Inference API van Elastic. Elastic Search beschikt over een algemeen aanvaarde zoektechnologie en de trefwoord- en vectorzoekmogelijkheden in het Elasticsearch-platform zijn gebouwd om grotere en complexere bedrijfsgegevens efficiënt te verwerken. 

“We zijn verheugd om samen te werken met Cohere om bedrijven te helpen het potentieel van hun data te ontsluiten”, aldus Matt Riley, GVP en GM van Elasticsearch. De geavanceerde ophaalmodellen van Cohere, Embed 3 en Rerank 3, bieden uitstekende prestaties op complexe en grote bedrijfsgegevens. Zij zijn uw probleemoplosser; deze worden essentiële componenten in elk enterprise search-systeem. 

Verbeterde latentie met langere context

In veel bedrijfsdomeinen, zoals e-commerce of klantenservice, is een lage latentie cruciaal voor het leveren van een kwaliteitservaring. Ze hielden hier rekening mee bij het bouwen van Rerank 3, dat tot 2x lagere latentie laat zien in vergelijking met Rerank 2 voor kortere documentlengtes en tot 3x verbeteringen bij lange contextlengtes.

Herschik 3 | Verbeterde latentie met langere context
Vergelijkingen berekend als de tijd om 50 documenten te rangschikken over verschillende profielen van documenttokenlengtes; Bij elke run wordt uitgegaan van een batch van 50 documenten met een uniforme tokenlengte voor elk document.

Betere prestaties en efficiëntere RAG

In Retrieval-Augmented Generation (RAG)-systemen is de fase van het ophalen van documenten van cruciaal belang voor de algehele prestaties. Rerank 3 richt zich op twee essentiële factoren voor uitzonderlijke RAG-prestaties: responskwaliteit en latentie. Het model blinkt uit in het lokaliseren van de meest relevante documenten voor de zoekopdracht van een gebruiker dankzij de semantische herrangschikkingsmogelijkheden.

Dit gerichte ophaalproces verbetert direct de nauwkeurigheid van de reacties van het RAG-systeem. Door het efficiënt ophalen van relevante informatie uit grote datasets mogelijk te maken, stelt Rerank 3 grote ondernemingen in staat de waarde van hun bedrijfseigen gegevens te ontsluiten. Dit vergemakkelijkt verschillende zakelijke functies, waaronder klantenondersteuning, juridische zaken, HR en financiën, door hen de meest relevante informatie te bieden om vragen van gebruikers te beantwoorden.

Betere prestaties en efficiëntere RAG
Rerank 3 is een kosteneffectieve oplossing voor RAG in combinatie met de Command R-modellenfamilie. Hierdoor hoeven gebruikers minder documenten door te geven aan de LLM voor geaarde generatie, waarbij de nauwkeurigheid en latentie behouden blijven. Dit maakt RAG met Rerank 80-93% goedkoper dan andere generatieve LLM's.

De integratie van Rerank 3 met de kosteneffectieve Command R-familie voor RAG-systemen biedt een aanzienlijke verlaging van de Total Cost of Ownership (TCO) voor gebruikers. Dit wordt bereikt door twee sleutelfactoren. Ten eerste vergemakkelijkt Rerank 3 zeer relevante documentselectie, waardoor de LLM minder documenten hoeft te verwerken voor het genereren van gegronde antwoorden. Hierdoor blijft de responsnauwkeurigheid behouden en wordt de latentie geminimaliseerd. Ten tweede leidt de gecombineerde efficiëntie van Rerank 3- en Command R-modellen tot kostenbesparingen van 80-93% vergeleken met alternatieve generatieve LLM's op de markt. Als we de kostenbesparingen van zowel Rerank 3 als Command R in ogenschouw nemen, kunnen de totale kostenbesparingen zelfs meer dan 98% bedragen.

Herrangschik 3
De zelfstandige kosten zijn gebaseerd op de gevolgtrekkingskosten voor 1 miljoen RAG-prompts met 50 documenten met elk 250 tokens en 250 uitvoertokens. De kosten met Rerank zijn gebaseerd op de gevolgtrekkingskosten voor 1 miljoen RAG-prompts met 5 documenten met elk 250 tokens en 250 uitvoertokens.

Een steeds vaker voorkomende en bekende benadering voor RAG-systemen is het gebruik van LLM's als rerankers voor het proces voor het ophalen van documenten. Rerank 3 presteert beter dan toonaangevende LLM's zoals Claude -3 Sonte en GPT Turbo wat betreft rankingnauwkeurigheid, terwijl het 90-98% goedkoper is. 

Herrangschik 3
Nauwkeurigheid gebaseerd op nDCG@10 op TREC 2020-dataset (hoger is beter). LLM's worden lijstgewijs geëvalueerd volgens de aanpak die wordt gebruikt in RankGPT (Sun et al. 2023).

Rerank 3 verhoogt de nauwkeurigheid en de kwaliteit van de LLM-reactie. Het helpt ook bij het verlagen van de end-to-end TCO. Rerank bereikt dit door onze minder relevante documenten te verwijderen en alleen de kleine subset van relevante documenten te doorzoeken om antwoorden te krijgen.

Conclusie

Rerank 3 is een revolutionaire tool voor enterprise search- en RAG-systemen. Het maakt een hoge nauwkeurigheid mogelijk bij het verwerken van complexe datastructuren en meerdere talen. Rerank 3 minimaliseert het delen van gegevens, waardoor de latentie en de totale eigendomskosten worden verminderd. Dit resulteert in snellere zoekresultaten en kosteneffectieve RAG-implementaties. Het integreert met Elasticsearch voor verbeterde besluitvorming en klantervaringen.

U kunt nog veel meer van dergelijke AI-tools en hun toepassingen verkennen hier.

spot_img

Laatste intelligentie

spot_img