和风网标志

评估法学硕士的文本摘要能力,以增强 AWS 上的决策能力 |亚马逊网络服务

日期:

各行业的组织正在使用自动文本摘要来更有效地处理大量信息并做出更好的决策。在金融领域,投资银行将收益报告浓缩为关键要点,以快速分析季度业绩。媒体公司使用摘要来监控新闻和社交媒体,以便记者可以快速撰写有关正在发展的问题的报道。政府机构总结冗长的政策文件和报告,以帮助政策制定者制定战略并确定目标的优先顺序。

通过创建长而复杂的文档的压缩版本,摘要技术使用户能够专注于最重要的内容。这可以更好地理解和保留关键信息。节省的时间使利益相关者能够在更短的时间内审查更多材料,获得更广阔的视角。通过增强的理解和更综合的见解,组织可以做出更明智的战略决策、加速研究、提高生产力并增加影响力。随着越来越多的行业采用人工智能 (AI) 来利用泛滥的信息流,高级摘要功能的变革力量只会继续增强。

在这篇文章中,我们探索客观评估摘要准确性的领先方法,包括 ROUGE 指标、METEOR 和 BERTScore。了解这些技术的优点和缺点可以帮助指导选择和改进工作。这篇文章的总体目标是揭开总结评估的神秘面纱,帮助团队在寻求价值最大化时更好地衡量这一关键能力的绩效。

总结的类型

摘要一般可分为两种主要类型:提取式摘要和抽象式摘要。这两种方法都旨在将长文本压缩为较短的形式,捕获原始内容的最关键信息或本质,但它们的实现方式根本不同。

提取式摘要涉及从原始文本中识别和提取关键短语、句子或片段而不改变它们。系统选择文本中被认为最具信息性或最具代表性的部分。如果准确性至关重要并且摘要需要反映原始文本的准确信息,则提取摘要非常有用。这些可能是用例,例如突出显示使用条款中概述的特定法律条款、义务和权利。用于提取摘要的最常见技术是术语频率-逆文档频率 (TF-IDF)、句子评分、文本排名算法和监督机器学习 (ML)。

抽象摘要更进一步,生成原文中没有的新短语和句子,本质上是对原文内容的释义和浓缩。这种方法需要对文本有更深入的理解,因为人工智能需要解释含义,然后以新的、简洁的形式表达它。大型语言模型 (LLM) 最适合抽象摘要,因为 Transformer 模型在生成摘要时使用注意力机制来关注输入文本的相关部分。注意力机制允许模型为输入序列中的不同单词或标记分配不同的权重,使其能够捕获远程依赖性和上下文相关信息。

除了这两种主要类型之外,还有结合了提取和抽象方法的混合方法。这些方法可能从提取摘要开始,以确定最重要的内容,然后使用抽象技术将该内容重写或浓缩为流畅的摘要。

挑战

寻找评估摘要质量的最佳方法仍然是一个开放的挑战。随着组织越来越依赖自动文本摘要从文档中提取关键信息,对衡量摘要准确性的标准化技术的需求也在增长。理想情况下,这些评估指标将量化机器生成的摘要如何从源文本中提取最显着的内容,并呈现反映原始含义和上下文的连贯摘要。

然而,开发稳健的文本摘要评估方法存在困难:

  • 用于比较的人工撰写的参考摘要通常表现出基于重要性的主观确定的高度可变性
  • 事实证明,摘要质量的细微差别(例如流畅性、可读性和连贯性)很难以编程方式量化
  • 从统计算法到神经网络的汇总方法存在很大差异,使直接比较变得复杂

面向回忆的 Gisting 评估研究 (ROUGE)

胭脂指标与人类编写的参考摘要相比,诸如 ROUGE-N 和 ROUGE-L 等在评估机器生成摘要的质量方面发挥着至关重要的作用。这些指标侧重于通过分析 n 元语法(单词或标记组)来评估机器生成的摘要和人工制作的摘要内容之间的重叠。例如,ROUGE-1 评估单个单词(一元组)的匹配,而 ROUGE-2 考虑单词对(二元组)的匹配。此外,ROUGE-N 还会评估两个文本之间最长的单词公共子序列,从而实现词序的灵活性。

为了说明这一点,请考虑以下示例:

  • ROGUE-1 指标 – ROUGE-1 评估生成的摘要和参考摘要之间的一元组(单个单词)的重叠。例如,如果参考摘要包含“棕色狐狸快速跳跃”,并且生成的摘要是“棕色狐狸快速跳跃”,则 ROUGE-1 指标会将“棕色”、“狐狸”和“跳跃”视为重叠一元词。 ROUGE-1 重点关注摘要中单个单词的存在,衡量生成的摘要从参考摘要中捕获关键词的效果。
  • ROGUE-2 指标 – ROUGE-2 评估生成的摘要和参考摘要之间的二元组(相邻单词对)的重叠。例如,如果参考摘要为“猫正在睡觉”,并且生成的摘要为“猫正在睡觉”,则 ROUGE-2 会将“猫正在”和“正在睡觉”识别为重叠的二元组。 ROUGE-2 可以深入了解与参考摘要相比,生成的摘要如何保持单词对的顺序和上下文。
  • ROUGE-N 公制 – ROUGE-N 是一种广义形式,其中 N 代表任意数字,允许基于 n 元语法(N 个单词的序列)进行评估。考虑到 N=3,如果参考摘要指出“太阳闪耀明亮”,并且生成的摘要是“太阳闪耀明亮”,ROUGE-3 会将“阳光闪耀明亮”识别为匹配的三元组。 ROUGE-N 可以灵活地根据不同长度的单词序列评估摘要,从而对内容重叠提供更全面的评估。

这些示例说明了 ROUGE-1、ROUGE-2 和 ROUGE-N 指标如何通过将生成的摘要与基于不同级别的单词序列的参考摘要进行比较来评估自动摘要或机器翻译任务。

计算 ROUGE-N 分数

您可以使用以下步骤来计算 ROUGE-N 分数:

  1. 使用基本标记化方法(例如按空格或自然语言处理 (NLP) 库分割)将生成的摘要和参考摘要标记为单个单词或标记。
  2. 从生成的摘要和参考摘要生成 n-gram(N 个单词的连续序列)。
  3. 计算生成的摘要和参考摘要之间重叠的 n 元语法的数量。
  4. 计算精确率、召回率和 F1 分数:
    • 平台精度 – 重叠 n-gram 的数量除以生成的摘要中 n-gram 的总数。
    • 记得 – 参考摘要中重叠 n 元语法的数量除以 n 元语法总数。
    • F1分数 – 精度和召回率的调和平均值,计算公式为 (2 * 精度 * 召回率) / (精度 + 召回率)。
  5. 通过计算数据集中每行的精度、召回率和 F1 分数而获得的总 F1 分数被视为 ROUGE-N 分数。

限制

ROGUE 有以下限制:

  • 狭隘地关注词汇重叠 – ROUGE 背后的核心思想是将系统生成的摘要与一组参考或人类创建的摘要进行比较,并测量它们之间的词汇重叠。这意味着 ROUGE 对词级相似性的关注非常狭窄。它实际上并不评估摘要的语义、连贯性或可读性。系统只需从原始文本中逐字提取句子即可获得高 ROUGE 分数,而无需生成连贯或简洁的摘要。
  • 对转述不敏感 – 由于 ROUGE 依赖于词汇匹配,因此它无法检测单词和短语之间的语义等效性。因此,即使保留了含义,释义和使用同义词通常也会导致较低的 ROUGE 分数。这不利于以抽象方式解释或总结的系统。
  • 缺乏语义理解 – ROUGE不评估系统是否真正理解了原文中的含义和概念。摘要可能会与参考文献在词汇上高度重叠,但会遗漏主要思想或包含事实不一致的内容。 ROUGE 不会指出这些问题。

何时使用胭脂

ROUGE 计算简单且快速。将其用作与内容选择相关的摘要质量的基线或基准。 ROUGE 指标最有效地应用于涉及抽象摘要任务、自动摘要评估、LLM 评估以及不同摘要方法的比较分析的场景。通过在这些环境中使用 ROUGE 指标,利益相关者可以定量评估摘要生成过程的质量和有效性。

显式排序翻译评估指标 (METEOR)

评估摘要系统的主要挑战之一是评估生成的摘要的逻辑流畅程度,而不仅仅是从源文本中选择相关单词和短语。简单地提取相关关键词和句子并不一定能产生连贯且有凝聚力的摘要。摘要应该流畅并逻辑地连接想法,即使它们的呈现顺序与原始文档不同。

通过将单词还原为词根或基本形式(例如,在词干提取后,“running”、“runs”和“ran”等单词都变成“run”)和同义词来进行匹配的灵活性意味着 流星 与人类对摘要质量的判断更好地相关。它可以识别重要内容是否被保留,即使措辞不同。与 ROUGE 等基于 n-gram 的指标相比,这是一个关键优势,后者仅查找精确的标记匹配。 METEOR 还对关注参考文献中最突出内容的摘要给予更高的分数。重复或不相关的信息得分较低。这与仅保留最重要内容的摘要目标非常一致。 METEOR 是一种语义上有意义的度量,可以克服 n 元语法匹配在评估文本摘要方面的一些限制。词干和同义词的结合可以更好地评估信息重叠和内容准确性。

为了说明这一点,请考虑以下示例:

参考总结: 秋天树叶落下。

生成的摘要 1: 秋天叶子掉落。

生成的摘要 2: 夏季叶子呈绿色。

参考文献和生成的摘要 1 之间匹配的单词会突出显示:

参考总结: 秋季 秋季期间。

生成的摘要 1: 落入 秋季.

尽管“fall”和“autumn”是不同的标记,METEOR 通过同义词匹配将它们识别为同义词。 “Drop”和“fall”被识别为词干匹配。对于生成的摘要 2,除了“Leaves”之外,没有与参考摘要匹配的内容,因此该摘要将获得低得多的 METEOR 分数。语义上有意义的匹配越多,METEOR 分数就越高。与简单的 n 元语法匹配相比,这使得 METEOR 能够更好地评估摘要的内容和准确性。

计算 METEOR 分数

完成以下步骤来计算 METEOR 分数:

  1. 使用基本标记化方法(例如按空格或 NLP 库分割)将生成的摘要和参考摘要标记为单个单词或标记。
  2. 计算一元语法精度、召回率和 F 均值分数,召回率比精度具有更大的权重。
  3. 对精确匹配应用惩罚以避免过分强调它们。惩罚是根据数据集特征、任务要求以及精确度和召回率之间的平衡来选择的。从步骤 2 中计算的 F 均值分数中减去此罚分。
  4. 计算词干形式(将单词还原为其基本形式或词根形式)的 F 均值分数以及适用的一元语法的同义词。将其与之前计算的 F 均值分数相加,以获得最终的 METEOR 分数。 METEOR 分数范围为 0-1,其中 0 表示生成的摘要与参考摘要之间没有相似性,1 表示完美对齐。通常,总结分数介于 0-0.6 之间。

限制

当使用 METEOR 指标来评估摘要任务时,可能会出现几个挑战:

  • 语义复杂性 – METEOR 对语义相似性的强调可能难以捕捉复杂摘要任务中细微差别的含义和上下文,从而可能导致评估不准确。
  • 参考变异性 – 人类生成的参考摘要的变异性可能会影响 METEOR 分数,因为参考内容的差异可能会影响机器生成的摘要的评估。
  • 语言多样性 – 由于语言差异、语法差异和语义细微差别,METEOR 的有效性可能因语言而异,这给多语言摘要评估带来了挑战。
  • 长度差异 – 评估不同长度的摘要对于 METEOR 来说可能具有挑战性,因为与参考摘要相比长度的差异可能会导致评估的处罚或不准确。
  • 参数调优 – 针对不同数据集和汇总任务优化 METEOR 的参数可能非常耗时,并且需要仔细调整以确保指标提供准确的评估。
  • 评价偏差 – 如果没有针对特定的摘要领域或任务进行适当调整或校准,则 METEOR 存在评估偏差的风险。这可能会导致结果出现偏差并影响评估过程的可靠性。

通过意识到这些挑战并在使用 METEOR 作为总结任务的指标时考虑它们,研究人员和从业者可以克服潜在的局限性,并在评估过程中做出更明智的决策。

何时使用 METEOR

METEOR 通常用于自动评估文本摘要的质量。当摘要中的想法、概念或实体的顺序很重要时,最好使用 METEOR 作为评估指标。 METEOR 考虑顺序并匹配生成的摘要和参考摘要之间的 n 元语法。它奖励保留顺序信息的摘要。与 ROUGE 等依赖于 n 元语法与参考摘要重叠的指标不同,METEOR 匹配词干、同义词和释义。当可以有多种正确的方法来总结原文时,METEOR 的效果会更好。 METEOR 在匹配 n 元语法时结合了 WordNet 同义词和词干标记。简而言之,语义相似但使用不同单词或措辞的摘要仍然会得分很高。 METEOR 对具有重复 n 元语法的摘要有内置惩罚。因此,它不鼓励逐字提取或缺乏抽象。当语义相似性、思想顺序和流畅的措辞对于判断摘要质量很重要时,METEOR 是一个不错的选择。它不太适合仅与参考摘要词汇重叠很重要的任务。

BERT评分

像 ROUGE 和 METEOR 这样的表层词汇度量通过比较候选摘要和参考摘要之间的单词重叠来评估摘要系统。然而,它们严重依赖单词和短语之间的精确字符串匹配。这意味着他们可能会错过表面形式不同但潜在含义相似的单词和短语之间的语义相似性。仅依靠表面匹配,这些指标可能会低估使用与参考摘要不同的同义词或释义概念的系统摘要的质量。两个摘要可以传达几乎相同的信息,但由于词汇差异而获得较低的表面分数。

BERT评分 是一种通过将摘要与人类编写的参考摘要进行比较来自动评估摘要的好坏的方法。它使用流行的 NLP 技术 BERT 来理解候选摘要和参考摘要中单词的含义和上下文。具体来说,它会查看候选摘要中的每个单词或标记,并根据 BERT 嵌入(每个单词的含义和上下文的向量表示)找到参考摘要中最相似的单词。它使用余弦相似度来测量相似度,余弦相似度表明向量彼此之间的接近程度。对于候选摘要中的每个单词,它使用 BERT 对语言的理解找到参考摘要中最相关的单词。它比较整个摘要中的所有这些单词相似性,以获得候选摘要与参考摘要在语义上的相似程度的总体得分。 BERT 捕获的单词和含义越相似,BERTScore 就越高。这使得它可以通过将生成的摘要与人类参考进行比较来自动评估生成的摘要的质量,而无需每次都进行人工评估。

为了说明这一点,假设您有一个机器生成的摘要:“敏捷的棕色狐狸跳过了懒狗。”现在,让我们考虑一个人工制作的参考摘要:“一只快速的棕色狐狸跳过一只熟睡的犬科动物。”

计算 BERTcore

完成以下步骤来计算 BERTcore:

  1. BERTScore 使用上下文嵌入来表示候选(机器生成)和参考(人工制作)句子中的每个标记。上下文嵌入是 NLP 中的一种单词表示形式,它根据句子或文本中的上下文捕获单词的含义。与传统的词嵌入不同的是,无论其上下文如何,都会为每个词分配固定的向量,上下文嵌入会考虑周围的词,根据每个词在特定句子中的使用方式来生成每个词的唯一表示。
  2. 然后,该度量使用余弦相似度计算候选句子中的每个标记与参考句子中的每个标记之间的相似度。余弦相似度通过关注两组数据在多维空间中指向的方向,帮助我们量化两组数据的相关程度,使其成为搜索算法、自然语言处理和推荐系统等任务的宝贵工具。
  3. 通过比较上下文嵌入并计算所有标记的相似性分数,BERTScore 生成综合评估,捕获生成的摘要与人工参考相比的语义相关性和上下文。
  4. 最终的 BERTScore 输出提供了一个相似度分数,反映了机器生成的摘要在含义和上下文方面与参考摘要的一致性程度。

从本质上讲,BERTScore 超越了传统指标,考虑了句子的语义细微差别和上下文,提供了更复杂的评估,密切反映了人类的判断。这种先进的方法提高了评估摘要任务的准确性和可靠性,使 BERTScore 成为评估文本生成系统的宝贵工具。

限制:

尽管 BERTScore 在评估摘要任务方面具有显着优势,但它也存在一些需要考虑的局限性:

  • 计算强度 – 由于 BERT 依赖于 BERT 等预先训练的语言模型,BERTScore 可能需要大量计算。这可能会导致评估时间更长,尤其是在处理大量文本数据时。
  • 对预训练模型的依赖 – BERTScore 的有效性高度依赖于所使用的预训练语言模型的质量和相关性。在预训练模型可能无法充分捕捉文本细微差别的情况下,评估结果可能会受到影响。
  • 可扩展性 – 由于其计算需求,针对大型数据集或实时应用程序扩展 BERTScore 可能具有挑战性。在生产环境中实施 BERTcore 可能需要优化策略来提供高效的性能。
  • 领域特异性 – BERTScore 的性能可能因不同领域或特定文本类型而异。使指标适应特定领域或任务可能需要微调或调整才能产生准确的评估。
  • 可解释性 – 尽管 BERTScore 提供了基于上下文嵌入的综合评估,但解释为每个标记生成的相似性分数背后的具体原因可能很复杂,并且可能需要额外的分析。
  • 无参考评估 – 尽管 BERTScore 减少了对评估参考摘要的依赖,但这种无参考方法可能无法完全捕获摘要质量的所有方面,特别是在人工制作的参考对于评估内容相关性和连贯性至关重要的情况下。

承认这些限制可以帮助您在使用 BERTScore 作为评估摘要任务的指标时做出明智的决策,从而对其优势和限制提供平衡的理解。

何时使用 BERTcore

BERTScore 可以通过将生成的摘要与参考摘要进行比较来评估文本摘要的质量。它使用 BERT 等神经网络来测量语义相似性,而不仅仅是精确的单词或短语匹配。当保留完整含义和内容的语义保真度对于摘要任务至关重要时,BERTScore 非常有用。 BERTScore 会对传达与参考摘要相同信息的摘要给予更高的分数,即使它们使用不同的单词和句子结构。最重要的是,BERTScore 非常适合摘要任务,在这些任务中,保留完整的语义而不仅仅是关键字或主题至关重要。其先进的神经评分使其能够比较表面单词匹配之外的含义。这使得它适用于措辞上的细微差异会极大地改变整体含义和含义的情况。 BERTScore 尤其擅长捕获语义相似性,这对于评估抽象摘要(如检索增强生成 (RAG) 模型生成的摘要)的质量至关重要。

模型评估框架

模型评估框架对于准确衡量各种摘要模型的性能至关重要。这些框架有助于比较模型、提供生成的摘要和源内容之间的一致性以及查明评估方法的缺陷。通过进行彻底的评估和一致的基准测试,这些框架通过倡导标准化评估实践和实现多方面的模型比较来推动文本摘要研究。

在 AWS 中, FMEval 库亚马逊SageMaker澄清 简化了用于文本摘要、问答和分类等任务的基础模型 (FM) 的评估和选择。它使您能够根据准确性、鲁棒性、创造力、偏见和毒性等指标评估 FM,支持法学硕士的自动评估和人机交互评估。通过基于 UI 或程序化的评估,FMEval 可以生成详细的可视化报告,以量化模型风险,例如不准确、毒性或偏差,帮助组织遵守其负责任的生成式 AI 指南。在本节中,我们将演示如何使用 FMEval 库。

使用 Amazon Bedrock 评估 Claude v2 的摘要准确性

以下代码片段是如何使用 Python 代码与 Anthropic Claude 模型交互的示例:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

简单来说,此代码执行以下操作:

  1. 导入必要的库,包括 json,处理 JSON 数据。
  2. 将模型 ID 定义为 anthropic.claude-v2 并设置请求的内容类型。
  3. 创建一个 prompt_data 构造克劳德模型输入数据的变量。在这种情况下,它提出了“巴拉克·奥巴马是谁?”的问题。并期望模型做出回应。
  4. 构造一个名为 body 的 JSON 对象,其中包含提示数据,并指定其他参数,例如要生成的最大令牌数。
  5. 使用调用 Claude 模型 bedrock_runtime.invoke_model 与定义的参数。
  6. 解析模型的响应,提取完成内容(生成的文本),然后将其打印出来。

确保 AWS身份和访问管理 与关联的 (IAM) 角色 亚马逊SageMaker Studio 用户个人资料可以访问 亚马逊基岩 被调用的模型。参考 Amazon Bedrock 基于身份的策略示例 有关 Amazon Bedrock 的最佳实践指南和基于身份的策略示例。

使用 FMEval 库评估 Claude 的汇总输出

我们使用以下代码来评估汇总输出:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

在前面的代码片段中,要使用 FMEval 库评估文本摘要,我们完成以下步骤:

  1. 创建一个 ModelRunner 对您的法学硕士执行调用。 FMEval 库提供内置支持 亚马逊SageMaker 端点和 亚马逊SageMaker JumpStart 法学硕士。您还可以延长 ModelRunner 任何地方托管的法学硕士的接口。
  2. 支持使用 eval_algorithms 根据您的评估需求,如毒性、摘要、准确性、语义和稳健性。
  3. 为您的特定用例自定义评估配置参数。
  4. 使用带有内置或自定义数据集的评估算法来评估您的 LLM 模型。本例中使用的数据集来源于以下 GitHub回购.

参考 开发者指南和示例 评估算法的详细使用。

下表总结了评估结果。

模型_输入 模型输出 目标输出 提示 分数 流星分数 胭脂分数 伯特分数
约翰·爱德华兹
0 贝茨,前斯伯丁,林科......
我无法做出任何确定
判断,作为...
前任
林肯郡警察携带...
人类:约翰
爱德华·贝茨,前斯伯丁队......
[{'名称':'流星','值':
0.101010101010101 ...
0.10101 0 0.557155
23 Oct. 2015
最后更新
17:44 BST|nIt'…
以下是有关飓风/热带气旋的一些要点。 飓风帕特里夏已被评为类别…… 人类:23
2015 年 17 月 最后更新于 44:XNUMX
乙...
[{'名称':流星','值':
0.102339181286549 ..
0.102339 0.018265 0.441421
法拉利似乎有能力挑战…… 以下是文章的要点:nin… 刘易斯·汉密尔顿 (Lewis Hamilton) 在赛道上冲向杆位…… 人类:法拉利似乎有能力挑战.​​..... [{'名称':'流星','值':
0.322543352601156 ...
0.322543 0.078212 0.606487
这位出生于巴斯的球员今年 28 岁,已经打进 36 球
出现…
好吧,我总结一下要点:/nin- E…… 纽波特昆特龙队第八号艾德·杰克逊 人类:出生于巴斯的球员,28 岁,已经取得了 36 分…… [{'名称':'流星','值':
0105740181268882 ...
0.10574 0.012987 0.539488
小鼠与人类交换数据的方式存在缺陷…… 以下是我从……中收集到的要点。 黑客可以访问家庭和 人类:
的弱点
swar 老鼠交换数据
[{'名称':'流星','值':
0.201048289433848 ...
0.201048 0.021858 0.526947

查看样品 笔记本 有关我们在本文中讨论的总结评估的更多详细信息。

结论

ROUGE、METEOR 和 BERTScore 都衡量机器生成摘要的质量,但侧重于不同的方面,例如词汇重叠、流畅性或语义相似性。确保选择与您的特定摘要用例的“好”定义一致的指标。您还可以使用指标的组合。这提供了更全面的评估,并防止任何单个指标的潜在弱点。通过正确的测量,您可以迭代地改进摘要器,以满足最重要的准确性概念。

此外,FM 和 LLM 评估对于能够大规模生产这些模型是必要的。借助 FMEval,您可以获得跨许多 NLP 任务的大量内置算法,同时也是一个可扩展且灵活的工具,用于大规模评估您自己的模型、数据集和算法。要扩大规模,您可以在 LLMOps 管道中使用此包来 评估多个模型。要了解有关 AWS 中的 FMEval 以及如何有效使用它的更多信息,请参阅 使用 SageMaker Clarify 评估大型语言模型。如需进一步了解和深入了解 SageMaker Clarify 在评估 FM 方面的功能,请参阅 Amazon SageMaker Clarify 让评估和选择基础模型变得更加轻松.


作者简介


迪内什·库马尔·苏布拉马尼 是苏格兰爱丁堡的高级解决方案架构师。他专注于人工智能和机器学习,是亚马逊技术领域社区的成员。 Dinesh 与英国中央政府客户密切合作,使用 AWS 服务解决他们的问题。工作之余,迪内什喜欢与家人共度美好时光、下棋和探索各种音乐。


普拉纳夫·夏尔马 是推动欧洲、中东和非洲技术和业务转型计划的 AWS 领导者。他在设计和运行生产中的人工智能平台方面拥有丰富的经验,这些平台可以为数百万客户提供支持并交付业务成果。他曾在全球金融服务组织中担任技术和人员领导职务。工作之余,他喜欢读书、和儿子一起打网球、看电影。

现货图片

最新情报

现货图片