作者 Julia Hu Amit Gupta 和 Neil Desai日期 2024年8月21日来源 亚马逊Q
生成式人工智能AI,尤其是检索增强生成RAG解决方案,正在迅速展现其在企业运作中的广泛潜力。RAG模型结合了信息检索系统的优势与先进的自然语言生成技术,提高了输出的上下文准确性与信息性。无论是自动化客户互动,还是优化后端操作流程,这些技术不仅支持企业,还积极推动着它们的转型。
企业往往耗费数小时来决定哪个RAG解决方案最适合其使用案例,这一过程因考虑因素繁多而变得复杂。此外,由于RAG技术的迅速发展,这一评估过程还需要定期进行,进一步限制了企业能够为员工提供变革性生成式AI体验的速度。目前,亚马逊Q业务作为一款发布的新工具为企业提供了全方位的解决方案,它结合了公司专有知识与数据,使员工能够快速构建生成式AI应用。它提供了一个完全托管的RAG方法,从而使企业能够迅速构建自己的生成式AI聊天机器人解决方案,而无需自行管理和实验大型语言模型LLM。
尽管亚马逊Q业务可以将生成式AI应用的开发时间从数个月缩短至数小时,但企业仍需根据预先定义的评估标准如准确性或鲁棒性来评估其输出,以便以量化的方式衡量亚马逊Q业务的应用。本文将详细介绍一个评估框架,您可以利用企业的私有数据源及领域专家来评估生成式AI应用的性能,尤其是针对需要专门领域知识的查询。此方法确保了来自亚马逊Q的输出不仅相关,而且符合企业的特定细微差别和要求。
您可以选择两种不同的评估方法来评估生成式AI解决方案。首先是使用定量测量进行自动化评估。针对RAG解决方案,Ragas是一个流行的框架,它使用LLM作为评估者来生成评估指标分数并促进自动化评估。然而,自动化评估存在一定局限性,尤其是对使用企业特定专有数据的RAG解决方案。这些指标往往无法捕捉人类语言生成的复杂性,缺乏评估语义理解及特定领域独特上下文细微差别的能力。例如,在生成法律文件、医疗报告、财务分析、客户支持回应和技术文档时,生成的段落需要根据法律准确性、医学相关性、合规性、客户服务细微差别和技术正确性等关键细节进行评价。此外,这类自动化指标往往与定性的人工判断不太吻合,而后者在评估过程中需要考虑复杂的细节和企业数据固有的专业知识。这一差距强调了在评估过程中引入领域知识的必要性,以确保输出满足商业应用的细致要求。
第二种方法是使用人机协同HITL评估。这种方法更适合需要深入领域理解的任务,因为人类能够比自动化指标更好地理解上下文、微妙之处和细节。更重要的是,他们可以提供反馈以便改进,因此生成式AI解决方案如亚马逊Q业务可以随着详细反馈而不断演进。最后,HITL还可以提供自动化评估指标所缺乏的定性评估与人类判断。尽管HITL评估可能资源密集且成本高昂,但它对于您的亚马逊Q业务应用来说,仍然是一种适合的方法,以确保与最终用户对于深入领域知识的需求对齐。
本文还讨论了亚马逊Q业务的评估指标,包括对RAG聊天机器人特别重要的几个方面,如语义鲁棒性和完整性。您可以根据使用自动化评估或HITL评估来决定评估指标分数的阈值。
亚马逊Q业务提供的解决方案旨在应对常见企业用例,可以显著简化您生成式AI之旅的起步。识别适合亚马逊Q业务的正确用例至关重要,以下是一些推荐的角色,能够立刻创造出价值:
用例角色描述客户/IT支持减少对常见问题及支持查询的IT解决时间,通过检索您企业知识库中的准确信息来有效降低风险。风险与合规性通过使员工能够快速查找最新的政策与程序,利用企业数据提升合规性,进而降低风险。开发者简化技术负债与代码质量的评估,通过跨多个代码库和内容协作管理工作区的广泛知识库来回应开发者的问题。人力资源加快新员工的入职过程,通过高效地找到最相关的文档,从而减少与海量内容导航和筛选相关的负担。运营快速访问详细信息例如用户手册、快速入门指南、技术手册等,从而加速设备维护与故障排除。
这样的用例对齐能够顺利而高效地将生成式AI技术整合到您的业务流程中。
针对企业中的生成式AI聊天机器人应用,包含多种文档类型能够提升其效用和有效性。以下是一些对生成式AI应用有益的关键文档类型:
文档类型描述标准操作程序提供逐步指导,有助于亚马逊Q引导用户完成特定过程或任务。产品手册和指南产品相关文档使亚马逊Q能够向用户提供详细信息和故障排除支持。常见问答及帮助文章结构化的帮助文档可以让亚马逊Q快速回答常见问题,提高用户体验和效率。政策文件公司政策文件有助于亚马逊Q向员工传达公司规章、合规要求和伦理指南。培训材料培训文档可以帮助亚马逊Q在员工入职、持续教育和技能发展时提供支持。合同与协议用于法律和行政功能,亚马逊Q可以引用合同的特定条款以支持谈判或合规检查。会议纪要和报告会议与报告的总结内容可以帮助亚马逊Q提供关于业务运作或项目状态的快速更新与见解。电子邮件和沟通记录分析存档的电子邮件及其他沟通记录,可以使亚马逊Q提取和总结信息,提供正在进行讨论的上下文或检索历史数据。财务文档财务报表、预算和审计报告可以为亚马逊Q回答与财务表现和规划相关的查询提供来源。这些文档可以从企业现有的文档管理系统中识别如SharePoint、Box或Dropbox,或者存储在亚马逊简单存储服务亚马逊S3桶、客户关系管理CRM系统如ServiceNow、Zendesk、Confluence或Salesforce、IT项目开发和规划工具如Jira或GitHub、企业网站及协作工具如Slack或Microsoft Teams。选择正确的数据源时需考虑生成式AI应用的目的、所涉及数据的敏感性以及所需的安全集成。亚马逊Q业务拥有现成的连接器或即用型解决方案,可安全且无缝地将企业数据摄取至亚马逊Q中。
由于亚马逊Q业务主要使用RAG机制,因此为了评估基于RAG的生成式AI解决方案,设计适合评估的查询至关重要。这些查询应能够利用RAG方法进行知识发现和分析。常见的问答方法有闭卷问答和开卷问答。闭卷问答系统完全基于模型的预训练阶段所获得的内部知识推导答案,而开卷问答系统则利用外部信息来源,如知识库或文档,以提供更准确和相关的上下文响应。
西部世界加速器官网在生成式AI解决方案的开卷设置下,可以关注测试各种方面的查询,例如模型检索相关信息的能力、生成连贯回答的能力及其无缝整合检索与生成的能力,以提供与基础知识相关的上下文和来源。以下是一些您可能考虑在评估中使用的查询类型根据查询的复杂性、对领域知识的需求和推理深度,这些问题的难度有所不同:
难度查询描述简单事实准确性 需要模型准确检索和合成事实信息的查询。例如:“公司XXX目前的产品线是什么?”难特定领域知识 针对特定领域的问题,尤其是涉及法律文件、医学或技术的,以评估模型在专业领域的有效性。例如:“QA部门谁是处理产品退货程序的最佳联系人?”上下文理解 需要依靠推理基础语料生成答案,答案不能直接从文本中检索。例如:“赔偿条款是否包括支付罚款?”挑战复杂问答 涉及多层推理的问题,考验模型处理复杂性和上下文的能力。例如:“在三种不同的执行器中,哪一种最适合高频率工作流?请提供理由。”伦理和社会影响 涉及伦理困境或社会影响的问题,以评估模型对更广泛人文关切的敏感性。例如:“鉴于信用风险,是否可以批准约翰杜的贷款申请?”结合使用这些类型查询可以全面评估RAG AI解决方案,突出其优势并识别改进领域。
针对RAG基础的生成式AI解决方案如亚马逊Q业务,全面评估框架通常应包括多样化的指标,以评估模型性能的不同方面。以下列表展示了如何根据不同类别构建此评估:
指标类别描述答案完整性与简洁性此指标衡量答案覆盖相关问题的各个方面的程度,包括所有隐含点。答案应包含与此问题相关的所有背景信息。评分方式为:Score 13真实性与幻觉相对评估模型再现真实世界事实的能力。可以用“柏林是哪个国家的首都?”等问题提示模型并与一个或多个参考答案进行比较,评分方式为:Score 13语义鲁棒性评估模型输出因语义保存扰动而发生的性能变化。它适用于生成内容的每个任务包括开放式生成、摘要和问题回答。评分方式为:Score 13上下文相关性衡量响应与给定上下文的相关性。评估应用的输出是否适合,并根据提取的上下文和提供的源URL是否合理。评分方式为:Score 13上下文精准性衡量模型响应中从提取的上下文片段衍生出的具体细节或元素的准确性。评分方式为:Score 13毒性衡量由亚马逊Q业务生成的有害内容的水平。评分方式为:Score 13该评估框架从准确性角度进行全面性覆盖,但根据具体用例、部署环境或需要更细致的亚马逊Q业务应用行为洞察,您还可以添加其他指标,以增强评估效果。潜在有用的附加指标可能包括生产力提升、延迟、安全性、可扩展性或成本。这些额外指标能够提供更详细的亚马逊Q业务性能图景,帮助识别特定改进领域,并确保系统在不同环境和用户群体中运行稳健、用户友好。
如果您采用人工评估过程,可以使用以下评分卡模板,帮助评估人员以系统化的方式评估亚马逊Q应用:
查询答案真实答案检索到的源URL指标描述分数理由Q1A1Ground Truth答案完整性与简洁性它是否是完整、全面且简洁的答案?真实性与幻觉相对答案中所有信息是否直接来自文档?语义鲁棒性答案是否受到语义保存扰动的影响?上下文精准性从提取的上下文片段可以得出的具体细节的准确性如何?内容相关性检查每个提供的上下文,是否与获取的真实答案相关。毒性是否存在有害内容?完成评估后,我们通过计算每个指标的平均分数来汇总结果。平均指标分数在理解系统在多个维度的整体性能如事实准确性、完整性和相关性中起着至关重要的作用。每个方面的平均指标分数通过汇总针对一系列基准问题或任务的单个得分来计算。例如,如果在100个答案中,LLM发现85个回答是根据黄金标准的事实准确85,而80个回答是完整的80,那么我们就可以得出其整体表现。
使用平均分数的好处包括:
识别优缺点:通过检查不同维度的指标分数,用户能够识别RAG解决方案的具体优势和劣势。用户信任与信心:高平均分数可以增强用户在特定需求下使用RAG解决方案的信任与信心,尤其是在医疗信息检索、客户支持或教育工具等关键应用场景中。部署决策:对于考虑采用RAG解决方案的组织而言,平均指标分数提供了定量基础,以评估该系统是否满足其运营标准和质量要求,帮助决策部署和集成。第二种评分方法是将不同评估指标的得分求平均,形成亚马逊Q业务的单一分数。这种方法的好处在于能更进一步简化评估,得出一个量化指标。但是,在对不同类别的分数进行求平均之前,有几个因素需要考虑。如果所有指标在您的用例中同等重要,求平均可能是合理的。然而,如果某些方面比其他方面更为重要,建议根据其重要性为指标加权。例如,在客户支持中,事实准确性可能比简洁性更为重要。在更高教育中,毒性和情感偏见也很重要。可以根据商业优先级或用户偏好分配权重并计算加权平均分数。如下是一个公式示例,其中w代表指标i的权重,而Score是指标i的分数:
尽管亚马逊Q业务优化了RAG系统的各个要素,但您可能需要对亚马逊Q业务进行新用例和数据的评估、监测应用性能,并与其他解决方案进行基准比较。为了确保评估框架能够以一致方式运行,良好的解决方案架构设计至关重要。以下图示