更新于 : Nov 05, 2025
Nov 2025
试验
DeepEval 是一个开源的、基于 Python 的 LLM 性能评估框架。它可以用于评估 检索增强生成 (RAG) 和其他使用框架(如 LlamaIndex 或 LangChain)构建的应用程序,也可以用于基线和基准模型。DeepEval 超越了单词匹配得分,评估准确性、相关性和一致性,在现实场景中提供更可靠的评估。它包括诸如幻觉检测、答案相关性和超参数优化等指标,并支持 GEval 创建自定义、用例特定的指标。我们的团队使用 DeepEval 使用 LLM 作为评判者技术微调智能体输出。它与 pytest 和 CI/CD 管道集成,使其易于采用并具有持续评估的价值。对于在受监管环境中构建 LLM 应用程序的团队,由英国人工智能安全研究所开发的 Inspect AI 提供了一个替代方案,更专注于审计和合规性。
Oct 2024
评估
DeepEval 是一个基于 Python 的开源评估框架,用于评估大语言模型(LLM)的性能。你可以使用它评估使用流行框架(如LlamaIndex 或LangChain构建的检索增强生成(RAG)和其他类型的应用程序,也可以用于基准测试和对比不同模型,以满足你的需求。DeepEval 提供了一个全面的指标和功能套件,用于评估 LLM 的表现,包括幻觉检测、答案相关性和超参数优化。它支持与 pytest 的集成,结合其断言功能,你可以轻松地将测试套件集成到持续集成(CI)管道中。如果你正在使用 LLM,建议尝试 DeepEval 来改进测试流程,确保你的应用程序的可靠性。
发布于 : Oct 23, 2024