不要吹牛！斯坦福最新研究：汤森路透和 LexisNexis 的 AI “幻觉”都很高

Original 吴世杰法律修音机

2024-09-15

5 月 30 日消息，斯坦福大学发布了一份名为《“无幻觉？评估领先的 AI 法律研究工具的可靠性》的论文（修订版）。

这篇论文重点分析了两家头部法律研究公司 Thomson Reuters 和 LexisNexis 旗下的 AI 法律研究工具的可靠性，特别是它们在生成内容时是否会出现“幻觉”（hallucinations）—— 即编造虚假信息。

论文地址（复制到浏览器打开）：

https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

目前，AI 在法律实践的使用急剧增加，这些工具旨在协助法律专业人士处理案例搜索、总结、文件起草等一系列核心法律任务。

但是，这些工具使用的大语言模型容易出现“幻觉”，在高风险领域中使用会存在风险。

尽管一些法律研究公司声称他们采用的方法（如检索增强生成/RAG），可以“消除”或者“避免”幻觉的出现，但由于这些系统的封闭性，评估这些说法的真实性存在挑战。

为此，斯坦福大学下设以人为本的人工智能（HAI）研究中心构建了一个包含 200 多个法律查询的数据集，并分别在 LexisNexis（Lexis+ AI）、Thomson Reuters（Ask Practical Law AI）、Westlaw（AI-Assisted Research）和 GPT-4 上测试，手动审查它们的输出，以评估这些产品的输出准确性。

出乎意料的是，尽管与通用聊天机器人（如 GPT-4）相比，Thomson Reuters 和 LexisNexis 旗下 AI 法律研究工具的“幻觉”现象有所减少，但“幻觉”程度仍然很高。

论文发现，Westlaw 的幻觉频率，几乎是 Lexis+ AI 的两倍 —— Lexis+ AI 的幻觉时间为 17%，Westlaw 的幻觉时间则高达 33%。同时，Lexis+ AI 在 65% 的时间提供了准确的答案，而 Westlaw 提供了准确答案的时间只有 42% —— 这些数据比两家公司所宣传的次数要多得多，揭露了法律科技公司们长期以来对自家产品的炒作，言过其实。

论文发布后，包括 Thomson Reuters 和 LexisNexis 在内的很多法律科技公司和法律专业人士都拒绝了该论文的结论，声称论文的统计方法错误，Thomson Reuters 还表示论文团队使用了错误的工具测试。

然而，更新后的论文仍然呈现以上结果。

对此，Thomson Reuters 团队撰文表示：

“我们非常支持像这样的测试和基准解决方案的努力，我们支持斯坦福研究团队最近对基于 RAG 的法律研究解决方案进行研究的意图，但当我们看到 AI 辅助研究存在与幻觉有关的重大问题时，我们感到非常惊讶。事实上，该论文的结果与我们自己的测试和客户的反馈截然不同。
我们致力于与论文的研究人员合作以了解更多信息，但根据我的经验，该研究比我们内部测试的不准确性率更高的一个原因可能是，该研究包括我们在 AI 辅助研究中很少或从未见过的问题类型。这里学到的一个关键教训是，这些产品的用户体验可以更明确地说明系统的具体限制。”‍

其中，出现这些差异的原因可能是 Thomson Reuters、LexisNexis、斯坦福，三方对于“幻觉”的定义略有不同。

例如，Thomson Reuters 认为对查询不准确的输出就是“幻觉”，LexisNexis 表示基于有链接的法律引用其 AI 法律研究产品可以达到“100% 无幻觉”，而斯坦福 RegLab 和 HAI 研究中心对“幻觉”的定义除了包括对事实不准确的回应，还包括引用了错误的来源。

因此，Thomson Reuters 和 LexisNexis 最初都声称，他们内部测试“幻觉”显示的数据，低于这份斯坦福论文的研究结果。

然而，关于法律 AI 产品的准确性问题，每家公司都有自己公布的数据和一套解释说法，但似乎都没有很大的说服力。

这个问题的背后，是当下仍然缺乏对大模型可靠的「基准测试」方法。

基准测试是一个具有很高挑战性和资源密集型的研究领域，特别是在法律等专家领域，这对于负责任地使用 AI 至关重要。

然而，目前 Thomson Reuters、LexisNexis 以及市场上的大多数法律研究工具，都没有公开任何内部的测试基准。

对于这个问题，2023 年 8 月，我国智慧司法技术总师系统、浙江大学、上海交通大学、阿里云计算有限公司、科大讯飞研究院联合发布了一份《法律大模型评估指标和评测办法（征求意见稿）》，希望促成行业统一的法律大模型行业评测标准。

但据法律修音机了解，这份文件其实也还不成熟，其目的更多在于让各家法律科技公司“不要吹牛”、“搞坏了市场”。

此外，斯坦福的研究还指出，Westlaw 的高幻觉率可能部分归因于其回复篇幅 —— Westlaw 的输出平均篇幅为 350 字，而 Lexis+ AI 仅为 219 字。由于输出更长，Westlaw 的输出就有可能包含更多可证伪的内容，因此更有可能出现幻觉。

在缺少统一基准测试的情况下，Thomson Reuters 和 LexisNexis 一直在通过「收购」提升自家产品的 AI 能力。

例如，Thomson Reuters 于 2023 年 8 月收购了法律研究领域的有力挑战者 Casetext，LexisNexis 也于前几天收购了合同起草初创公司 Henchman，持续增强 AI 能力👇

拓展阅读：突发！LexisNexis 收购合同起草初创公司 Henchman，持续增强 AI 能力

总的来说，斯坦福这篇论文强调了对法律 AI 工具进行严格且透明的基准测试，以及公开评估的必要性，并且呼吁法律科技公司提供关于其 AI 工具可靠性的硬证据，同时警告在没有相关证据的情况下，声称自家的法律 AI 系统无幻觉的说法，是没有根据的。

特别是 Thomson Reuters 和 LexisNexis 在法律研究领域的双重垄断地位，使法律行业没有太多替代方案的情况下，这些问题更加值得关注，而由中立的第三方评估这些系统的实际使用情况，也变得更加急迫。

法律科技活动推荐

法天使、植德律师事务所、法律修音机联合举办的《律所 AI 共创营 —— 让一部分法律人先 AI 起来》活动，即将在深圳推出。

深圳站：6月28日（周五）

欢迎感兴趣的朋友报名参与👇

欢迎联系

自成立第一天起，法律修音机 Legal Studio 就致力于推出法律科技相关教育资源。随着 AI 浪潮席卷法律行业，我们也希望帮助整个行业为 AI 即将随处可见的世界做好准备。

目前，我们运营了一个【法律 AI 交流群】，群友除了法律科技从业者，更多的是律师、法务、法学院师生、非法律领域创业者以及投资人等，平时会分享、交流法律 Al、法律科技、大模型相关的话题和前沿信息。

同时，我们还运营了一档《法律 AI 日报》，每个工作日，法律修音机都会收集整理法律 AI 和大模型相关资讯，在【法律 AI 交流群】集合放送，并节选法律科技资讯公开发布。同时，法律修音机还会不定期整理优质活动发布推荐，以供相关从业者选择参与。

如果你对法律 AI 感兴趣，希望及时了解相关资讯，欢迎联系法律修音机主理人申请加入【法律 AI 交流群】，或者订阅相关专栏👇

👉Legaltech Insight：仅包含前沿资讯

👉Legal Studio 法律科技智库（专业版）：包含前沿资讯，以及全球最前沿、最深度的法律科技洞察和创新案例

如您有产品或活动想要在 Legal Studio 法律科技社区推广，或者您认为本专栏内容有所遗漏，又或者希望参与到 Legal Studio 法律科技社区的共建中来，欢迎联系法律修音机主理人交流、合作、申请进群。

法律修音机主理人微信：18825075686，添加微信请备注：姓名-工作单位-职位。

-FIN-

与法律修音机主理人交个朋友⬇️

点击关注「法律修音机」，你将感受到一个朋克的灵魂，且每篇文章都有惊喜。

个人观点，仅供参考

继续滑动看下一个

法律修音机

向上滑动看下一个

张庆方律师拟被吊销律师证的处罚告知书

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

联调局开始降息置业者应否入市

光刻机，官宣了！

不要吹牛！斯坦福最新研究：汤森路透和 LexisNexis 的 AI “幻觉”都很高

您可能也对以下帖子感兴趣

张庆方律师拟被吊销律师证的处罚告知书

国产光刻机进展太慢？重点不是这个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

联调局开始降息 置业者应否入市

光刻机，官宣了！

生成图片，分享到微信朋友圈

不要吹牛！斯坦福最新研究：汤森路透和 LexisNexis 的 AI “幻觉”都很高

您可能也对以下帖子感兴趣

联调局开始降息置业者应否入市