年初大模型行业上演 ” 长文本 ” 大战时,我们就萌生过做一个 ” 读书助理 ” 的想法。测试了市面上主流的大模型后,发现普遍存在两个不足:
一种是可以处理的文本长度不够,即使有些大模型将文本长度提升到了 20 万字,像《红楼梦》这样近百万字的名著,还是需要多次才能 ” 读 ” 完。
另一种是语言理解和生成能力不足,经常出现 ” 幻觉 “。” 长文本 ” 的特点不仅仅是长,还涉及到复杂的逻辑和文本语义,需要更连贯、相关的响应。
直到前两天,一位做 AIGC 的朋友向我们同步了一个新消息:” 智谱 AI 开放平台默默上线了为处理超长文本和记忆型任务设计的 GLM-4-Long,支持 1M 上下文。”100 万上下文长度到底意味着什么呢?我们找来了另外两个大模型,用 120 回版本的《红楼梦》(大约有 73 万个汉字)进行了简单对比:
月之暗面 128K 的大模型,每次可以处理 6.4 万个汉字,需要 12 次才能读完;Claude 200K 的大模型,每次可以处理 10 万个汉字,需要 8 次才能读完;GLM-4-Long 实测可以处理 150-200 万字,一次就能读完一本《红楼梦》。
不过,文本长度只是一个入门能力,能否扮演起 ” 读书助理 ” 的角色,必须要确保能够从大量文本中准确检索信息,特别是当某些关键信息被置于文档的深处时,以及出色的推理和内容生成能力。
于是我们对 GLM-4-Long 进行了深度测试。
01 两分钟 ” 熟读 ” 钱穆先生的《国史大纲》
大约是 5 年前,我们购买了钱穆先生的《国史大纲》,商务印书馆的繁体竖排版。因为是用大学教科书体例写成,学术味儿比较浓,再加上钱穆先生精炼的文笔风格,至今都没有完整读完。
GLM-4-Long 能否胜任 ” 书童 ” 的角色呢?
我们调用了 GLM-4-Long 的 API 接口,读取了 50 多万字的电子版《国史大纲》,然后针对性地问了三个问题:
第一个问题:请总结这篇文档中每个部分的主要内容
原书目录中只罗列了每个章节的标题,希望通过这个问题验证大模型是否处理了文档的全部信息,对内容的理解和总结生成能力。
从输出的结果来看,不仅准确整理出了每个章节的核心内容,还按照现在比较主流的纪年方式,将全书内容拆分为上古文化、春秋战国、秦汉、魏晋南北朝、隋唐五代、两宋、元明、清代等 8 个部分,内容准确度超过 99%,仅仅是 ” 两宋之部 ” 在小标题上被列举了两次(可以通过模型微调进行优化)。
第二个问题:” 秦汉国力与对外形势 ” 在文档哪个部分?
这是一个迷惑性比较强的问题,因为第七章和第八章都讲了相关背景,但钱穆先生放在了第十一章进行重点介绍。
