在《全宋诗》的开发中,我们需要检索出重出诗,需要标识词的格律,需要检索出内容相似的诗作,需要检索形式相近的诗作,Boolean Model已不能满足这方面需要。所以,我们参考Cornell大学Salton教授开发的“向量空间模型”(Vector Space Model),它与Boolean Model不同,它把查询项和数据库中的信息显示为检索构成的向量空间中的点。这样,我们可以通过计算向量之间的距离来判断原数据与检索项的相似度,这便是“格律诗标识”和“相似诗检索”的基础。如果达到一定的“相似度”,也就是根据向量夹角的余弦值,就可以确定这是一首重出诗或仅是一定程度上的相似诗。这一算法在宋诗的运用中比较成功,然而在未来海量的数据处理中,面对不同类型的数据,这种模型还要进一步完善。我们相信在未来唐宋诗的自动切分语词或语料库的整理中,这种模型会发挥更大的作用。