chap 1-Boolean retrieval

布尔检索模型

目标:在目标语料库中查询出现某些词和不出现某些词的文章,即通过具有精确语义的逻辑表达式来构建查询

  1. 词项-文档关联矩阵

  2. 倒排序索引

    1. 收集需要建立索引的文档
    2. 将文章词条化
    3. 词条归一化
    4. 建立倒排序索引

    存储方式:词典在内存,倒排记录表在磁盘

  3. 查询优化

    改变处理交集的次序来提升处理速度,一般根据每个词语的文档频率来作为改变合并次序的原则:两个两个合并,从小到大逐渐合并

  4. 对基本布尔操作的扩展

    1. 临近操作符:限制待查询的两个词之间的距离;即“/s”表示位于同一个句子中,"/k"表示距离K个词之内,"/p"表示位于同一个段落中
    2. 短语查询

布尔检索模型的改进方向

  1. 对返回结果进行排序
  2. 对短语进行搜索,而不是单个词
  3. 对于词典内的单词,能够容忍不同的形式和错拼
  4. 引入词频统计来验证搜索的可信度
作者

Xdren

发布于

2020-09-07

更新于

2021-03-01

许可协议

评论