chap 1-Boolean retrieval
布尔检索模型
目标:在目标语料库中查询出现某些词和不出现某些词的文章,即通过具有精确语义的逻辑表达式来构建查询
词项-文档关联矩阵
倒排序索引
- 收集需要建立索引的文档
- 将文章词条化
- 词条归一化
- 建立倒排序索引
存储方式:词典在内存,倒排记录表在磁盘
查询优化
改变处理交集的次序来提升处理速度,一般根据每个词语的文档频率来作为改变合并次序的原则:两个两个合并,从小到大逐渐合并
对基本布尔操作的扩展
- 临近操作符:限制待查询的两个词之间的距离;即“/s”表示位于同一个句子中,"/k"表示距离K个词之内,"/p"表示位于同一个段落中
- 短语查询
布尔检索模型的改进方向
- 对返回结果进行排序
- 对短语进行搜索,而不是单个词
- 对于词典内的单词,能够容忍不同的形式和错拼
- 引入词频统计来验证搜索的可信度
chap 1-Boolean retrieval
https://xdren69.github.io/2020/09/07/information-retrieval-ch1/