• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Lucene学习总结之五:细述Lucene的索引文件格式(2)

mysql 搞代码 4年前 (2022-01-09) 12次浏览 已收录 0个评论

IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED); writer.setUseCompoundFile(false); indexDocs(writer, docDir); writer.flush(); //flush

IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED);
writer.setUseCompoundFile(false);

indexDocs(writer, docDir);
writer.flush();

//flush生成segment “_0″,并且flush函数中,flushDocStores设为false,也即下个段将同本段共享域和词向量信息,这时DocumentsWriter中的docStoreSegment= “_0″。

indexDocs(writer, docDir);
writer.commit();

//commit生成segment “_1″,由于上次flushDocStores设为false,于是段”_1″的域以及词向量信息是保存在”_0″中的,在这个时刻,段”_1″并不生成自己的”_1.fdx”和”_1.fdt”。然而在commit函数中,flushDocStores设为true,也即下个段将单独使用新的段来存储域和词向量信息。然而这时,DocumentsWriter中的docStoreSegment= “_1″,也即当段”_2″存储其域和词向量信息的时候,是存在”_1.fdx”和”_1.fdt”中的,而段”_1″的域和词向量信息却是存在”_0.fdt”和”_0.fdx”中的,这一点非常令人困惑。 如图writer.commit的时候,_1.fdt和_1.fdx并没有形成。

indexDocs(writer, docDir);
writer.flush();

//段”_2″形成,由于上次flushDocStores设为true,其域和词向量信息是新创建一个段保存的,却是保存在_1.fdt和_1.fdx中的,这时候才产生了此二文件。

indexDocs(writer, docDir);
本文来源gao($daima.com搞@代@#码8网^ writer.flush();

//段”_3″形成,由于上次flushDocStores设为false,其域和词向量信息是共享一个段保存的,也是是保存在_1.fdt和_1.fdx中的

indexDocs(writer, docDir);
writer.commit();

//段”_4″形成,由于上次flushDocStores设为false,其域和词向量信息是共享一个段保存的,也是是保存在_1.fdt和_1.fdx中的。然而函数commit中flushDocStores设为true,也意味着下一个段将新创建一个段保存域和词向量信息,此时DocumentsWriter中docStoreSegment= “_4″,也表明了虽然段”_4″的域和词向量信息保存在了段”_1″中,将来的域和词向量信息却要保存在段”_4″中。此时”_4.fdx”和”_4.fdt”尚未产生。

indexDocs(writer, docDir);
writer.flush();

//段”_5″形成,由于上次flushDocStores设为true,其域和词向量信息是新创建一个段保存的,却是保存在_4.fdt和_4.fdx中的,这时候才产生了此二文件。

indexDocs(writer, docDir);
writer.commit();
writer.close();

//段”_6″形成,由于上次flushDocStores设为false,其域和词向量信息是共享一个段保存的,也是是保存在_4.fdt和_4.fdx中的


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Lucene学习总结之五:细述Lucene的索引文件格式(2)

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址