<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>小加号记事</title>
    <link>https://blog.searchdiff.com/</link>
    <description>Recent content on 小加号记事</description>
    <image>
      <title>小加号记事</title>
      <url>https://blog.searchdiff.com/images/avatar.png</url>
      <link>https://blog.searchdiff.com/images/avatar.png</link>
    </image>
    <generator>Hugo -- 0.146.6</generator>
    <language>en</language>
    <copyright>2025 小加号记事</copyright>
    <lastBuildDate>Thu, 24 Apr 2025 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://blog.searchdiff.com/feed.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Lucene搜索引擎类库介绍</title>
      <link>https://blog.searchdiff.com/posts/introduction-to-lucene/</link>
      <pubDate>Thu, 24 Apr 2025 00:00:00 +0000</pubDate>
      <guid>https://blog.searchdiff.com/posts/introduction-to-lucene/</guid>
      <description>&lt;h2 id=&#34;lucene-简介&#34;&gt;Lucene 简介&lt;/h2&gt;
&lt;p&gt;Lucene 是 Apache 软件基金会的顶级开源项目，是一个用 Java 实现的全文检索类库。它不是一个完整的搜索引擎产品，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。&lt;/p&gt;
&lt;h3 id=&#34;发展历史&#34;&gt;发展历史&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;1997年：Doug Cutting 开始开发 Lucene&lt;/li&gt;
&lt;li&gt;2001年：成为 Apache 开源项目&lt;/li&gt;
&lt;li&gt;2005年：成为 Apache 顶级项目&lt;/li&gt;
&lt;li&gt;现在：广泛应用于各类搜索系统，如 Elasticsearch、Solr 等&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;核心特性&#34;&gt;核心特性&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;高性能&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;倒排索引结构，检索速度快&lt;/li&gt;
&lt;li&gt;增量索引，支持实时搜索&lt;/li&gt;
&lt;li&gt;索引文件小，压缩率高（约为原文件的 20%-30%）&lt;/li&gt;
&lt;li&gt;多线程索引构建，充分利用硬件资源&lt;/li&gt;
&lt;li&gt;缓存机制优化，减少 I/O 操作&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;可扩展性&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;支持多种数据源：文本、PDF、Word、HTML 等&lt;/li&gt;
&lt;li&gt;插件化的文本分析器架构&lt;/li&gt;
&lt;li&gt;自定义评分机制（TF-IDF、BM25 等）&lt;/li&gt;
&lt;li&gt;字段加权和提升因子&lt;/li&gt;
&lt;li&gt;可自定义存储结构&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;高效的搜索算法&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;倒排索引（Inverted Index）实现&lt;/li&gt;
&lt;li&gt;跳跃表（Skip List）优化&lt;/li&gt;
&lt;li&gt;布尔查询优化&lt;/li&gt;
&lt;li&gt;短语查询优化&lt;/li&gt;
&lt;li&gt;相关度排序算法&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;核心概念&#34;&gt;核心概念&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;文档（Document）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;索引和搜索的基本单位&lt;/li&gt;
&lt;li&gt;由多个域（Field）组成&lt;/li&gt;
&lt;li&gt;每个文档都有唯一的文档 ID&lt;/li&gt;
&lt;li&gt;支持动态字段和嵌套结构&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;域（Field）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;StringField：不分词的字符串字段&lt;/li&gt;
&lt;li&gt;TextField：需要分词的文本字段&lt;/li&gt;
&lt;li&gt;NumericField：数值类型字段&lt;/li&gt;
&lt;li&gt;StoredField：仅存储的字段&lt;/li&gt;
&lt;li&gt;自定义字段类型&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;词项（Term）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;索引的最小单位&lt;/li&gt;
&lt;li&gt;由域名和词值组成&lt;/li&gt;
&lt;li&gt;存储在倒排索引中&lt;/li&gt;
&lt;li&gt;支持通配符和模糊匹配&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;索引结构&#34;&gt;索引结构&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;段（Segment）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自包含的倒排索引子集&lt;/li&gt;
&lt;li&gt;不可变性（Immutable）&lt;/li&gt;
&lt;li&gt;定期合并优化&lt;/li&gt;
&lt;li&gt;分段搜索和合并&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;倒排索引组成&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用Cloudflare Pages创建静态博客</title>
      <link>https://blog.searchdiff.com/posts/cloudflare-page-post/</link>
      <pubDate>Tue, 22 Apr 2025 00:00:00 +0000</pubDate>
      <guid>https://blog.searchdiff.com/posts/cloudflare-page-post/</guid>
      <description>详细介绍如何使用Cloudflare Pages和Hugo框架搭建一个免费的静态博客，包括配置、部署和优化等完整步骤</description>
    </item>
  </channel>
</rss>
