文章目录
- 搜索结果的结构
- 下载我们需要的数据
- 分析html结构
- 数据处理
-
- 去标签之标题
- 去标签之正文内容
- 构造url
- 把上述的数据清理操作对每一个文件都做一遍
- 把处理好的数据都保存到一个.bin文件
- 构建正排索引
- 构建倒排索引
-
- 使用cpp-jieba分词
- 计算每个文档中的每个词的权重
- 对所有文档都进行上述的建立正排与倒排索引操作
- Search模块
- http server模块
-
- cpp-httplib
- 拿参,并且调用我们的search返回我们的json串
- 最终结果
C++实现网站内搜索功能文章目录 搜索结果的结构 下载我们需要的数据 分析 html 结构 数据处理 去标签之标题 去标签之正文内容 构造 url 把上述的数据清理操作对每一个文件都做一遍 把处理好的数据都保存到一个 bin 文件 构建正排索引 构建倒排索引 使用 cpp jieba 分词 计算每个文档中的每个词的权重 对所有文档都进行上述的建立正排与倒排索引操作 Search 模块 http server 模块
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/31867.html