Python 实现搜索引擎培训
爬虫基础并利用 Python 的异步特性实现异步的爬虫系统。
而后,会对索引的构建、索引的压缩、排名算法等知识点进行讲解并实现其编码。
后利用异步 web 框架 sanic 构建后端,实现一个完整的垂直搜索引擎站点。
1 搜索引擎架构设计
2 爬虫的基本概念
3 基于 Ruia 构造异步爬虫系统
4 对文档数据进行处理
5 实现倒排索引的压缩
6 异步爬虫框架 Sanic
7 实现前后端交互
8 搜索引擎的必要组件
9 异步爬虫框架 Ruia
10 索引结构的使用
11 实现 ElasGamma 算法的编码与解码
12 文档的搜索功能
13 编写搜索引擎前端
14 搜索结果排名
1
搜索引擎架构
1.介绍本课程实现的搜索引擎的架构设计
2.介绍搜索引擎所必要的组件
3.对课程项目进行开发环境的部署和配置
4.创建项目及必要的代码目录
2
构建爬虫系统
1.爬虫的基本概念
2.异步爬虫框架ruia的使用介绍
3.基于ruia构造异步爬虫系统
3
索引结构的实现
1.索引的基本概念
2.构建倒排索引
3.对文档数据进行处理
4
索引压缩
1.为什么要进行索引压缩
2.倒排索引的优化方法
3.实现EliasGamma算法的编码与解码
4.实现倒排索引的压缩
5.实现文档的搜索功能
5
实现搜索引擎前端以及后端
1.异步Web框架Sanic
2.使用Sanic搭建后端服务
3.编写搜索引擎前端
4.实现前后端交互
6
搜索结果排名
1.CosineSimiliarity
2.PageRank
7
搜索引擎的功能扩展
1.为搜索关键词结果编写页面缓存功能