课程名称:Python 实现网站信息批量爬取培训

4401 人关注
(78637/99817)
课程大纲:

Python 实现网站信息批量爬取培训

 

 

通过 Python 实现一个命令行参数控制的爬虫程序,

可以批量爬取网站的 URLs、JS 文件及其中的端点、

子域名和 DNS 有关的数据信息等,

能够匹配自定义正则表达式的字符串,

还支持将终结果导出为 JSON 格式或 CSV 格式。

1
课程介绍及项目结构

1.项目代码结构解析

2.项目用法演示

2
命令行参数解析

1.命令行终端显示颜色

2.使用argparse模块实现命令行参数解析

3.通过tempfile模块创建临时文件

4.Python中的父子进程

3
请求并返回响应体

1.处理用户提供的URL

2.定义用户代理

3.处理请求并返回响应体

4.从响应体中提取具体的信息

4
爬取及打印输出

1.从robotstxt和sitemapxml文件中提取链接

2.处理URLs并使用线程池来执行函数

3.爬取及打印输出

5
插件及效果演示

1.插件之查找子域名

2.插件之dnsdumpster

3.插件之支持结果导出

4.组合插件

5.效果演示


登录 后发表评论
新评论
全部 第1节 第2节 第3节 第4节 第5节 第6节 第7节 第8节 第9节 第10节 第11节 第12节 第13节 第14节 第15节 第16节 第17节
我的报告 / 所有报告