曙海培训-Python 实现网站信息批量爬取培训

课程大纲：

Python 实现网站信息批量爬取培训

通过 Python 实现一个命令行参数控制的爬虫程序，

可以批量爬取网站的 URLs、JS 文件及其中的端点、

子域名和 DNS 有关的数据信息等，

能够匹配自定义正则表达式的字符串，

还支持将终结果导出为 JSON 格式或 CSV 格式。

1
课程介绍及项目结构

1.项目代码结构解析

2.项目用法演示

2
命令行参数解析

1.命令行终端显示颜色

2.使用argparse模块实现命令行参数解析

3.通过tempfile模块创建临时文件

4.Python中的父子进程

3
请求并返回响应体

1.处理用户提供的URL

2.定义用户代理

3.处理请求并返回响应体

4.从响应体中提取具体的信息

4
爬取及打印输出

1.从robotstxt和sitemapxml文件中提取链接

2.处理URLs并使用线程池来执行函数

3.爬取及打印输出

5
插件及效果演示

1.插件之查找子域名

2.插件之dnsdumpster

3.插件之支持结果导出

4.组合插件

5.效果演示

请登录后发表评论

新评论

全部第1节第2节第3节第4节第5节第6节第7节第8节第9节第10节第11节第12节第13节第14节第15节第16节第17节

我的报告 / 所有报告

我要提问