课程大纲:
Python 实现网站信息批量爬取培训
通过 Python 实现一个命令行参数控制的爬虫程序,
可以批量爬取网站的 URLs、JS 文件及其中的端点、
子域名和 DNS 有关的数据信息等,
能够匹配自定义正则表达式的字符串,
还支持将终结果导出为 JSON 格式或 CSV 格式。
1
课程介绍及项目结构
1.项目代码结构解析
2.项目用法演示
2
命令行参数解析
1.命令行终端显示颜色
2.使用argparse模块实现命令行参数解析
3.通过tempfile模块创建临时文件
4.Python中的父子进程
3
请求并返回响应体
1.处理用户提供的URL
2.定义用户代理
3.处理请求并返回响应体
4.从响应体中提取具体的信息
4
爬取及打印输出
1.从robotstxt和sitemapxml文件中提取链接
2.处理URLs并使用线程池来执行函数
3.爬取及打印输出
5
插件及效果演示
1.插件之查找子域名
2.插件之dnsdumpster
3.插件之支持结果导出
4.组合插件
5.效果演示
请
登录
后发表评论
新评论
全部
第1节
第2节
第3节
第4节
第5节
第6节
第7节
第8节
第9节
第10节
第11节
第12节
第13节
第14节
第15节
第16节
第17节
我的报告 / 所有报告