曙海培训-Python爬虫及文本分析学术应用培训

课程目录：Python爬虫及文本分析学术应用培训

4401 人关注

（78637/99817）

课程大纲

课程大纲：

          Python爬虫及文本分析学术应用培训

Python爬虫及文本分析学术应用
爬虫与文本分析概述
结构化数据/文本数据的获取方法概述

高效的编程语言实现结构化数据处理与文本分析的价值，文本分析简介

python编程基础
标准数据类型

控制流

自定义函数

类

os文件处理模块

python重要数据科学计算库
Numpy

Pandas

Matplotlib

Pyecherts

wordcloud

爬虫基础
网络爬虫简介

爬虫的基本原理

HTML 简介

数据存储

网页抓取
使用Urllib网页抓取

requests实战

BeautifulSoup4
BeautifulSoup 简介

BeautifulSoup 的安装

BS 对象的种类

遍历文档树

搜索文档树

Xpath
什么是Xpath

Xpath开发工具

Xpath常用规则

动态渲染页面抓取
Selenium 的安装

基本使用

声明浏览器对象

访问页面

定位元素

节点交互

动作链

执行 JavaScript

获取节点信息

延时等待

前进后退

Cookies

选项卡管理

异常处理

爬虫实战
网站的爬取

电商评价文本爬取

可供读取数据类型介绍
excel、pdf、txt、html、mysql数据库文件介绍

数据的存储
将数据存储到excel表

将数据存储到txt文本

将数据存储到csv

数据的读取
python批量读取多个多子表excel

python读取txt文件

python读取csv

正则表达式
什么是正则表达式

正则表达式匹配规则

re模块的使用

文本处理常用字符串方法精讲
字符串的不变性

排序行

段落格式化

二进制转化为ASCII

重复字词过滤

提取邮件地址

提取URL地址

大写转换

符号化

删除停用词

同义词与反义词处理

文本翻译

单词替换

拼写检查

WordNet接口

语料访问

标记单词

块和裂口

块分类

文本分类

双字母组

文字改写

文字换行

频率分布

文字摘要

词干算法

约束搜索

numpy数值计算要点串讲

Pandas数据处理串讲

python统计图表展示

重要的库
jieba库简介

关键词提取
关键词任务概述

TF-IDF算法原理

相似文章推荐原理介绍

实例：红楼梦文本分析的实现

文件与词库的读取

完成分词与词云图的绘制

文本分类
新闻素材介绍

新闻内容的关键词提取

词向量转化与ngram模型

朴素贝叶斯算法完成新闻分类

文本聚类
语料的加载，文本特征的提取，利用聚类算法对文本进行聚类

主题模型，情感分析

课程教师

曙海专家讲师

曙海的讲师队伍名校博士、硕士学历的工程师占绝大多数，他们大部分为上海贝尔，TI德州仪器，华为，中科院，中兴，Xilinx,Intel英特尔,NI公司，Cadence公司,Synopsys，IBM，Altera，Oracle，synopsys，微软，飞思卡尔等大型公司高级工程师，项目经理，技术支持专家，他们有着深厚的专业技能和技术素养，丰富的项目实战经验，基本上都有十多年实际项目经验，开发过多个大型项目。

针对客户实际需求，案例教学，边讲边练，互动式授课，曙海的专家讲师以专业、敬业的精神，倾囊相授，不辜负每个学员的托付和期望。

进阶课程

实用Linux Shell编程 Vim编辑器 Linux命令实例练习

Copyright @2002-2024 曙海教育集团 | 沪ICP备08026168号