本书是一本通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的 Python 读物。书中案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的“码农”,数据就是沃土,没有数据,我们将无田可耕。 本书共分 11 章, 6 个核心主题:其一是 Python 基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是 Python 爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、效率优化、容错处理、 反防爬虫、 表单交互和模拟页面点击; 其三是 Python 数据库应用, 包括 MongoDB、 MySQL 在 Python中的连接与应用;其四是数据清洗和组织,包括 NumPy 数组知识、 pandas 数据的读写、分组变形、缺失值异常值处理、时序数据处理和正则表达式的使用;其五是综合应用案例,帮助读者贯穿爬虫、数据清洗与组织的过程;最后是数据可视化,包括 Matplotlib 和 Pyecharts 两个库的使用,涉及饼图、柱形图、线图、词云图、地图等图形,帮助读者进入可视化的殿堂。 本书以实战为主,适合 Python 初学者及高等院校的相关专业学生,也适合 Python 培训机构作为实验教材使用。
作者介绍
前言
第1章 Python基础
1.1 安装Python环境
1.2 Python操作入门
1.3 Python数据类型
1.4 Python语句与函数
第2章 写一个简单的爬虫
2.1 关于爬虫的合法性
2.2 了解网页
2.3 使用requests库请求网站
2.4 使用BeautifulSoup解析网页
2.5 清洗和组织数据
2.6 爬虫攻防战
第3章 用API爬取天气预报数据
3.1 注册免费API和阅读技术文档
3.2 获取API数据
3.3 存储数据到MongoDB
3.4 MongoDB数据库查询
第4章 大型爬虫案例:抓取某电商网站的商品数据
4.1 观察页面特征和解析数据
4.2 工作流程分析
4.3 构建类目树
4.4 获取产品列表
4.5 代码优化
4.6 爬虫效率优化
4.7 容错处理
第5章 Scrapy爬虫
5.1 Scrapy简介
5.2 Scrapy安装
5.3 案例:用Scrapy抓取股票行情
第6章 Selenium爬虫
6.1 Selenium简介
6.2 案例:用Selenium抓取电商网站数据
第7章 数据库连接和查询
7.1 使用PyMySQL
7.2 使用SQLAlchemy
7.3 MongoDB
第8章 NumPy
8.1 NumPy简介
8.2 一维数组
8.3 多维数组
8.4 数组的运算
第9章 pandas数据清洗
9.1 数据读写、选择、整理和描述
9.2 数据分组、分割、合并和变形
9.3 缺失值、异常值和重复值处理
9.4 时序数据处理
9.5 数据类型转换
9.6 正则表达式
第10章 综合应用实例
10.1 按性价比给用户推荐旅游产品
10.2 通过热力图分析为用户提供出行建议
第11章 数据可视化
11.1 matplotlib
11.2 pyecharts

