《网络数据采集技术:Java网络爬虫实战》以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。 《网络数据采集技术:Java网络爬虫实战》适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。

作者

钱洋 

合肥工业大学管理科学与工程系博士、CSDN博客专家。作为技术人员参与过多个横向、纵向学术课题,负责数据采集系统的设计与开发工作。在CSDN(博客名称:HFUT_qianyang)上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客。 

姜元春 

合肥工业大学教授、博士生导师。长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作。先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作。


查看全部
目录

前言

第1章 网络爬虫概述与原理

1.1 网络爬虫简介

1.2 网络爬虫分类

1.3 网络爬虫流程

1.4 网络爬虫的采集策略

1.5 学习网络爬虫的建议

1.6 本章小结

第2章 网络爬虫涉及的Java基础知识

2.1 开发环境的搭建

2.2 基本数据类型

2.3 数组

2.4 条件判断与循环

2.5 集合

2.6 对象与类

2.7 String类

2.8 日期和时间处理

2.9 正则表达式

2.10 Maven工程的创建

2.11 log4j的使用

2.12 本章小结

第3章 HTTP协议基础与网络抓包

3.1 HTTP协议简介

3.2 URL

3.3 报文

3.4 HTTP请求方法

3.5 HTTP状态码

3.6 HTTP信息头

3.7 HTTP响应正文

3.8 网络抓包

3.9 本章小结

第4章 网页内容获取

4.1 Jsoup的使用

4.2 HttpClient的使用

4.3 URLConnection与HttpURLConnection

4.4 本章小结

第5章 网页内容解析

5.1 HTML解析

5.2 XML解析

5.3 JSON解析

5.4 本章小结

第6章 网络爬虫数据存储

6.1 输入流与输出流

6.2 Excel存储

6.3 MySQL数据存储

6.4 本章小结

第7章 网络爬虫实战项目

7.1 新闻数据采集

7.2 企业信息采集

7.3 股票信息采集

7.4 本章小结

第8章 Selenium的使用

8.1 Selenium简介

8.2 JavaSelenium环境搭建

8.3 浏览器的操控

8.4 元素定位

8.5 模拟登录

8.6 动态加载JavaScript数据(操作滚动条)

8.7 隐藏浏览器

8.8 截取验证码

8.9 本章小结

第9章 网络爬虫开源框架

9.1 Crawler4j的使用

9.2 WebCollector的使用

9.3 WebMagic的使用

9.4 本章小结

查看全部
书评
查看更多
请您登录后发表评论 登录 | 注册
我的评分:
提交
0/400