Python网络爬虫与数据采集教学大纲

2022-11-28 19:22:20   第一文档网     [ 字体: ] [ 阅读: ] [ 文档下载 ]

#第一文档网# 导语】以下是®第一文档网的小编为您整理的《Python网络爬虫与数据采集教学大纲》,欢迎阅读!
爬虫,教学大纲,数据采集,Python,网络
Python网络爬虫课程教学大纲

课程代码:

课程名称:Python网络爬虫 Web Crawler Programming with Python 开课学期:

学分/学时:3/32+16 课程类型:必修/选修 适用专业/开课对象: 先修课程 开课单位:

团队负责人: 责任教授: 执笔人: 核准院长:

一、课程的性质、目的与任务

Python网络爬虫》是计算机科学软件工程等专业中的一项面向实践的课程,与高级 程序设计语言、计算机网络课程相关。本课程的目标在于使学生循序渐进地了解并掌握网 络爬虫编写,在学习Python编程的基本方法与常见技巧的同时,对网络Web相关知识也取 得较好的理解。本课程的安排为:介绍Python编程基础知识,之后引入WebHTML网络 抓取基本概念,然后详细介绍使用Python处理各类问题的方法,包括网页解析、文件存储、 数据库存储、文本分析等方面。之后进入主体部分即各类爬虫程序的编写,包括静态网页抓 取、动态网页抓取、处理AJAX页面等。最后以几个较为综合的实践课题来让学生应用所学 内容,完成如电商评论分析这样的有一定应用价值的爬虫程序。本课程不仅要求学生掌握知 识与理论,还要求学生动手实践,鼓励学生自主探索,培养对于技术以及应用场景的理解。 二、教学内容及教学基本要求

1. Python语言及编程基础(4学时)

了解Python语言的基本知识,学会Python的安装与开发环境配置,包括WindowsUbuntu 等不同系统平台上的安装与配置;了解PyCharmJupyter Notebook等重要开发工具的使用; 掌握Python的基本语法,理解Python中的数据类型、逻辑语句、函数与类(面向对象编程); 学会进阶学习Python的方法;

2. HTTPWeb4学时)

了解互联网HTTP协议;掌握HTML语言的基本知识;了解网络访问过程中的信息 理过程;掌握分析网站的基本方法;学会使用浏览器的开发者工具来分析网站;

3. 爬虫程序入门(2学时)

了解爬虫程序的基本概念;掌握爬虫程序的基本方法;

4. 数据采集方法(4学时)

了解包括正则表达式、BeautifulSoupXPath等在内的网页解析工具;掌握遍历网站页 面与使用网站所提供的API来获取数据的方法;

5. 文件与数据存储(4学时)

掌握使用Python进行文件读写的方法;掌握Python中字符串的处理;了解Python中对图 片的各类操作;掌握CSV文件的读写;掌握MySQLSQLite3等不同数据库的使用。

6. JavaScript动态网页(4学时)

了解JavaScript语言的基本知识;掌握AJAX技术的基本概念;掌握抓取AJAX数据的各 类方法;了解Selenium等浏览器自动化工具的使用;

7. 表单与模拟登录(2学时)

讲解处理表单的方法;讲述使用Cookie等方法进行模拟登录;

1


8. 数据分析(2学时)

讲述使用Python进行文本分析、数据处理等各类高级问题的方法。 9. 爬虫框架与各类爬虫程序(4学时)

讲述常见的爬虫框架使用;讲解各类多样化爬虫程序;

10. 网站反爬虫(2学时)

讲述常见的网站反爬虫策略;了解应对反爬虫的方法;编写高性能的爬虫程序。 11. 爬虫综合实践(?学时)

编写处理实际需求的爬虫程序,完成对各类网站的抓取,获得有价值的信息 三、教学方法

课程以教师讲授为主,同时注重学生讨论和实验。实验以个人作业、团队作业等形式 体现。具体要点包括:

1. 因本课程实践性较强,因此应注意教师授课与学生实验并重。本课程拟采取PPT教学 式,并加入课程知识相关的信息,由于网络爬虫技术本身发展速度很快,且贴近日常网络 活,因此在材料选择上尤其注意时效性。

2. 对于课程中涉及的程序案例,鼓励学生进行讨论,并提出自己的创意

3. 为体现面向实践的课程特点,本课程在每部分结束后安排实验作业,帮助学生将所学知 识动手应用

四、课内外教学环节及基本要求

课程 32+16 个学时,理论 32 个学时,讲授 16 周(每周 2 学时);实验 16 个学时。 课外学习要求:

1. 做好预习,学生预习时以教材与推荐阅读材料为主。

2. 要求学生课外积极探索课程相关知识,向学生推荐的阅读参考资料以本大纲所列出参考 资料为主。

3. 强调实验内容的重要性,并对学生每次完成的实验作业进行反馈(包括打分、意见、学 生互评等)。

五、考核内容及方式

课程成绩由平时成绩、实验成绩和期末考核成绩组合而成,课程成绩以百分制计算, 分配比例如下:

1. 平时成绩占20%,主要考察理论课与实验课出勤率,其中理论作业占10%理论课出勤率 占比5%,实验课出勤率占比5%

2. 实验成绩占50%,主要考察实践项目的完成度。最终实验成绩取所有实验成绩的平均数。 3. 期末成绩占30%,采用考试的考核方式。考试采用闭卷形式,题型为选择题、正确/错误 题、填空题、简答题。 六、持续改进

课程根据学生作业、课堂讨论、平时考核情况和学生、教学督导等反馈,及时对教学 中不足之处进行改进,并在下一轮课程教学中有所提高。 七、建议教材及参考资料 建议教材:

[1] Python网络爬虫数据采集

2


本文来源:https://www.dy1993.cn/I0aG.html

相关推荐