【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《Python网络爬虫与数据采集教学大纲》,欢迎阅读!

Python网络爬虫课程教学大纲
课程代码:
课程名称:Python网络爬虫 /Web Crawler Programming with Python 开课学期:
学分/学时:3/32+16 课程类型:必修/选修 适用专业/开课对象: 先修课程: 开课单位:
团队负责人: 责任教授: 执笔人: 核准院长:
一、课程的性质、目的与任务
《Python网络爬虫》是计算机科学、软件工程等专业中的一项面向实践的课程,与高级 程序设计语言、计算机网络等课程相关。本课程的目标在于使学生循序渐进地了解并掌握网 络爬虫编写,在学习Python编程的基本方法与常见技巧的同时,对网络与Web相关知识也取 得较好的理解。本课程的安排为:介绍Python编程基础知识,之后引入Web与HTML等网络 抓取基本概念,然后详细介绍使用Python处理各类问题的方法,包括网页解析、文件存储、 数据库存储、文本分析等方面。之后进入主体部分即各类爬虫程序的编写,包括静态网页抓 取、动态网页抓取、处理AJAX页面等。最后以几个较为综合的实践课题来让学生应用所学 内容,完成如电商评论分析这样的有一定应用价值的爬虫程序。本课程不仅要求学生掌握知 识与理论,还要求学生动手实践,鼓励学生自主探索,培养对于技术以及应用场景的理解。 二、教学内容及教学基本要求
1. Python语言及编程基础(4学时)
了解Python语言的基本知识,学会Python的安装与开发环境配置,包括Windows与Ubuntu 等不同系统平台上的安装与配置;了解PyCharm与Jupyter Notebook等重要开发工具的使用; 掌握Python的基本语法,理解Python中的数据类型、逻辑语句、函数与类(面向对象编程); 学会进阶学习Python的方法;
2. HTTP与Web(4学时)
了解互联网与HTTP协议;掌握HTML语言的基本知识;了解网络访问过程中的信息处 理过程;掌握分析网站的基本方法;学会使用浏览器的开发者工具来分析网站;
3. 爬虫程序入门(2学时)
了解爬虫程序的基本概念;掌握爬虫程序的基本方法;
4. 数据采集方法(4学时)
了解包括正则表达式、BeautifulSoup、XPath等在内的网页解析工具;掌握遍历网站页 面与使用网站所提供的API来获取数据的方法;
5. 文件与数据存储(4学时)
掌握使用Python进行文件读写的方法;掌握Python中字符串的处理;了解Python中对图 片的各类操作;掌握CSV文件的读写;掌握MySQL、SQLite3等不同数据库的使用。
6. JavaScript与动态网页(4学时)
了解JavaScript语言的基本知识;掌握AJAX技术的基本概念;掌握抓取AJAX数据的各 类方法;了解Selenium等浏览器自动化工具的使用;
7. 表单与模拟登录(2学时)
讲解处理表单的方法;讲述使用Cookie等方法进行模拟登录;
1
8. 数据分析(2学时)
讲述使用Python进行文本分析、数据处理等各类高级问题的方法。 9. 爬虫框架与各类爬虫程序(4学时)
讲述常见的爬虫框架使用;讲解各类多样化爬虫程序;
10. 网站反爬虫(2学时)
讲述常见的网站反爬虫策略;了解应对反爬虫的方法;编写高性能的爬虫程序。 11. 爬虫综合实践(?学时)
编写处理实际需求的爬虫程序,完成对各类网站的抓取,获得有价值的信息。 三、教学方法
本课程以教师讲授为主,同时注重学生讨论和实验。实验以个人作业、团队作业等形式 体现。具体要点包括:
1. 因本课程实践性较强,因此应注意教师授课与学生实验并重。本课程拟采取PPT的教学方 式,并加入课程知识相关的信息,由于网络爬虫技术本身发展速度很快,且贴近日常网络生 活,因此在材料选择上尤其注意时效性。
2. 对于课程中涉及的程序案例,鼓励学生进行讨论,并提出自己的创意。
3. 为体现面向实践的课程特点,本课程在每部分结束后安排实验作业,帮助学生将所学知 识动手应用。
四、课内外教学环节及基本要求
本课程共 32+16 个学时,理论 32 个学时,讲授 16 周(每周 2 学时);实验 16 个学时。 课外学习要求:
1. 做好预习,学生预习时以教材与推荐阅读材料为主。
2. 要求学生课外积极探索课程相关知识,向学生推荐的阅读参考资料以本大纲所列出参考 资料为主。
3. 强调实验内容的重要性,并对学生每次完成的实验作业进行反馈(包括打分、意见、学 生互评等)。
五、考核内容及方式
本课程成绩由平时成绩、实验成绩和期末考核成绩组合而成,课程成绩以百分制计算, 分配比例如下:
1. 平时成绩占20%,主要考察理论课与实验课出勤率,其中理论作业占10%,理论课出勤率 占比5%,实验课出勤率占比5%。
2. 实验成绩占50%,主要考察实践项目的完成度。最终实验成绩取所有实验成绩的平均数。 3. 期末成绩占30%,采用考试的考核方式。考试采用闭卷形式,题型为选择题、正确/错误 题、填空题、简答题。 六、持续改进
本课程根据学生作业、课堂讨论、平时考核情况和学生、教学督导等反馈,及时对教学 中不足之处进行改进,并在下一轮课程教学中有所提高。 七、建议教材及参考资料 建议教材:
[1] Python网络爬虫数据采集
2
本文来源:https://www.dy1993.cn/I0aG.html