找回密码
 会员注册
查看: 40|回复: 0

课程设计——基于python爬虫的招聘岗位大数据分析及可视化系统设计与实现

[复制链接]

2万

主题

0

回帖

6万

积分

超级版主

积分
64080
发表于 2024-9-13 12:38:24 | 显示全部楼层 |阅读模式
完整资源获取点击下载完整资源1、资源项目源码均已通过严格测试验证,保证能够正常运行;2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通;3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。相关需求库certifi2022.6.15charset-normalizer2.1.1click8.1.3colorama0.4.5fake-useragent0.1.11Flask2.2.2greenlet1.1.3idna3.3importlib-metadata4.12.0itsdangerous2.1.2Jinja23.1.2MarkupSafe2.1.1PyMySQL1.0.2requests2.28.1SQLAlchemy1.4.40typing-extensions4.3.0urllib31.26.12Werkzeug2.2.2zipp==3.8.1爬取后数据样例:数据采集:爬虫概述:(1)通过分析网页的url和网页对浏览器发送请求的反馈结果,构造出动态页面访问的url为:https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,{}.html。(2)把所有的请求信息集中到Handletencent这一个方法中,包含cookies、headers(请求头)、params(代理信息)。(3)通过读取txt文件获取到所有的城市,然后通过列表生成器生成一个列表,并把所有城市装进该列表中;(4)构造for循环通过城市分组的方式来爬取每一个网页中Python岗位信息。(5)为了节约爬取时间,利用multiprocessing中的Process动态生产多个进程,使爬取速度加快爬虫部分程序:爬取51job招聘网站(51job网站的反扒措施比较轻,因此选择该招聘网站)关键代码:数据存储在数据抓取以及将数据预处理存入到数据库的整个过程中采用的是Session会话管理技术。关于Python与MySQL的连接是通过Python的sqlalchemy模块进行的。先在头文件中导入sqlalchemy模块,然后使用固定的连接语句engine=create_engine(“mysql+pymysql”://root@localhost:端口号/数据库名称)来与数据库进行连接。然后通过定义好的数据库字段名称以及字段大小来创建数据库表连接数据库:创建数据库表字段在存储数据之前,先来查询一下表里是否有这条岗位信息query_result=self.mysql_session.query(tencenttables).filter(tencenttables.crawl_date==date,tencenttables.positionID==int(item['jobid'])).first()ifquery_result:print('该岗位信息已存在%s:%s:%s'%(item['jobid'],item['workarea_text'],item['job_name']))else:#插入数据self.mysql_session.add(data)#提交数据到数据库self.mysql_session.commit()print('新增岗位信息%s'%item['jobid'])time.sleep(1)12由于爬取的数据再次重新爬取的话,数据库中可能会有重复的数据,因此在插入数据库之前就定义一个度量,时期先查询一下数据库中是否有这条记录,这样可以避免重复数据的插入数据可视化及分析展示采用Flask框架,展示效果:(1)图形制作:每一个图表定义一个Function,每一个Function中包含一个option对象。通过option对象对该图表的一些属性进行相关的设置,例如title、series、type以及本图表的数据data等相关属性,然后通过myChart.setOption(option)将该option对象设置给图表。(2)flask路由数据传输定义一个页面将数据库中查询出来的数据存到一个info列表里面,然后每一个图形里面的数据通过调用info列表中定义好的字段数据来分别显示每一种数据类型数据挖掘与分析薪酬预测
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-26 11:24 , Processed in 0.404156 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表