|
大家好,我是博主英杰,整理了几个常见的爬虫案例,分享给大家,适合小白学习欢迎来到英杰社区https://bbs.csdn.net/topics/617804998一、爬取豆瓣电影排行榜Top250存储到Excel文件 近年来,Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程序,用于抓取豆瓣电影Top250的相关信息,并将其保存为Excel文件。获取网页数据的函数,包括以下步骤:1.循环10次,依次爬取不同页面的信息;2.使用`urllib`获取html页面;3.使用`BeautifulSoup`解析页面;4.遍历每个div标签,即每一部电影;5.对每个电影信息进行匹配,使用正则表达式提取需要的信息并保存到一个列表中;6.将每个电影信息的列表保存到总列表中。 效果展示: 源代码:frombs4importBeautifulSoupimportre#正则表达式,进行文字匹配importurllib.request,urllib.error#指定URL,获取网页数据importxlwt#进行excel操作defmain():baseurl="https://movie.douban.com/top250?start="datalist=getdata(baseurl)savepath=".\\豆瓣电影top250.xls"savedata(datalist,savepath)#compile返回的是匹配到的模式对象findLink=re.compile(r'
|
|