|
在这篇文章中,我们将分享7个Python爬虫的小案例,帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码:1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息,并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求URLurl=''#请求头部headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/58.0.3029.110Safari/537.36'}#解析页面函数defparse_html(html):soup=BeautifulSoup(html,'lxml')movie_list=soup.find('ol',class_='grid_view').find_all('li')formovieinmovie_list:title=movie.find('div',class_='hd').find('span',class_='title').get_text()rating_num=movie.find('div',class_='star').find('span',class_='rating_num').get_text()comment_num=movie.find('div',class_='star').find_all('span')[-1].get_text()writer.writerow([title,rating_num,comment_num])#保存数据函数defsave_data():f=open('douban_movie_top250.csv','a',newline='',encoding='utf-8-sig')globalwriterwriter=csv.writer(f)writer.writerow(['电影名称','评分','评价人数'])foriinrange(10):url=''+str(i*25)+'&filter='response=requests.get(url,headers=headers)parse_html(response.text)f.close()if__name__=='__main__':save_data()2.爬取猫眼电影Top100这个案例使用正则表达式和requests库爬取猫眼电影Top100的电影名称、主演和上映时间等信息,并将这些信息保存到TXT文件中。importrequestsimportre#请求URLurl=''#请求头部headers={'User-Agent':'Mozilla/5.0(WindowsN
|
|