找回密码
 会员注册
查看: 15|回复: 0

Python商业数据挖掘实战——爬取网页并将其转为Markdown

[复制链接]

7

主题

0

回帖

22

积分

新手上路

积分
22
发表于 2024-9-6 23:30:32 | 显示全部楼层 |阅读模式
前言前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家:https://www.captainbed.cn/zChatGPT体验地址文章目录前言前言正则表达式进行转换送书活动前言在信息爆炸的时代,互联网上的海量文字信息如同无尽的沙滩。然而,其中真正有价值的信息往往埋在各种网页中,需要经过筛选和整理才能被有效利用。幸运的是,Python这个强大的编程语言可以帮助我们完成这项任务。本文将介绍如何使用Python将网页文字转换为Markdown格式,这将使得我们能够更加方便地阅读和处理网页内容。无论是将文章保存为本地文件还是转化为其他格式,Markdown都能够提供清晰简洁的排版和格式,让我们更加专注于内容本身。正则表达式我们将页面进行Maekdown的转换为了保证准确度,我们可以使用正则表达式去修改,如下importre__all__=['Tomd','convert']MARKDOWN={'h1''\n#','\n'),'h2''\n##','\n'),'h3''\n###','\n'),'h4''\n####','\n'),'h5''\n#####','\n'),'h6''\n######','\n'),'code''`','`'),'ul''',''),'ol''',''),'li''-',''),'blockquote':('\n>','\n'),'em':('**','**'),'strong':('**','**'),'block_code':('\n```\n','\n```\n'),'span':('',''),'p':('\n','\n'),'p_with_out_class':('\n','\n'),'inline_p':('',''),'inline_p_with_out_class':('',''),'b':('**','**'),'i':('*','*'),'del':('~~','~~'),'hr':('\n---','\n\n'),'thead':('\n','|------\n'),'tbody':('\n','\n'),'td':('|',''),'th':('|',''),'tr':('','\n')}BlOCK_ELEMENTS={'h1':' (.*?) ','h2':' (.*?) ','h3':' (.*?) ','h4':' (.*?) ','h5':' (.*?) ','h6':' (.*?) ','hr':'','blockquote'.*?)','ul'.*?)','ol'.*?)','block_code'.*?)','p':' (.*?)','p_with_out_class':' (.*?)','thead'.*?)','tr'.*?)'}INLINE_ELEMENTS={'td'.*?)','tr'.*?)','th'.*?)','b'.*?)','i':'(.*?)','del':'(.*?)','inline_p':' (.*?)','inline_p_with_out_class':'
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2025-1-10 18:59 , Processed in 0.421040 second(s), 26 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表