|
前言前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家:https://www.captainbed.cn/zChatGPT体验地址文章目录前言前言正则表达式进行转换送书活动前言在信息爆炸的时代,互联网上的海量文字信息如同无尽的沙滩。然而,其中真正有价值的信息往往埋在各种网页中,需要经过筛选和整理才能被有效利用。幸运的是,Python这个强大的编程语言可以帮助我们完成这项任务。本文将介绍如何使用Python将网页文字转换为Markdown格式,这将使得我们能够更加方便地阅读和处理网页内容。无论是将文章保存为本地文件还是转化为其他格式,Markdown都能够提供清晰简洁的排版和格式,让我们更加专注于内容本身。正则表达式我们将页面进行Maekdown的转换为了保证准确度,我们可以使用正则表达式去修改,如下importre__all__=['Tomd','convert']MARKDOWN={'h1''\n#','\n'),'h2''\n##','\n'),'h3''\n###','\n'),'h4''\n####','\n'),'h5''\n#####','\n'),'h6''\n######','\n'),'code''`','`'),'ul''',''),'ol''',''),'li''-',''),'blockquote':('\n>','\n'),'em':('**','**'),'strong':('**','**'),'block_code':('\n```\n','\n```\n'),'span':('',''),'p':('\n','\n'),'p_with_out_class':('\n','\n'),'inline_p':('',''),'inline_p_with_out_class':('',''),'b':('**','**'),'i':('*','*'),'del':('~~','~~'),'hr':('\n---','\n\n'),'thead':('\n','|------\n'),'tbody':('\n','\n'),'td':('|',''),'th':('|',''),'tr':('','\n')}BlOCK_ELEMENTS={'h1':'
(.*?)
','h2':'
(.*?)
','h3':'
(.*?)
','h4':'
(.*?)
','h5':'
(.*?)
','h6':'
(.*?)
','hr':'','blockquote'.*?)','ul'.*?)','ol'.*?)','block_code'.*?)','p':'
(.*?)','p_with_out_class':'
(.*?)','thead'.*?)','tr'.*?)'}INLINE_ELEMENTS={'td'.*?)','tr'.*?)','th'.*?)','b'.*?)','i':'(.*?)','del':'(.*?)','inline_p':'
(.*?)','inline_p_with_out_class':'
|
|