找回密码
 会员注册
查看: 29|回复: 0

PythonDrissionPage爬虫linux部署说明centos

[复制链接]

5

主题

0

回帖

16

积分

新手上路

积分
16
发表于 2024-9-4 19:33:09 | 显示全部楼层 |阅读模式
目前DrissionPage是装在linuxcentos系统上面的浏览器用的是115版本最新的chrome浏览器DrissionPage插件官网地址:http://g1879.gitee.io/drissionpagedocs/1,安装pip3installDrissionPage12,表示引入主程序fromDrissionPageimportChromiumPage13,设置调用浏览器地址只需要执行一次生成配置文件即可fromDrissionPage.easy_setimportset_paths1#表示调用浏览器的地址是多少Windows地址示例set_paths(browser_path=r'C:/Users/AAA/AppData/Local/Google/Chrome/Application/chrome.exe')#windows的直接找chrome.exe文件1Linux地址示例set_paths(browser_path=r'/opt/google/chrome/google-chrome')#一般linux安装的google浏览器默认都在这个目录14,最重要的一步设置不显示浏览器调用访问,只需要在linux环境上打开注释即可fromDrissionPage.easy_setimportset_headless,set_pathsset_headless(True)125,最重要的一步程序必须引入此配置表示无头加载6,ini配置说明默认windows是不需要管的,只需要linux的时候设置一下注意端口不要冲突和chromedriver地址即可服务器linux地址为/usr/local/python3/lib/python3.7/site-packages/DrissionPage/configs11,表示chrome对应版本的chromedriver地址2,表示debug模式启动的端口,注意如果部署了selenium端口不要冲突了默认是9222修改成9211或者其他都可以3,表示chrome对应的安装地址,一般不需要动ini配置代码[paths]chromedriver_path=/mkl/weipu/chromedriver-linux64/chromedriverdownload_path=[chrome_options]debugger_address=127.0.0.1:9211binary_location=/opt/google/chrome/google-chromearguments=['--no-first-run','--no-sandbox','--disable-infobars','--disable-popup-blocking','--headless=new']extensions=[]experimental_options={'prefs':{'profile.default_content_settings.popups':0,'profile.default_content_setting_values':{'notifications':2}}}page_load_strategy=normaluser=Defaultauto_port=Falsesystem_user_path=False[session_options]headers={'user-agent':'Mozilla/5.0(Macintosh;IntelMacOSX10_12_6)AppleWebKit/603.3.8(KHTML,likeGecko)Version/10.1.2Safari/603.3.8','accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','connection':'keep-alive','accept-charset':'GB2312,utf-8;q=0.7,*;q=0.7'}[timeouts]implicit=10page_load=30script=30[proxies]http=https=12345678910111213141516171819202122237,代码示例说明importtimeimportreimportmathfromDrissionPageimportChromiumPagefromDrissionPage.easy_setimportset_pathsfromDrissionPageimportChromiumOptionsfromDrissionPage.easy_setimportset_headless,set_pathsset_headless(True)#必须要加这个表示在linux上无头加载co=ChromiumOptions()co.set_argument('--incognito')co.set_argument('--no-sandbox');#set_paths(browser_path=r'/opt/google/chrome/google-chrome')#set_paths(browser_path=r'C:/Users/AAA/AppData/Local/Google/Chrome/Application/chrome.exe')defstart_test_spider(auth_name,institution_name,status_type):#用d模式创建页面对象(默认模式)page=ChromiumPage()#跳转到登录页面page.get('https://xxx.com/')time.sleep(1)#选择点击事件可以使用xpath:后面的是xpath路径page.ele('xpath://*[@id="basic_searchdomainfilter"]/div[1]/div[1]/div[1]/div/div/input').click()#这里为input的输入的内容根据xpathpage.ele('xpath://*[@id="basic_searchdomainfilter"]/div[1]/div[1]/div[2]/input').input('输入的内容')#关闭浏览器page.close_tabs()12345678910111213141516171819202122232425262728
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2025-1-3 01:24 , Processed in 0.474150 second(s), 26 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表