Python Selenium破解滑塊驗(yàn)證碼最新版(GEETEST95%以上通過(guò)率)
有爬蟲(chóng),自然就有反爬蟲(chóng),就像病毒和殺毒軟件一樣,有攻就有防,兩者彼此推進(jìn)發(fā)展。而目前最流行的反爬技術(shù)驗(yàn)證碼,為了防止爬蟲(chóng)自動(dòng)注冊(cè),批量生成垃圾賬號(hào),幾乎所有網(wǎng)站的注冊(cè)頁(yè)面都會(huì)用到驗(yàn)證碼技術(shù)。其實(shí)驗(yàn)證碼的英文為 CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart),翻譯成中文就是全自動(dòng)區(qū)分計(jì)算機(jī)和人類(lèi)的公開(kāi)圖靈測(cè)試,它是一種可以區(qū)分用戶(hù)是計(jì)算機(jī)還是人的測(cè)試,只要能通過(guò) CAPTCHA 測(cè)試,該用戶(hù)就可以被認(rèn)為是人類(lèi)。由此也可知道破解滑塊驗(yàn)證碼的關(guān)鍵即是讓計(jì)算機(jī)更好的模擬人的行為,這也是破解的難點(diǎn)所在。
二、環(huán)境配置1.安裝selenium 支持 python2.7 以及 python3.5 等主流 python 版本,其安裝較為簡(jiǎn)單,有網(wǎng)的環(huán)境下,打開(kāi)cmd輸入即可自動(dòng)安裝:
pip install selenium2.webdriver
selenium 安裝完成后,下載所選瀏覽器的 webdriver,本文以 ChromeDriver為例,下載解壓后切記將.exe文件放入對(duì)應(yīng)Python應(yīng)用程序的同級(jí)目錄下,以確保將 webdriver 的路徑添加至系統(tǒng) PATH 變量中。同時(shí)還需將.exe文件放入Chrome應(yīng)用程序的同級(jí)目錄下,注意下載的ChromeDriver版本需與Chrome瀏覽器版本對(duì)應(yīng)才可使用。ChromeDriver下載地址
3.相關(guān)庫(kù)與模板#圖像處理標(biāo)準(zhǔn)庫(kù)from PIL import Image #web測(cè)試from selenium import webdriver#鼠標(biāo)操作from selenium.webdriver.common.action_chains import ActionChains#等待時(shí)間 產(chǎn)生隨機(jī)數(shù) import time,random三、破解步驟
本文以春秋官網(wǎng)為例:
保存滑塊驗(yàn)證碼原圖到本地。 利用selenium進(jìn)入滑塊驗(yàn)證碼頁(yè)面,截取所需頁(yè)面圖片。 通過(guò)圖片像素對(duì)比分析獲取缺口位置與滑塊移動(dòng)距離。 機(jī)器模擬人工滑動(dòng)軌跡。四、代碼實(shí)現(xiàn)首先通過(guò)selenium對(duì)網(wǎng)頁(yè)元素爬取進(jìn)入滑塊驗(yàn)證碼頁(yè)面
#打開(kāi)頁(yè)面至屏幕最大尺寸driver = webdriver.Chrome()driver.get(’https://account.ch.com/NonRegistrations-Regist’)driver.maximize_window()#獲取輸入手機(jī)號(hào)碼的表單input1 = driver.find_element_by_name(’phoneNumberInput’)# 輸入注冊(cè)號(hào)碼input1.send_keys(phoneNumber)time.sleep(0.2)#獲取打開(kāi)滑塊驗(yàn)證碼頁(yè)面的元素getcheck=driver.find_element_by_id(’getDynamicPwd’)#點(diǎn)擊進(jìn)入滑塊驗(yàn)證碼頁(yè)面getcheck.click()
上周?chē)?guó)內(nèi)最大的驗(yàn)證碼平臺(tái)極驗(yàn)(GEETEST)進(jìn)行了滑塊驗(yàn)證碼更新,向反爬蟲(chóng)又邁進(jìn)了一步,新浪、斗魚(yú)等使用極驗(yàn)驗(yàn)證碼的各大網(wǎng)站頁(yè)也隨之更新,當(dāng)然春秋也不例外,此次更新顯然是針對(duì)了破解滑塊驗(yàn)證碼的關(guān)鍵痛點(diǎn),在此之前點(diǎn)擊獲取驗(yàn)證碼,出現(xiàn)滑塊驗(yàn)證碼界面之后并不會(huì)直接出現(xiàn)滑塊,此時(shí)可對(duì)屏幕進(jìn)行截圖,當(dāng)點(diǎn)擊滑動(dòng)圓球之后才會(huì)出現(xiàn)滑塊與缺口,此時(shí)再次進(jìn)行截圖,即可根據(jù)兩次截圖的像素RGB值逐一遍歷,找到缺口位置。但更新之后點(diǎn)擊獲取驗(yàn)證碼,直接會(huì)出現(xiàn)滑塊與缺口,如圖1所見(jiàn)。問(wèn)題來(lái)了,現(xiàn)在沒(méi)有原圖作為參照,怎么找到缺口位置呢???仔細(xì)一想,其實(shí)這個(gè)問(wèn)題并不難,無(wú)非就是需要一張?jiān)瓐D作為參照,經(jīng)過(guò)觀察發(fā)現(xiàn)每個(gè)網(wǎng)站的驗(yàn)證碼背景圖片不過(guò)區(qū)區(qū)幾張,那么我們可以考慮通過(guò)人工滑動(dòng)滑塊,在成功拼圖后出現(xiàn)完整原圖的那一瞬間進(jìn)行屏幕截圖,將原圖逐一截圖保存至本地,再通過(guò)缺口圖片與本地保存的原圖進(jìn)行像素RGB值匹配,原圖豈不速速現(xiàn)出原形,缺口圖圓球需滑至最右再進(jìn)行截圖,下文詳細(xì)解釋。
# 獲取拖拽的圓球slideblock = driver.find_element_by_class_name(’geetest_slider_button’)# 鼠標(biāo)點(diǎn)擊圓球不松開(kāi)ActionChains(driver).click_and_hold(slideblock).perform()# 將圓球滑至相對(duì)起點(diǎn)位置的最右邊ActionChains(driver).move_by_offset(xoffset=250, yoffset=0).perform()time.sleep(0.4)# 保存包含滑塊及缺口的頁(yè)面截圖driver.save_screenshot(’D:quekou.png’)# 放開(kāi)圓球ActionChains(driver).release(slideblock).perform()#打開(kāi)保存至本地的缺口頁(yè)面截圖quekouimg=Image.open(’d://quekou.png’)# 匹配本地對(duì)應(yīng)原圖sourceimg=match_source(quekouimg)def match_source(image): imagea=Image.open(’d://source1.png’) imageb=Image.open(’d://source2.png’) imagec=Image.open(’d://source3.png’) imaged=Image.open(’d://source4.png’) list=[imagea,imageb,imagec,imaged] #通過(guò)像素差遍歷匹配本地原圖 for i in list: #本人電腦原圖與缺口圖對(duì)應(yīng)滑塊圖片橫坐標(biāo)相同,縱坐標(biāo)原圖比缺口圖大88px,可根據(jù)實(shí)際情況修改 pixel1=image.getpixel((868,340)) pixel2=i.getpixel((868,428)) #pixel[0]代表R值,pixel[1]代表G值,pixel[2]代表B值 if abs(pixel1[0]-pixel2[0])<5: return i return image
為了更快捷獲取滑塊移動(dòng)距離,我們可以考慮將滑塊先滑至最右端再進(jìn)行截圖,因?yàn)椴捎脧淖笸覍?duì)比遍歷的方式,采用這種方式能保證第一次獲取到的便是缺口位置,由于滑塊起點(diǎn)相同,此種方法可減少計(jì)算滑塊大小這一步(畢竟滑塊大小計(jì)算也是通過(guò)像素遍歷,沒(méi)必要再計(jì)算一次)。
# 獲取缺口位置visualstack=get_diff_location(sourceimg,quekouimg)# 獲取移動(dòng)距離loc,827為滑塊起點(diǎn)位置loc=visualstack-827# 計(jì)算滑塊位移距離def get_diff_location(image1,image2): #(825,1082)(335,463)為滑塊圖片區(qū)域,可根據(jù)實(shí)際情況修改 for i in range(825,1082): for j in range(335,463): #遍歷原圖與缺口圖像素值尋找缺口位置 if is_similar(image1,image2,i,j)==False:return i return -1# 對(duì)比RGB值得到缺口位置def is_similar(image1,image2,x,y): pixel1=image1.getpixel((x, y+88)) pixel2=image2.getpixel((x, y)) # 截圖像素也許存在誤差,50作為容差范圍 if abs(pixel1[0]-pixel2[0])>=50 and abs(pixel1[1]-pixel2[1])>=50 and abs(pixel1[2]-pixel2[2])>=50: return False return True
接下來(lái),破解滑塊驗(yàn)證碼最關(guān)鍵也最難的一步來(lái)了,機(jī)器模擬人工滑動(dòng)軌跡,或許你可以精準(zhǔn)滑動(dòng)到缺口位置,但還是會(huì)被識(shí)別為機(jī)器被怪物吃掉拼圖,本人在測(cè)試的時(shí)候也是一把辛酸淚,最后經(jīng)過(guò)不斷調(diào)試學(xué)習(xí),得到一種通過(guò)率還OK的滑動(dòng)軌跡算法,即采用物理加速度位移相關(guān)公式按照先快后慢的人工滑動(dòng)規(guī)律進(jìn)行軌跡計(jì)算,同時(shí)還采用了模擬人滑動(dòng)超過(guò)了缺口位置再滑回至缺口的情況以使軌跡更契合人工滑動(dòng)軌跡。由于項(xiàng)目時(shí)間有限,本人就沒(méi)花過(guò)多時(shí)間研究了,如果想要99%通過(guò)率可以嘗試機(jī)器學(xué)習(xí),采集人工滑動(dòng)軌跡進(jìn)行曲線擬合的方法獲取軌跡。
#滑塊移動(dòng)軌跡def get_track(self,distance): track=[] current=0 mid=distance*3/4 t=random.randint(2,3)/10 v=0 while current<distance: if current<mid: a=2 else: a=-3 v0=v v=v0+a*t move=v0*t+1/2*a*t*t current+=move track.append(round(move)) return track# 生成拖拽移動(dòng)軌跡,加3是為了模擬滑過(guò)缺口位置后返回缺口的情況track_list=get_track(loc+3)time.sleep(2)ActionChains(driver).click_and_hold(slideblock).perform()time.sleep(0.2)# 根據(jù)軌跡拖拽圓球for track in track_list: ActionChains(driver).move_by_offset(xoffset=track,yoffset=0).perform()# 模擬人工滑動(dòng)超過(guò)缺口位置返回至缺口的情況,數(shù)據(jù)來(lái)源于人工滑動(dòng)軌跡,同時(shí)還加入了隨機(jī)數(shù),都是為了更貼近人工滑動(dòng)軌跡imitate=ActionChains(driver).move_by_offset(xoffset=-1, yoffset=0)time.sleep(0.015)imitate.perform()time.sleep(random.randint(6,10)/10)imitate.perform()time.sleep(0.04)imitate.perform()time.sleep(0.012)imitate.perform()time.sleep(0.019)imitate.perform()time.sleep(0.033)ActionChains(driver).move_by_offset(xoffset=1, yoffset=0).perform()# 放開(kāi)圓球ActionChains(driver).pause(random.randint(6,14)/10).release(slideblock).perform()time.sleep(2)#務(wù)必記得加入quit()或close()結(jié)束進(jìn)程,不斷測(cè)試電腦只會(huì)卡卡西driver.close()
至此,小白破解滑塊驗(yàn)證碼就算基本了結(jié),整個(gè)步驟看起來(lái)挺簡(jiǎn)單的,但其中的坑大概只有實(shí)踐才會(huì)知道,出BUG之后第一件事請(qǐng)認(rèn)真檢查你的代碼,不要放過(guò)任何一個(gè)地方,參數(shù)、范圍、返回值、取值等等,甚至可能是你最覺(jué)得沒(méi)問(wèn)題的地方,往往是問(wèn)題所在……over
到此這篇關(guān)于Python Selenium破解滑塊驗(yàn)證碼最新版(GEETEST95%以上通過(guò)率)的文章就介紹到這了,更多相關(guān)Python Selenium破解滑塊驗(yàn)證碼內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. asp讀取xml文件和記數(shù)2. 多個(gè)SpringBoot項(xiàng)目采用redis實(shí)現(xiàn)Session共享功能3. vue 驗(yàn)證兩次輸入的密碼是否一致的方法示例4. 簡(jiǎn)體中文轉(zhuǎn)換為繁體中文的PHP函數(shù)5. CSS自定義滾動(dòng)條樣式案例詳解6. 讓你的PHP同時(shí)支持GIF、png、JPEG7. 每日六道java新手入門(mén)面試題,通往自由的道路第二天8. PHP實(shí)現(xiàn)基本留言板功能原理與步驟詳解9. Django正則URL匹配實(shí)現(xiàn)流程解析10. python利用opencv實(shí)現(xiàn)顏色檢測(cè)
