成人视屏在线观看-国产99精品-国产精品1区2区-欧美一级在线观看-国产一区二区日韩-色九九九

您的位置:首頁技術文章
文章詳情頁

python如何爬取網頁中的文字

瀏覽:60日期:2022-07-16 09:06:52

用Python進行爬取網頁文字的代碼:

#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下載一個網頁url = ’https://www.biquge.tw/75_75273/3900155.html’# 模擬瀏覽器發送http請求response = requests.get(url)# 編碼方式response.encoding=’utf-8’# 目標小說主頁的網頁源碼html = response.textprint(html)

1、編寫爬蟲思路:

確定下載目標,找到網頁,找到網頁中需要的內容。對數據進行處理。保存數據。

2、知識點說明:

1)確定網絡中需要的信息,打開網頁后使用F12打開開發者模式。

在Network中可以看到很多信息,我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件后可以看到response,文字信息都包含在response中。

對于需要輸入的信息,可以使用ctrl+f,進行搜索。查看信息前后包含哪些特定字段。

對于超鏈接的提取,可以使用最左邊的箭頭點擊超鏈接,這時Elements會打開有該條超鏈接的信息,從中判斷需要提取的信息。從下載小說來看,在目錄頁提取出小說的鏈接和章節名。

2)注意編碼格式

輸入字符集一定要設置成utf-8。頁面大多為GBK字符集。不設置會亂碼。

內容擴展:

接下來我們了解一下爬取網頁信息的步驟。

想要獲得我們所需的數據分三步

第一步:使用BeautifulSoup解析網頁

Soup = BeautifulSoup(html,’lxml’)

第二步:描述想要爬去信息的東西在哪里。

信息 = Soup.select(’???’)

要知道它叫什么名字,如何去定位。

第三步:從標簽中獲得你想要的信息

<p>Something</p>

從標簽中獲取我們需要的信息,去掉一些沒有用的結構,并且把我們獲取的信息按照一定格式裝在數據容器中,方便我們去查詢。

以上就是python如何爬取網頁中的文字的詳細內容,更多關于python爬取網頁文字的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产成人99精品免费观看 | 中文字幕一区二区视频 | 亚洲欧美高清在线 | 欧美午夜免费毛片a级 | 图片区偷拍区小说区 | 亚洲精品一区二区三区在 | 99色播| 一区二区三区久久精品 | 综合欧美一区二区三区 | 日本人一级毛片视频 | 成人www视频网站免费观看 | 一区二区三区免费精品视频 | 亚洲国产第一区二区香蕉 | 精品国产欧美精品v | 岛国大片在线播放免费 | 一级生性活免费视频 | 免费观看毛片视频 | 一级黄色α片 | 亚州成人| 欧美一级成人毛片视频 | 国产欧美日韩免费一区二区 | 天堂8在线天堂资源bt | аⅴ资源天堂8在线 | 亚洲色视频在线播放网站 | 色伦网 | 欧美一级毛片高清视频 | 中文三级视频 | 美国一级毛片不卡无毒 | 国产一区二区三区久久小说 | 国产成人精品magnet | 国产在线乱子伦一区二区 | 日本黄色大片在线播放视频免费观看 | 国产午夜精品久久久久九九 | 在线免费观看日本视频 | 成人久久在线 | 国产成人啪精品 | 欧美亚洲日本一区二区三区浪人 | 国内精品久久久久久影院8f | 日韩一区二区三区在线 | 国产观看在线 | 亚洲一区在线视频观看 |