文章詳情頁

Python lxml庫的簡單介紹及基本使用講解

瀏覽：9日期：2022-07-01 14:43:44

1.lxml庫介紹

lxml是XML和HTML的解析器，其主要功能是解析和提取XML和HTML中的數(shù)據(jù)；lxml和正則一樣，也是用C語言實現(xiàn)的，是一款高性能的python HTML、XML解析器，也可以利用XPath語法，來定位特定的元素及節(jié)點信息

HTML是超文本標記語言，主要用于顯示數(shù)據(jù)，他的焦點是數(shù)據(jù)的外觀XML是可擴展標記語言，主要用于傳輸和存儲數(shù)據(jù)，他的焦點是數(shù)據(jù)的內(nèi)容

2.安裝lxml方法

方法1:在cmd運行窗口中輸入:pip install lxml

Python lxml庫的簡單介紹及基本使用講解

方法2：在Pycharm中下載File?Setting?Project?Project Interpreter?點擊右上角的“+”—第1步

Python lxml庫的簡單介紹及基本使用講解

第2步

Python lxml庫的簡單介紹及基本使用講解

第3步

Python lxml庫的簡單介紹及基本使用講解

方法3：進入這個網(wǎng)站進行下載：https://lxml.de/index.html

Python lxml庫的簡單介紹及基本使用講解

3.基本使用

我們可以利用他解析HTML代碼，并且在解析HTML代碼的時候，如果HTML代碼不規(guī)范或者不完整，lxml解析器會自動修復(fù)或補全代碼，從而提高效率

實例1：解析HTML代碼塊

#提取html中的數(shù)據(jù)from lxml import etreetext = ’’’<html> <div class='clearfix'> <div class='nav_com'> <ul> <li class='active'><a href='http://www.cgvv.com.cn/' rel='external nofollow' >推薦</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/python' rel='external nofollow' >Python</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/java' rel='external nofollow' >Java</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/web' rel='external nofollow' >前端</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/arch' rel='external nofollow' >架構(gòu)</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/db' rel='external nofollow' >數(shù)據(jù)庫</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/5g' rel='external nofollow' >5G</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/game' rel='external nofollow' >游戲開發(fā)</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/mobile' rel='external nofollow' >移動開發(fā)</a></li> <li class=''><a href='http://www.cgvv.com.cn/nav/ops' rel='external nofollow' >運維</a></li> </ul> </div> </div></html>></html>>’’’#將字符串解析為html文檔html = etree.HTML(text)#print(html)#將字符串序列化為htmlresult = etree.tostring(html).decode(’utf-8’)print(result)

實例2：讀取并解析html文件

#將html文件進行解析from lxml import etree#將html文件進行讀取html = etree.parse(’data.html’)#將html內(nèi)容序列化result = etree.tostring(html).decode(’utf-8’)print(result)

到此這篇關(guān)于Python lxml庫的簡單介紹及基本使用講解的文章就介紹到這了,更多相關(guān)Python lxml庫使用內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：去除python中的字符串空格的簡單方法下一條：Python中過濾字符串列表的方法

相關(guān)文章：

1. 以PHP代碼為實例詳解RabbitMQ消息隊列中間件的6種模式2. html小技巧之td,div標簽里內(nèi)容不換行3. PHP字符串前后字符或空格刪除方法介紹4. 將properties文件的配置設(shè)置為整個Web應(yīng)用的全局變量實現(xiàn)方法5. nestjs實現(xiàn)圖形校驗和單點登錄的示例代碼6. AspNetCore&MassTransit Courier實現(xiàn)分布式事務(wù)的詳細過程7. XML入門的常見問題(一)8. jsp cookie+session實現(xiàn)簡易自動登錄9. css進階學習選擇符10. Echarts通過dataset數(shù)據(jù)集實現(xiàn)創(chuàng)建單軸散點圖

排行榜

					
					關(guān)于Java下奇怪的Base64詳解
python 實現(xiàn)aes256加密
Python使用shutil模塊實現(xiàn)文件拷貝
php代碼優(yōu)化及php相關(guān)問題總結(jié)
JavaScript快速實現(xiàn)日歷效果
Python 如何將integer轉(zhuǎn)化為羅馬數(shù)(3999以內(nèi))
SpringBoot + Vue 項目部署上線到Linux 服務(wù)器的教程詳解
如何基于windows實現(xiàn)python定時爬蟲
intellij idea設(shè)置統(tǒng)一JavaDoc模板的方法詳解
如何在vue3.0+中使用tinymce及實現(xiàn)多圖上傳文件上傳公式編輯功能
java實現(xiàn)圖形化界面計算器