文章詳情頁

Python lxml庫的簡單介紹及基本使用講解

瀏覽：3日期：2022-07-01 14:43:44

1.lxml庫介紹

lxml是XML和HTML的解析器，其主要功能是解析和提取XML和HTML中的數據；lxml和正則一樣，也是用C語言實現的，是一款高性能的python HTML、XML解析器，也可以利用XPath語法，來定位特定的元素及節點信息

HTML是超文本標記語言，主要用于顯示數據，他的焦點是數據的外觀XML是可擴展標記語言，主要用于傳輸和存儲數據，他的焦點是數據的內容

2.安裝lxml方法

方法1:在cmd運行窗口中輸入:pip install lxml

Python lxml庫的簡單介紹及基本使用講解

方法2：在Pycharm中下載File?Setting?Project?Project Interpreter?點擊右上角的“+”—第1步

Python lxml庫的簡單介紹及基本使用講解

第2步

Python lxml庫的簡單介紹及基本使用講解

第3步

Python lxml庫的簡單介紹及基本使用講解

方法3：進入這個網站進行下載：https://lxml.de/index.html

Python lxml庫的簡單介紹及基本使用講解

3.基本使用

我們可以利用他解析HTML代碼，并且在解析HTML代碼的時候，如果HTML代碼不規范或者不完整，lxml解析器會自動修復或補全代碼，從而提高效率

實例1：解析HTML代碼塊

#提取html中的數據from lxml import etreetext = ’’’<html> <div class='clearfix'> <div class='nav_com'> <ul> <li class='active'><a href='http://www.baoyu77737.com/' rel='external nofollow' >推薦</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/python' rel='external nofollow' >Python</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/java' rel='external nofollow' >Java</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/web' rel='external nofollow' >前端</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/arch' rel='external nofollow' >架構</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/db' rel='external nofollow' >數據庫</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/5g' rel='external nofollow' >5G</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/game' rel='external nofollow' >游戲開發</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/mobile' rel='external nofollow' >移動開發</a></li> <li class=''><a href='http://www.baoyu77737.com/nav/ops' rel='external nofollow' >運維</a></li> </ul> </div> </div></html>></html>>’’’#將字符串解析為html文檔html = etree.HTML(text)#print(html)#將字符串序列化為htmlresult = etree.tostring(html).decode(’utf-8’)print(result)

實例2：讀取并解析html文件

#將html文件進行解析from lxml import etree#將html文件進行讀取html = etree.parse(’data.html’)#將html內容序列化result = etree.tostring(html).decode(’utf-8’)print(result)

到此這篇關于Python lxml庫的簡單介紹及基本使用講解的文章就介紹到這了,更多相關Python lxml庫使用內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：去除python中的字符串空格的簡單方法下一條：Python中過濾字符串列表的方法

相關文章：

1. CSS可以做的幾個令你嘆為觀止的實例分享2. 詳解CSS偽元素的妙用單標簽之美3. 小技巧處理div內容溢出4. 低版本IE正常運行HTML5+CSS3網站的3種解決方案5. XML入門精解之結構與語法6. 詳解瀏覽器的緩存機制7. 概述IE和SQL2k開發一個XML聊天程序8. HTML5 Canvas繪制圖形從入門到精通9. XHTML 1.0：標記新的開端10. XML入門的常見問題(二)

排行榜

					
					PHP單件模式和命令鏈模式的基礎知識
Python多線程操作之互斥鎖、遞歸鎖、信號量、事件實例詳解
Django如何實現防止XSS攻擊
解決python便攜版無法直接運行py文件的問題
php strncmp函數原型源碼分析
如何在jsp界面中插入圖片
jsp文件下載功能實現代碼
部署vue+Springboot前后端分離項目的步驟實現
解決SpringBoot使用devtools導致的類型轉換異常問題
詳解CSS偽元素的妙用單標簽之美
ASP刪除img標簽的style屬性只保留src的正則函數