python怎么去除html标签

python去除html标签的方法:1、“pattern.sub('',html)”方法;2、“BeautifulSoup(html,'html.parser')”方法;3、“response.xpath('string(.)')”方法。

python怎么去除html标签

本文操作环境:windows7系统、python3.6.4版,DELL G3电脑。

python去除html标签的几种方法

import re
from bs4 import BeautifulSoup
from lxml import etree
 
html = &#39;<p>你好</p><br/><font>哈哈</font><b>大家好</b>&#39;
 
# 方法一
pattern = re.compile(r&#39;<[^>]+>&#39;,re.S)
result = pattern.sub(&#39;&#39;, html)
print(result)
 <br># 方法二
soup = BeautifulSoup(html,&#39;html.parser&#39;)
print(soup.get_text())
 
# 方法三
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath(&#39;string(.)&#39;))
 
 
# 你好哈哈大家好
# 你好哈哈大家好
# 你好哈哈大家好

【推荐:python视频教程】

以上就是python怎么去除html标签的详细内容,更多请关注其它相关文章!