Python爬虫如何解析HTML页面

织梦狗教程前端开发

2025-01-19

Python爬虫如何解析HTML页面，下面编程教程网小编给大家简单介绍一下！

具体语法如下：

import re
html = '''
<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8">
  <title>这是页面标题</title>
</head>
<body>
  <div class="content">
    <h2>这是一级标题</h2>
    <p>这是一段文本</p>
  </div>
  <div class="footer">
    <p>版权所有 © 2021</p>
  </div>
</body>
</html>
'''
pattern = re.compile(r'<div class="content">.*?<h2>(.*?)</h2>.*?<p>(.*?)</p>.*?</div>', re.S)
match = re.search(pattern, html)
if match:
  title = match.group(1)
  text = match.group(2)
  print(title)
  print(text)

以上是编程学习网小编为您介绍的“Python爬虫如何解析HTML页面”的全面内容，想了解更多关于 前端知识 内容，请继续关注编程基础学习网。

织梦狗教程

本文标题为：Python爬虫如何解析HTML页面