38 – 提取HTML页面中的URL

# 提取HTML 页面中所有的url，要求，这些url 都属于a 节点的href 属性

'''
1. 分析a节点的正则表达式
2. 利用分组提出href属性的值（url）
'''

import re

s = '<a href="https://geekori.com">极客起源</a> <a href="https://www.baidu.com">百度一下</a>'

result = re.findall('<a[^>]*href="([^>]*)">', s, re.I)
print(result)

for url in result:
    print(url)

['https://geekori.com', 'https://www.baidu.com']

https://geekori.com

https://www.baidu.com

正文完

发表至： Python 技术教程

2021-06-30

每日分享 – 数据结构 | 每日一练（73）

今天聊一下初学汇编