38 – 提取HTML页面中的URL

# 提取HTML 页面中所有的url,要求,这些url 都属于a 节点的href 属性

'''
1. 分析a节点的正则表达式
2. 利用分组提出href属性的值(url)
'''

import re

s = '<a href="https://geekori.com">极客起源</a> <a href="https://www.baidu.com">百度一下</a>'

result = re.findall('<a[^>]*href="([^>]*)">', s, re.I)
print(result)

for url in result:
    print(url)

['https://geekori.com', 'https://www.baidu.com']

https://geekori.com

https://www.baidu.com

正文完