Expressões regulares para trabalhar com HTML
Reuni algumas expressões regulares úteis para trabalhar com HTML.
Encontra comentários HTML
/<!--(.*?)-->/
Captura o atributo href de links
/href="([^\'\"]+)/g
Encontra todos os atributos de uma tag. Ex: src, name, value.
/(?:[\w]*) *= *"(?:(?:(?:(?:(?:\\\W)*\\\W)*[^"]*)\\\W)*[^"]*")/gim
Encontra tags <h1> até <h6>
<h([1-6])>([^<]*)<\/h([1-6])>
Encontra tags <a> válidas
<a[^>]*([^"]*)[^>]*>([ 0-9a-zA-Z]+)<\/a>
Encontra todas as URLs de um texto
(http:\/\/|https:\/\/)([a-zA-Z0-9]+.[a-zA-Z0-9-]+|[a-zA-Z0-9-]+).[a-zA-Z.]{2,6}(\/[a-zA-Z0-9.?=\/#%&+-]+|\/|)
Encontra todas as imagens
<img([\w\W]+?)\/?>
Útil para remover tags HTML
<[^>]*>