Expressões regulares para trabalhar com HTML
Reuni algumas expressões regulares úteis para trabalhar com HTML.
Encontra comentários HTML
/<!--(.*?)-->/Captura o atributo href de links
/href="([^\'\"]+)/gEncontra todos os atributos de uma tag. Ex: src, name, value.
/(?:[\w]*) *= *"(?:(?:(?:(?:(?:\\\W)*\\\W)*[^"]*)\\\W)*[^"]*")/gimEncontra tags <h1> até <h6>
<h([1-6])>([^<]*)<\/h([1-6])>Encontra tags <a> válidas
<a[^>]*([^"]*)[^>]*>([ 0-9a-zA-Z]+)<\/a>Encontra todas as URLs de um texto
(http:\/\/|https:\/\/)([a-zA-Z0-9]+.[a-zA-Z0-9-]+|[a-zA-Z0-9-]+).[a-zA-Z.]{2,6}(\/[a-zA-Z0-9.?=\/#%&+-]+|\/|)Encontra todas as imagens
<img([\w\W]+?)\/?>Útil para remover tags HTML
<[^>]*>