PHP

Регулярное выражения для вытаскивания ссылок из plain-текста

Сегодня я хочу затронуть такую мозголомную тему, как регвыражения.

Очень много статей написано по поводу того, как же вытащить любую ссылку из HTML, однако для обычного текста, где ссылка встречается в виде as is, примеров очень мало.

Приведу рабочее выражение для поставленной задачи.

Пусть, нам надо вытащить из обычного текста ссылки на изображения.

1. Маркером вхождения будет объявление протокола : http, https, ftp или ftps ( (http|https|ftp|ftps) ).
2. После у нас идут два слеша, которые мы оставляем статично, не забыв их проэкранировать.
3. Далее, мы должны описать само тело ссылки. ( [a-zA-Z0-9\-\.\/\_]+ )
4. И теперь у нас идет возможное расширение. ( (jpg|png|gif|bmp|jpeg) )

В общем и целом регвыражение будет выглядеть вот так:

/(http|https|ftp|ftps)\:\/\/[a-zA-Z0-9\-\.\/\_]+(jpg|png|gif|bmp|jpeg)?/

Теперь интегрируем его в PHP

$out = array();
preg_match_all("/(http|https|ftp|ftps)\:\/\/[a-zA-Z0-9\-\.\/\_]+(jpg|png|gif|bmp|jpeg)?/", $rowsrc, $out, PREG_SET_ORDER);

В массиве $out будут находиться все совпадения, которые обнаружила функция поиска по регвыражениям preg_match_all().

Также очень удобно потестировать полученное выражение где-нибудь здесь

За сим всё!

Безошибочного Вам кода!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *