Спарсить запись Wordpress
-
Не получается составить рег. выражение.
Есть страничка, движок wordpress.- Браузером захожу.
- Код страницы записываю в SAVED_PAGE_HTML
- Рег. выражения - извлечь все данные
Сама регулярка <!--\ .post_content\ -->(.)<!--\ /.post_content\ -->
извлекаю из [[SAVED_PAGE_HTML]]
и записываю в SCAN_RESULT_LIST
ну и как бы ничего не выходит.
Задача спарсить весь пост. Все что между тегами <!-- .post_content --> <!-- /.post_content -->
парсить вместе с тегами.
-
\-\-\\\ \.post_content\\\ \-\->(.+?)<!\-\-\\\ /\.post_content\\\ \-\->
Используй конструктор регулярных выражений, в БАС->Инструменты
-
Я его и использовал. Регулярка не срабатывает, никакого результата не отдает.
-
О! Регулярки!
@Kodak Ты бы хоть для примера приложил содержимое страницы из [[SAVED_PAGE_HTML]].Так то должно подойти элементарное:
<\!-- \.post_content -->([\s\S]*)<\!-- \/\.post_content -->
Либо спросить @DrPrime на счёт применения Xpath
:D
-
@Fox xpath не понимает комментарии, как и браузер
-
<!\-\-\ \.post_content\ \-\->(.*?)<!\-\-\ /\.post_content\ \-\->
Составил с 1 раза в конструкторе, все подошло.
Ваша будет работать только тогда, когда результат содержит 1 символ.
Нужно в конструкторе выбирать не только значания, но и сколько раз оно может встречаться http://prntscr.com/god8xc
-
@support Подтверждаю, вашей регуляркой BAS находит нужную информацию по задаче автора:
Задача спарсить весь пост. Все что между тегами <!-- .post_content --> <!-- /.post_content -->
парсить вместе с тегами.Только в случае, если нет переносов строки.
С переносами, подойдёт моя регулярка, что выше:<\!-- \.post_content -->([\s\S]*)<\!-- \/\.post_content -->
Вот пример скрипта.
-
@Fox Я уже обновил конструктор так, чтобы под любой символ подходили переносы строки, как раз по вашему примеру.