Спарсить запись Wordpress



  • Не получается составить рег. выражение.
    Есть страничка, движок wordpress.

    1. Браузером захожу.
    2. Код страницы записываю в SAVED_PAGE_HTML
    3. Рег. выражения - извлечь все данные
      Сама регулярка <!--\ .post_content\ -->(.)<!--\ /.post_content\ -->
      извлекаю из [[SAVED_PAGE_HTML]]
      и записываю в SCAN_RESULT_LIST
      ну и как бы ничего не выходит.

    Задача спарсить весь пост. Все что между тегами <!-- .post_content --> <!-- /.post_content -->
    парсить вместе с тегами.



  • \-\-\\\ \.post_content\\\ \-\->(.+?)<!\-\-\\\ /\.post_content\\\ \-\->
    

    Используй конструктор регулярных выражений, в БАС->Инструменты



  • Я его и использовал. Регулярка не срабатывает, никакого результата не отдает.



  • О! Регулярки!
    @Kodak Ты бы хоть для примера приложил содержимое страницы из [[SAVED_PAGE_HTML]].

    Так то должно подойти элементарное:

    <\!-- \.post_content -->([\s\S]*)<\!-- \/\.post_content -->
    

    Либо спросить @DrPrime на счёт применения Xpath :D



  • @Fox xpath не понимает комментарии, как и браузер


  • administrators

    @Kodak

    <!\-\-\ \.post_content\ \-\->(.*?)<!\-\-\ /\.post_content\ \-\->
    

    Составил с 1 раза в конструкторе, все подошло.
    Ваша будет работать только тогда, когда результат содержит 1 символ.
    Нужно в конструкторе выбирать не только значания, но и сколько раз оно может встречаться http://prntscr.com/god8xc



  • @support Подтверждаю, вашей регуляркой BAS находит нужную информацию по задаче автора:

    Задача спарсить весь пост. Все что между тегами <!-- .post_content --> <!-- /.post_content -->
    парсить вместе с тегами.

    Только в случае, если нет переносов строки.
    С переносами, подойдёт моя регулярка, что выше:

    <\!-- \.post_content -->([\s\S]*)<\!-- \/\.post_content -->
    

    Вот пример скрипта.


  • administrators

    @Fox Я уже обновил конструктор так, чтобы под любой символ подходили переносы строки, как раз по вашему примеру.


Log in to reply
 

Looks like your connection to Bablosoft was lost, please wait while we try to reconnect.