Помогите с регуляркой



  • @santilo said in Помогите с регуляркой:

    кароче мой косяк, у меня 2 запроса, в одном прописан //h3[@class="r"]/a/@href, а втором запросе был первый //cite/text() вот он туда и при выполнении накидал в список кривых урлов ска

    фак еах теперь все робит так как доктор прописал, расходимся пасаны )

    xpatch - крутая фича жаль что прикручивается к определенному сайту

    если парсить с рандомных сайтов то тут только регулярка выручит



  • @Zenodrot хорошо что заметил), а то бы еще больше простоя было))



  • @Zenodrot said in Помогите с регуляркой:

    xpatch - крутая фича жаль что прикручивается к определенному сайту

    Да) я лично парсю сайты только через xpath, с ним проще) он для этого и создавался что бы парсить дом дерево и его элементы
    Например:
    <div class="one">1</div>
    <div class="one">2</div>
    <div class="one">3</div>
    Как регуляркой вытянуть из 2 дива цифру 2? скорее всего можно) но мне проще через xpath это решить
    с помощью xpath это сделать элементарно : //div[@class="one"][2]/text()



  • @santilo said in Помогите с регуляркой:

    @Zenodrot хорошо что заметил), а то бы еще больше простоя было))

    я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)

    теперь с чистой душой пойду зенку в мусорку снесу, более не требуется)
    Создателю BAS нужно памятник при жизни ставить, ИМХО



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot хорошо что заметил), а то бы еще больше простоя было))

    я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)

    Правильно сделал) что в мануал заглянул) осталось его весь прочитать) и работать с xpath по необходимости



  • @bigorat said in Помогите с регуляркой:

    @santilo, а.... ясно, жаль, если бы была совместимость было бы круто, ну или какой конвертор из одного в другое :)

    я сам думал про конвертор, потом в зинке начал всматриваться что да как и почем регулярка там строиться и смотрел на басовсом конструкторе сравнивал синтаксис, и там наглядно понятно где поправить нужно. Теперь от зиновского отвык, нормально освоил басовский.
    с BAS вожусь 3й день, уже как родной стал, отвык от зинки.
    перенес сложные проекты все нормально летает.
    Все проекты в многопотоке, сильно заметна разница по нагрузке железа, BAS шустрее шерстит.
    пока с BAS возился за всю своею жизнь понял как строиться регулярка, раньше на это внимание не обращал в зенке тык тык и готово ) а теперь более гибкие регулярки делаю.
    правда для гугла не смог победить(время жмет ипстись с ним), а так уже штук 20 наклепал разных.

    если бы не местные ребята, я бы наверно плюнул на BAS в первый день, первый день было тяжко привыкнуть и понять логику. В итоге еще недельку и я стану мастером по басу )
    зинку юзал 3 года... по этму более легко пересел на бас.



  • Регулярки вроде как кросплатформенные должны быть, как отдельный мини язык программирования.
    Проверять их лучше на regex101.com.
    Если нужна помощь по регуляркам, дайте кусок кода и что нужно в итоге. Помогу чем смогу.



  • @Fox said in Помогите с регуляркой:

    Регулярки вроде как кросплатформенные должны быть, как отдельный мини язык программирования.
    Проверять их лучше на regex101.com.
    Если нужна помощь по регуляркам, дайте кусок кода и что нужно в итоге. Помогу чем смогу.

    кусок кода любой с поиска гугла, нужно изъять ссылки сайтов выдаваемые гуглом

    Я поипался, разобрался,настроил регулярку для гугла, синтаксис регулярки отличается незначительно но все же, вот наглядно на скрине
    http://prntscr.com/fg2cn1



  • @Zenodrot На скорую руку регулярка

    \/url\?q=(?!http:\/\/webcache)(.*?)&amp;
    

    И пробный проект.



  • @Fox said in Помогите с регуляркой:

    @Zenodrot На скорую руку регулярка

    \/url\?q=(?!http:\/\/webcache)(.*?)&amp;
    

    И пробный проект.

    ну да, сенкс, я научился тоже их составлять уже ) пока разбирался с ними )


  • administrators

    Я не читал всю тему, но действие Xpath получить каждый xml с параметром //*[@class="r"]//a/@href выдает все ссылки из выдачи гугл.



  • поддержу про xpath, работает очень быстро и просто.

    вот только смотря кому и зачем их парсить :) если сайтмап построить, то как обойти лимит гугла в 600 урлов? больше он не выдаст. Никто не подскажет, как запарсить все страницы сайта? Остается вариант не из выдачи, а реально ходить по сайту :(


Log in to reply
 

Looks like your connection to Bablosoft was lost, please wait while we try to reconnect.