Помогите с регуляркой

Zenodrot

кароче мой косяк, у меня 2 запроса, в одном прописан //h3[@class="r"]/a/@href, а втором запросе был первый //cite/text() вот он туда и при выполнении накидал в список кривых урлов ска

фак еах теперь все робит так как доктор прописал, расходимся пасаны )

xpatch - крутая фича жаль что прикручивается к определенному сайту

если парсить с рандомных сайтов то тут только регулярка выручит

santilo

@Zenodrot хорошо что заметил), а то бы еще больше простоя было))

santilo

@Zenodrot said in Помогите с регуляркой:

xpatch - крутая фича жаль что прикручивается к определенному сайту

Да) я лично парсю сайты только через xpath, с ним проще) он для этого и создавался что бы парсить дом дерево и его элементы
Например:
<div class="one">1</div>
<div class="one">2</div>
<div class="one">3</div>
Как регуляркой вытянуть из 2 дива цифру 2? скорее всего можно) но мне проще через xpath это решить
с помощью xpath это сделать элементарно : //div[@class="one"][2]/text()

Zenodrot

@santilo said in Помогите с регуляркой:

@Zenodrot хорошо что заметил), а то бы еще больше простоя было))

я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)

теперь с чистой душой пойду зенку в мусорку снесу, более не требуется)
Создателю BAS нужно памятник при жизни ставить, ИМХО

santilo

@Zenodrot said in Помогите с регуляркой:

@santilo said in Помогите с регуляркой:

@Zenodrot хорошо что заметил), а то бы еще больше простоя было))

я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)

Правильно сделал) что в мануал заглянул) осталось его весь прочитать) и работать с xpath по необходимости

Zenodrot

@bigorat said in Помогите с регуляркой:

@santilo, а.... ясно, жаль, если бы была совместимость было бы круто, ну или какой конвертор из одного в другое :)

я сам думал про конвертор, потом в зинке начал всматриваться что да как и почем регулярка там строиться и смотрел на басовсом конструкторе сравнивал синтаксис, и там наглядно понятно где поправить нужно. Теперь от зиновского отвык, нормально освоил басовский.
с BAS вожусь 3й день, уже как родной стал, отвык от зинки.
перенес сложные проекты все нормально летает.
Все проекты в многопотоке, сильно заметна разница по нагрузке железа, BAS шустрее шерстит.
пока с BAS возился за всю своею жизнь понял как строиться регулярка, раньше на это внимание не обращал в зенке тык тык и готово ) а теперь более гибкие регулярки делаю.
правда для гугла не смог победить(время жмет ипстись с ним), а так уже штук 20 наклепал разных.

если бы не местные ребята, я бы наверно плюнул на BAS в первый день, первый день было тяжко привыкнуть и понять логику. В итоге еще недельку и я стану мастером по басу )
зинку юзал 3 года... по этму более легко пересел на бас.

Fox

Регулярки вроде как кросплатформенные должны быть, как отдельный мини язык программирования.
Проверять их лучше на regex101.com.
Если нужна помощь по регуляркам, дайте кусок кода и что нужно в итоге. Помогу чем смогу.

Zenodrot

@Fox said in Помогите с регуляркой:

Регулярки вроде как кросплатформенные должны быть, как отдельный мини язык программирования.
Проверять их лучше на regex101.com.
Если нужна помощь по регуляркам, дайте кусок кода и что нужно в итоге. Помогу чем смогу.

кусок кода любой с поиска гугла, нужно изъять ссылки сайтов выдаваемые гуглом

Я поипался, разобрался,настроил регулярку для гугла, синтаксис регулярки отличается незначительно но все же, вот наглядно на скрине
http://prntscr.com/fg2cn1

Fox

@Zenodrot На скорую руку регулярка

\/url\?q=(?!http:\/\/webcache)(.*?)&amp;

И пробный проект.

Zenodrot

@Fox said in Помогите с регуляркой:

@Zenodrot На скорую руку регулярка
\/url\?q=(?!http:\/\/webcache)(.*?)&amp;
И пробный проект.

ну да, сенкс, я научился тоже их составлять уже ) пока разбирался с ними )

support

Я не читал всю тему, но действие Xpath получить каждый xml с параметром //*[@class="r"]//a/@href выдает все ссылки из выдачи гугл.

Sevenup

поддержу про xpath, работает очень быстро и просто.

вот только смотря кому и зачем их парсить :) если сайтмап построить, то как обойти лимит гугла в 600 урлов? больше он не выдаст. Никто не подскажет, как запарсить все страницы сайта? Остается вариант не из выдачи, а реально ходить по сайту :(