Помогите с регуляркой
-
@Fox said in Помогите с регуляркой:
@Zenodrot На скорую руку регулярка
\/url\?q=(?!http:\/\/webcache)(.*?)&
И пробный проект.
ну да, сенкс, я научился тоже их составлять уже ) пока разбирался с ними )
-
Я не читал всю тему, но действие Xpath получить каждый xml с параметром
//*[@class="r"]//a/@href
выдает все ссылки из выдачи гугл.
-
поддержу про xpath, работает очень быстро и просто.
вот только смотря кому и зачем их парсить :) если сайтмап построить, то как обойти лимит гугла в 600 урлов? больше он не выдаст. Никто не подскажет, как запарсить все страницы сайта? Остается вариант не из выдачи, а реально ходить по сайту :(