Помогите с регуляркой
-
все работает как по маслу, мануал сохранил =) от души тебе респект
-
@Zenodrot said in Помогите с регуляркой:
все работает как по маслу, мануал сохранил =) от души тебе респект
Рад был помочь
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
все работает как по маслу, мануал сохранил =) от души тебе респект
Рад был помочь
Рано я радовался ) получаю иногда кривые ссылки
www.zoopicture.ru/porody-koshek/ bazarpnz.ru/zhivotnye_rastenija/koshki/? lurkmore.to/ www.vokrugsveta.ru/article/200637/ https://www.adme.ru/.../19-shikarnyh-koshek-kotorye-stoyat-celoe- sostoyanie-1358165/ https://www.farpost.ru/vladivostok/pets/ / https://www.avito.ru/kaliningrad/koshki https://www.avito.ru/tula/koshki https://www.avito.ru/voronezh/koshki https://www.avito.ru/sankt-peterburg/koshki https://www.avito.ru/rostov-na-donu/koshki https://www.avito.ru/nizhniy_novgorod/koshki?geo=56... www.bbc.com/russian/.../11/151113_vert_earth_ _are_selfish murkote.com/abissinskaya-koshka/ https://minecraft-ru.gamepedia.com/ www.nat-geo.ru/nature/192418-zachem-koshki-murlykayut/ https://market.sakh.com/animals/ / catmuseum.ru/ https://ok.ru/milota https://www.ss.lv/ru/animals/ / https://www.purina.ru/ https://life.ru/t/ https://www.purina.ru/ www.royal-canin.ru/catalog/korm_dlya_koshek/ www.stihi-rus.ru/1/Cvetaeva/71 /
как бы подправить
Xpath =) ? мануал покурю обязательно просто очень время ужато, проект нужен в боевом режиме еще вчера (
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
все работает как по маслу, мануал сохранил =) от души тебе респект
Рад был помочь
Рано я радовался ) получаю иногда кривые ссылки
www.zoopicture.ru/porody-koshek/ bazarpnz.ru/zhivotnye_rastenija/koshki/? lurkmore.to/ www.vokrugsveta.ru/article/200637/ https://www.adme.ru/.../19-shikarnyh-koshek-kotorye-stoyat-celoe- sostoyanie-1358165/ https://www.farpost.ru/vladivostok/pets/ / https://www.avito.ru/kaliningrad/koshki https://www.avito.ru/tula/koshki https://www.avito.ru/voronezh/koshki https://www.avito.ru/sankt-peterburg/koshki https://www.avito.ru/rostov-na-donu/koshki https://www.avito.ru/nizhniy_novgorod/koshki?geo=56... www.bbc.com/russian/.../11/151113_vert_earth_ _are_selfish murkote.com/abissinskaya-koshka/ https://minecraft-ru.gamepedia.com/ www.nat-geo.ru/nature/192418-zachem-koshki-murlykayut/ https://market.sakh.com/animals/ / catmuseum.ru/ https://ok.ru/milota https://www.ss.lv/ru/animals/ / https://www.purina.ru/ https://life.ru/t/ https://www.purina.ru/ www.royal-canin.ru/catalog/korm_dlya_koshek/ www.stihi-rus.ru/1/Cvetaeva/71 /
как бы подправить
Xpath =) ? мануал покурю обязательно просто очень время ужато, проект нужен в боевом режиме еще вчера (Блин) действительно есть такой косяк) вот решение:
1 действие HTTP-Клиент Установить Заголовок , установите юзер агент который идет по умолчанию
2 get запрос
3 xpath действие с таким запросомXpath запрос://h3[@class="r"]/a/@href
-
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне не сложно помочь, если это в моих силах
-
Приветствую! Джентельмены помогите, второй день бьюсь и пытаюсь вытащить ссылки и адреса картинок регулярками
src="(.+)"\ width и <a\ target="_blank"\ href="(.+)">
созданными через бас-овский конструктор, из кода полученного со страницы через экшен "Извлечь все данные"
<html><head><script charset="UTF-8" language="JavaScript" src="http://aff2.florist.ru/site/showcase?action=16ac878aedf08da97a4f554e4f53bf4b"></script><style type="text/css"> .but_img{ background: url(http://aff2.florist.ru/images/showcase/Button.png); display: block; height: 26px; width: 85px; margin: 0 auto; } .but_img:hover { background: url(http://aff2.florist.ru/images/showcase/Button_focused.png); } </style></head><body style="background-color: white;"><table border="0" style="margin-left:-20px!important;background-color:#fff; width:100%; border: 0px;border: 0px solid #060000;"><tbody><tr border="0"><td border="0" style="text-align:center; border: 0px;" colspan="4"><p style="font-size:16px;"> </p></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604411.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/7b/d1/_1266615adacb38c1d9253cc7b2e7/270x270/592fd3dc222c0.jpg" width="300px"></a><br>Солнце в Букете<p style="font-size:14px;">от 2390 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604601.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/87/ae/_dfc47f94278f56dd5d2cfbee492f/270x270/58fa1afa43f4f.jpg" width="300px"></a><br>Охапка Роз<p style="font-size:14px;">от 4990 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604654.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/19/ec/_a6ec5d585163e8e4cfef2f1e7fe0/270x270/58fa2054ceb44.jpg" width="300px"></a><br>Букет из Красных Роз<p style="font-size:14px;">от 890 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606378.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/b5/96/_9fcc8b8557461cbc6c3f1f8ae41a/270x270/590c33e6b65b5.jpg" width="300px"></a><br>Английские Манеры<p style="font-size:14px;">от 5160 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606382.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/4e/ec/_a211c6f0798c0969890942b0b1d4/270x270/59280551ed813.jpg" width="300px"></a><br>Букет Роз в Коробке<p style="font-size:14px;">от 3770 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-605370.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/2f/43/_baa53558b08bd9d17694ae6513b1/270x270/58fa1dd9f0c93.jpg" width="300px"></a><br>Кокетливая Француженка<p style="font-size:14px;">от 4100 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603601.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/95/30/_e1281c278e5b4d992d9efb14ce29/270x270/58fa183aaddd5.jpg" width="300px"></a><br>Отпуск на Море<p style="font-size:14px;">от 3470 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606261.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/ba/ac/_b2496defc3fa5347301a216daddb/270x270/58fa21d35ed2d.jpg" width="300px"></a><br>Женские Чары<p style="font-size:14px;">от 1990 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-602485.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/1f/13/_69fd3f59b0ba4ef7504bdf6b16a4/270x270/602485_130763_1428057462.jpg" width="300px"></a><br>Праздник Солнца<p style="font-size:14px;">от 2980 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606098.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/81/78/_3b92ec7c5370b619c3471242ee64/270x270/58fa206e0b112.jpg" width="300px"></a><br>Корзина "Проявление Чувства"<p style="font-size:14px;">от 3170 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603552.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/68/e5/_a1a1ee1061bd3e29660bb955acfd/270x270/58fa18188ec7d.jpg" width="300px"></a><br>Букет из Разноцветных Роз<p style="font-size:14px;">от 1290 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603599.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/76/c2/_7a5ad2373ff718f6965d01ed1a38/270x270/58fa18387c749.jpg" width="300px"></a><br>Солнечный Ветер<p style="font-size:14px;">от 4170 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606366.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/bb/82/_53539760d4be471e6abeede0773c/270x270/58fa197e9a766.jpg" width="300px"></a><br>Пастух и Пастушка<p style="font-size:14px;">от 1960 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603731.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/1c/bc/_40f75c6bcc2ee1aa67216edfcb22/270x270/58fa18a3168ef.jpg" width="300px"></a><br>Розовые Пионы<p style="font-size:14px;">от 3670 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604422.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/0d/aa/_286aadefe97c65d0cab69f28e0f4/270x270/58fa19ec46f94.jpg" width="300px"></a><br>Корзина "Гермини"<p style="font-size:14px;">от 4630 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606368.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/13/2c/_0731ba895104c473cfcf14a9aa7d/270x270/590c35c62a933.jpg" width="300px"></a><br>Галактика Чувств<p style="font-size:14px;">от 1970 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-600205.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/ef/fc/_418d12472ac0282144fdb1602ed6/270x270/600205_105382_1394629540.jpg" width="300px"></a><br>Радуга<p style="font-size:14px;">от 1890 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604417.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/c5/5e/_3c0373d67964637fe94544493dde/270x270/58fa19e6d978b.jpg" width="300px"></a><br>Розовая Роса<p style="font-size:14px;">от 6770 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603754.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/0a/25/_6fef00e529efdb903fb32d62fdc6/270x270/58fa18c54d98b.jpg" width="300px"></a><br>Озорные Локоны<p style="font-size:14px;">от 2970 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606340.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/96/3e/_fac17728c35cee9bdd1a89a87d79/270x270/58fa227bce7dc.jpg" width="300px"></a><br>Влюблённая Афродита<p style="font-size:14px;">от 3270 RUR</p></div></td></tr></tbody></table></body></html>
но почему то тянется с мусором все, что не так делаю?
-
@bigorat попробуй заменить (.+) на (.+?)
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.html
-
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )
но не работает в Басе такой код :(
-
@bigorat said in Помогите с регуляркой:
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )
но не работает в Басе такой код :(
тоже xpath курить придется я думаю, у меня таже байда когда в регулярки прописываю самое короткое совпадение это не катит не фига хотя в зенки все на ура
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.html
хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.html
хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
Хах придется брать запросом текст, отдавать зенке на корм
зенка парсит складывает в урлы
профит
))
но такой костыль не камельфо
ждем помоши...сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.html
хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
Хах придется брать запросом текст, отдавать зенке на корм
зенка парсит складывает в урлы
профит
))
но такой костыль не камельфо
ждем помоши...сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера
Это да) на гет запросах парсер нужно делать, так как потребления ресурсов в разы меньше)