Помогите с регуляркой



  • @Zenodrot said in Помогите с регуляркой:

    все работает как по маслу, мануал сохранил =) от души тебе респект

    Рад был помочь



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    все работает как по маслу, мануал сохранил =) от души тебе респект

    Рад был помочь

    Рано я радовался ) получаю иногда кривые ссылки

    www.zoopicture.ru/porody-koshek/
    bazarpnz.ru/zhivotnye_rastenija/koshki/?
    lurkmore.to/
    www.vokrugsveta.ru/article/200637/
    https://www.adme.ru/.../19-shikarnyh-koshek-kotorye-stoyat-celoe- sostoyanie-1358165/
    https://www.farpost.ru/vladivostok/pets/
    /
    https://www.avito.ru/kaliningrad/koshki
    https://www.avito.ru/tula/koshki
    https://www.avito.ru/voronezh/koshki
    https://www.avito.ru/sankt-peterburg/koshki
    https://www.avito.ru/rostov-na-donu/koshki
    https://www.avito.ru/nizhniy_novgorod/koshki?geo=56...
    www.bbc.com/russian/.../11/151113_vert_earth_
    _are_selfish
    murkote.com/abissinskaya-koshka/
    https://minecraft-ru.gamepedia.com/
    www.nat-geo.ru/nature/192418-zachem-koshki-murlykayut/
    https://market.sakh.com/animals/
    /
    catmuseum.ru/
    https://ok.ru/milota
    https://www.ss.lv/ru/animals/
    /
    https://www.purina.ru/
    https://life.ru/t/
    https://www.purina.ru/
    www.royal-canin.ru/catalog/korm_dlya_koshek/
    www.stihi-rus.ru/1/Cvetaeva/71
    /
    

    как бы подправить
    Xpath =) ? мануал покурю обязательно просто очень время ужато, проект нужен в боевом режиме еще вчера (



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    все работает как по маслу, мануал сохранил =) от души тебе респект

    Рад был помочь

    Рано я радовался ) получаю иногда кривые ссылки

    www.zoopicture.ru/porody-koshek/
    bazarpnz.ru/zhivotnye_rastenija/koshki/?
    lurkmore.to/
    www.vokrugsveta.ru/article/200637/
    https://www.adme.ru/.../19-shikarnyh-koshek-kotorye-stoyat-celoe- sostoyanie-1358165/
    https://www.farpost.ru/vladivostok/pets/
    /
    https://www.avito.ru/kaliningrad/koshki
    https://www.avito.ru/tula/koshki
    https://www.avito.ru/voronezh/koshki
    https://www.avito.ru/sankt-peterburg/koshki
    https://www.avito.ru/rostov-na-donu/koshki
    https://www.avito.ru/nizhniy_novgorod/koshki?geo=56...
    www.bbc.com/russian/.../11/151113_vert_earth_
    _are_selfish
    murkote.com/abissinskaya-koshka/
    https://minecraft-ru.gamepedia.com/
    www.nat-geo.ru/nature/192418-zachem-koshki-murlykayut/
    https://market.sakh.com/animals/
    /
    catmuseum.ru/
    https://ok.ru/milota
    https://www.ss.lv/ru/animals/
    /
    https://www.purina.ru/
    https://life.ru/t/
    https://www.purina.ru/
    www.royal-canin.ru/catalog/korm_dlya_koshek/
    www.stihi-rus.ru/1/Cvetaeva/71
    /
    

    как бы подправить
    Xpath =) ? мануал покурю обязательно просто очень время ужато, проект нужен в боевом режиме еще вчера (

    Блин) действительно есть такой косяк) вот решение:
    1 действие HTTP-Клиент Установить Заголовок , установите юзер агент который идет по умолчанию
    2 get запрос
    3 xpath действие с таким запросом

    Xpath запрос://h3[@class="r"]/a/@href



  • @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    


  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне не сложно помочь, если это в моих силах



  • Приветствую! Джентельмены помогите, второй день бьюсь и пытаюсь вытащить ссылки и адреса картинок регулярками

    src="(.+)"\ width и <a\ target="_blank"\ href="(.+)"> 
    

    созданными через бас-овский конструктор, из кода полученного со страницы через экшен "Извлечь все данные"

    <html><head><script charset="UTF-8" language="JavaScript" src="http://aff2.florist.ru/site/showcase?action=16ac878aedf08da97a4f554e4f53bf4b"></script><style type="text/css"> .but_img{ background: url(http://aff2.florist.ru/images/showcase/Button.png); display: block; height: 26px; width: 85px; margin: 0 auto; } .but_img:hover { background: url(http://aff2.florist.ru/images/showcase/Button_focused.png); } </style></head><body style="background-color: white;"><table border="0" style="margin-left:-20px!important;background-color:#fff; width:100%; border: 0px;border: 0px solid #060000;"><tbody><tr border="0"><td border="0" style="text-align:center; border: 0px;" colspan="4"><p style="font-size:16px;"> </p></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604411.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/7b/d1/_1266615adacb38c1d9253cc7b2e7/270x270/592fd3dc222c0.jpg" width="300px"></a><br>Солнце в Букете<p style="font-size:14px;">от 2390 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604601.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/87/ae/_dfc47f94278f56dd5d2cfbee492f/270x270/58fa1afa43f4f.jpg" width="300px"></a><br>Охапка Роз<p style="font-size:14px;">от 4990 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604654.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/19/ec/_a6ec5d585163e8e4cfef2f1e7fe0/270x270/58fa2054ceb44.jpg" width="300px"></a><br>Букет из Красных Роз<p style="font-size:14px;">от 890 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606378.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/b5/96/_9fcc8b8557461cbc6c3f1f8ae41a/270x270/590c33e6b65b5.jpg" width="300px"></a><br>Английские Манеры<p style="font-size:14px;">от 5160 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606382.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/4e/ec/_a211c6f0798c0969890942b0b1d4/270x270/59280551ed813.jpg" width="300px"></a><br>Букет Роз в Коробке<p style="font-size:14px;">от 3770 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-605370.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/2f/43/_baa53558b08bd9d17694ae6513b1/270x270/58fa1dd9f0c93.jpg" width="300px"></a><br>Кокетливая Француженка<p style="font-size:14px;">от 4100 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603601.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/95/30/_e1281c278e5b4d992d9efb14ce29/270x270/58fa183aaddd5.jpg" width="300px"></a><br>Отпуск на Море<p style="font-size:14px;">от 3470 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606261.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/ba/ac/_b2496defc3fa5347301a216daddb/270x270/58fa21d35ed2d.jpg" width="300px"></a><br>Женские Чары<p style="font-size:14px;">от 1990 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-602485.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/1f/13/_69fd3f59b0ba4ef7504bdf6b16a4/270x270/602485_130763_1428057462.jpg" width="300px"></a><br>Праздник Солнца<p style="font-size:14px;">от 2980 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606098.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/81/78/_3b92ec7c5370b619c3471242ee64/270x270/58fa206e0b112.jpg" width="300px"></a><br>Корзина "Проявление Чувства"<p style="font-size:14px;">от 3170 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603552.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/68/e5/_a1a1ee1061bd3e29660bb955acfd/270x270/58fa18188ec7d.jpg" width="300px"></a><br>Букет из Разноцветных Роз<p style="font-size:14px;">от 1290 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603599.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/76/c2/_7a5ad2373ff718f6965d01ed1a38/270x270/58fa18387c749.jpg" width="300px"></a><br>Солнечный Ветер<p style="font-size:14px;">от 4170 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606366.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/bb/82/_53539760d4be471e6abeede0773c/270x270/58fa197e9a766.jpg" width="300px"></a><br>Пастух и Пастушка<p style="font-size:14px;">от 1960 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603731.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/1c/bc/_40f75c6bcc2ee1aa67216edfcb22/270x270/58fa18a3168ef.jpg" width="300px"></a><br>Розовые Пионы<p style="font-size:14px;">от 3670 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604422.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/0d/aa/_286aadefe97c65d0cab69f28e0f4/270x270/58fa19ec46f94.jpg" width="300px"></a><br>Корзина "Гермини"<p style="font-size:14px;">от 4630 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606368.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/13/2c/_0731ba895104c473cfcf14a9aa7d/270x270/590c35c62a933.jpg" width="300px"></a><br>Галактика Чувств<p style="font-size:14px;">от 1970 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-600205.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/ef/fc/_418d12472ac0282144fdb1602ed6/270x270/600205_105382_1394629540.jpg" width="300px"></a><br>Радуга<p style="font-size:14px;">от 1890 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604417.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/c5/5e/_3c0373d67964637fe94544493dde/270x270/58fa19e6d978b.jpg" width="300px"></a><br>Розовая Роса<p style="font-size:14px;">от 6770 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603754.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/0a/25/_6fef00e529efdb903fb32d62fdc6/270x270/58fa18c54d98b.jpg" width="300px"></a><br>Озорные Локоны<p style="font-size:14px;">от 2970 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606340.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/96/3e/_fac17728c35cee9bdd1a89a87d79/270x270/58fa227bce7dc.jpg" width="300px"></a><br>Влюблённая Афродита<p style="font-size:14px;">от 3270 RUR</p></div></td></tr></tbody></table></body></html>
    

    но почему то тянется с мусором все, что не так делаю?



  • @bigorat попробуй заменить (.+) на (.+?)



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне сложно помочь, если это в моих силах

    гугл не победить ска )

    дичь выдает, иногда зацепает кроме ссылок левый текст

    russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке)
    https://slovar.cc › ... › Словарь воровского жаргона
    www.russki-mat.net/page.php?l=RuDe&amp;a=падла,%20падло
    https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/
    os.colta.ru/music_modern/projects/8468/details/9827/
    www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413
    mp3.cc/m/43026-art/50948413-zaebali-suki/
    www.pizdec.net/viewtopic.php?forum_id=4&amp;topic_id...
    https://zf.fm/song/4542411
    https://otvet.mail.ru › Компьютеры, Связь › Интернет
    www.diary.ru/~you-all-must-die
    www.graduss.com/m.php?todo=forum_trd&amp;id=2646
    forum.wowcircle.com › Форум › Корзина
    https://muzofond.com/.../napalm%20death%20армия%20извращ...
    www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY
    https://www.youtube.com/watch?v=xpz5SxjBvb4
    https://www.youtube.com/watch?v=2zrOzqoM3zo
    https://www.youtube.com/watch?v=r2hScZc34js
    https://www.youtube.com/watch?v=plK6sjgti9M
    https://www.youtube.com/watch?v=SkmUx42oIlc
    https://de.langenscheidt.com/russisch-deutsch/сука
    dictionary.reverso.net/russian-english/сука
    context.reverso.net/translation/russian-english/сука
    www.russki-mat.net/page.php?l=RuDe&amp;a=сукаlurkmore.to/Копипаста:Зелёный_слоник
    www.vsebudetzae.biz/ru/diary/?tag=песня&amp;sort=2&amp;offset...
    nikitich.livejournal.com/1194367.html
    


  • @santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией

    (?<=<a\ target="_blank"\ href=").*?(?=">)  и (?<=<img\ border="0"\ src=").*?(?="\ )
    

    но не работает в Басе такой код :(



  • @bigorat said in Помогите с регуляркой:

    @santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией

    (?<=<a\ target="_blank"\ href=").*?(?=">)  и (?<=<img\ border="0"\ src=").*?(?="\ )
    

    но не работает в Басе такой код :(

    тоже xpath курить придется я думаю, у меня таже байда когда в регулярки прописываю самое короткое совпадение это не катит не фига хотя в зенки все на ура



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне сложно помочь, если это в моих силах

    гугл не победить ска )

    дичь выдает, иногда зацепает кроме ссылок левый текст

    russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке)
    https://slovar.cc › ... › Словарь воровского жаргона
    www.russki-mat.net/page.php?l=RuDe&amp;a=падла,%20падло
    https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/
    os.colta.ru/music_modern/projects/8468/details/9827/
    www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413
    mp3.cc/m/43026-art/50948413-zaebali-suki/
    www.pizdec.net/viewtopic.php?forum_id=4&amp;topic_id...
    https://zf.fm/song/4542411
    https://otvet.mail.ru › Компьютеры, Связь › Интернет
    www.diary.ru/~you-all-must-die
    www.graduss.com/m.php?todo=forum_trd&amp;id=2646
    forum.wowcircle.com › Форум › Корзина
    https://muzofond.com/.../napalm%20death%20армия%20извращ...
    www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY
    https://www.youtube.com/watch?v=xpz5SxjBvb4
    https://www.youtube.com/watch?v=2zrOzqoM3zo
    https://www.youtube.com/watch?v=r2hScZc34js
    https://www.youtube.com/watch?v=plK6sjgti9M
    https://www.youtube.com/watch?v=SkmUx42oIlc
    https://de.langenscheidt.com/russisch-deutsch/сука
    dictionary.reverso.net/russian-english/сука
    context.reverso.net/translation/russian-english/сука
    www.russki-mat.net/page.php?l=RuDe&amp;a=сукаlurkmore.to/Копипаста:Зелёный_слоник
    www.vsebudetzae.biz/ru/diary/?tag=песня&amp;sort=2&amp;offset...
    nikitich.livejournal.com/1194367.html
    

    хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне сложно помочь, если это в моих силах

    гугл не победить ска )

    дичь выдает, иногда зацепает кроме ссылок левый текст

    russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке)
    https://slovar.cc › ... › Словарь воровского жаргона
    www.russki-mat.net/page.php?l=RuDe&amp;a=падла,%20падло
    https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/
    os.colta.ru/music_modern/projects/8468/details/9827/
    www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413
    mp3.cc/m/43026-art/50948413-zaebali-suki/
    www.pizdec.net/viewtopic.php?forum_id=4&amp;topic_id...
    https://zf.fm/song/4542411
    https://otvet.mail.ru › Компьютеры, Связь › Интернет
    www.diary.ru/~you-all-must-die
    www.graduss.com/m.php?todo=forum_trd&amp;id=2646
    forum.wowcircle.com › Форум › Корзина
    https://muzofond.com/.../napalm%20death%20армия%20извращ...
    www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY
    https://www.youtube.com/watch?v=xpz5SxjBvb4
    https://www.youtube.com/watch?v=2zrOzqoM3zo
    https://www.youtube.com/watch?v=r2hScZc34js
    https://www.youtube.com/watch?v=plK6sjgti9M
    https://www.youtube.com/watch?v=SkmUx42oIlc
    https://de.langenscheidt.com/russisch-deutsch/сука
    dictionary.reverso.net/russian-english/сука
    context.reverso.net/translation/russian-english/сука
    www.russki-mat.net/page.php?l=RuDe&amp;a=сукаlurkmore.to/Копипаста:Зелёный_слоник
    www.vsebudetzae.biz/ru/diary/?tag=песня&amp;sort=2&amp;offset...
    nikitich.livejournal.com/1194367.html
    

    хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут

    Хах придется брать запросом текст, отдавать зенке на корм
    зенка парсит складывает в урлы
    профит
    ))
    но такой костыль не камельфо
    ждем помоши...

    сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне сложно помочь, если это в моих силах

    гугл не победить ска )

    дичь выдает, иногда зацепает кроме ссылок левый текст

    russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке)
    https://slovar.cc › ... › Словарь воровского жаргона
    www.russki-mat.net/page.php?l=RuDe&amp;a=падла,%20падло
    https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/
    os.colta.ru/music_modern/projects/8468/details/9827/
    www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413
    mp3.cc/m/43026-art/50948413-zaebali-suki/
    www.pizdec.net/viewtopic.php?forum_id=4&amp;topic_id...
    https://zf.fm/song/4542411
    https://otvet.mail.ru › Компьютеры, Связь › Интернет
    www.diary.ru/~you-all-must-die
    www.graduss.com/m.php?todo=forum_trd&amp;id=2646
    forum.wowcircle.com › Форум › Корзина
    https://muzofond.com/.../napalm%20death%20армия%20извращ...
    www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY
    https://www.youtube.com/watch?v=xpz5SxjBvb4
    https://www.youtube.com/watch?v=2zrOzqoM3zo
    https://www.youtube.com/watch?v=r2hScZc34js
    https://www.youtube.com/watch?v=plK6sjgti9M
    https://www.youtube.com/watch?v=SkmUx42oIlc
    https://de.langenscheidt.com/russisch-deutsch/сука
    dictionary.reverso.net/russian-english/сука
    context.reverso.net/translation/russian-english/сука
    www.russki-mat.net/page.php?l=RuDe&amp;a=сукаlurkmore.to/Копипаста:Зелёный_слоник
    www.vsebudetzae.biz/ru/diary/?tag=песня&amp;sort=2&amp;offset...
    nikitich.livejournal.com/1194367.html
    

    хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут

    Хах придется брать запросом текст, отдавать зенке на корм
    зенка парсит складывает в урлы
    профит
    ))
    но такой костыль не камельфо
    ждем помоши...

    сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера

    Это да) на гет запросах парсер нужно делать, так как потребления ресурсов в разы меньше)



  • @bigorat said in Помогите с регуляркой:

    @santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией

    (?<=<a\ target="_blank"\ href=").*?(?=">)  и (?<=<img\ border="0"\ src=").*?(?="\ )
    

    но не работает в Басе такой код :(

    слушай а такие регулярки если попробовать

    <img\ border="0"\ src="(.*?)" и <a\ target="_blank"\ href="(.*?)">
    

Log in to reply
 

Looks like your connection to Bablosoft was lost, please wait while we try to reconnect.