Помогите с регуляркой
-
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )
но не работает в Басе такой код :(
-
@bigorat said in Помогите с регуляркой:
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )
но не работает в Басе такой код :(
тоже xpath курить придется я думаю, у меня таже байда когда в регулярки прописываю самое короткое совпадение это не катит не фига хотя в зенки все на ура
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.html
хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.html
хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
Хах придется брать запросом текст, отдавать зенке на корм
зенка парсит складывает в урлы
профит
))
но такой костыль не камельфо
ждем помоши...сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
Перед get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.html
хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
Хах придется брать запросом текст, отдавать зенке на корм
зенка парсит складывает в урлы
профит
))
но такой костыль не камельфо
ждем помоши...сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера
Это да) на гет запросах парсер нужно делать, так как потребления ресурсов в разы меньше)
-
@bigorat said in Помогите с регуляркой:
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )
но не работает в Басе такой код :(
слушай а такие регулярки если попробовать
<img\ border="0"\ src="(.*?)" и <a\ target="_blank"\ href="(.*?)">
-
@santilo помогла тестилка зенновская, заработало так для ссылок
<a\ target="_blank"\ href="(.*?)">
и так
<img\ border="0"\ src="(.*?)"\ width="300px">
для картинок, теперь все отлавливает!
-
@bigorat said in Помогите с регуляркой:
@santilo помогла тестилка зенновская, заработало так для ссылок
<a\ target="_blank"\ href="(.*?)">
и так
<img\ border="0"\ src="(.*?)"\ width="300px">
для картинок, теперь все отлавливает!
Победа?)
-
@santilo, вроде как :) Почему БАС не воспринимает регулярки как в зеннопостере интересно? В нем проще их составлять намного...
-
@bigorat В басе регулярки для языка javascript) а в зенки под C# , они не совместимы между собой)
-
@santilo, а.... ясно, жаль, если бы была совместимость было бы круто, ну или какой конвертор из одного в другое :)
-
@santilo said in Помогите с регуляркой:
кароче мой косяк, у меня 2 запроса, в одном прописан //h3[@class="r"]/a/@href, а втором запросе был первый //cite/text() вот он туда и при выполнении накидал в список кривых урлов ска
фак еах теперь все робит так как доктор прописал, расходимся пасаны )
xpatch - крутая фича жаль что прикручивается к определенному сайту
если парсить с рандомных сайтов то тут только регулярка выручит
-
@Zenodrot хорошо что заметил), а то бы еще больше простоя было))
-
@Zenodrot said in Помогите с регуляркой:
xpatch - крутая фича жаль что прикручивается к определенному сайту
Да) я лично парсю сайты только через xpath, с ним проще) он для этого и создавался что бы парсить дом дерево и его элементы
Например:
<div class="one">1</div>
<div class="one">2</div>
<div class="one">3</div>
Как регуляркой вытянуть из 2 дива цифру 2? скорее всего можно) но мне проще через xpath это решить
с помощью xpath это сделать элементарно : //div[@class="one"][2]/text()
-
@santilo said in Помогите с регуляркой:
@Zenodrot хорошо что заметил), а то бы еще больше простоя было))
я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)
теперь с чистой душой пойду зенку в мусорку снесу, более не требуется)
Создателю BAS нужно памятник при жизни ставить, ИМХО
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot хорошо что заметил), а то бы еще больше простоя было))
я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)
Правильно сделал) что в мануал заглянул) осталось его весь прочитать) и работать с xpath по необходимости
-
@bigorat said in Помогите с регуляркой:
@santilo, а.... ясно, жаль, если бы была совместимость было бы круто, ну или какой конвертор из одного в другое :)
я сам думал про конвертор, потом в зинке начал всматриваться что да как и почем регулярка там строиться и смотрел на басовсом конструкторе сравнивал синтаксис, и там наглядно понятно где поправить нужно. Теперь от зиновского отвык, нормально освоил басовский.
с BAS вожусь 3й день, уже как родной стал, отвык от зинки.
перенес сложные проекты все нормально летает.
Все проекты в многопотоке, сильно заметна разница по нагрузке железа, BAS шустрее шерстит.
пока с BAS возился за всю своею жизнь понял как строиться регулярка, раньше на это внимание не обращал в зенке тык тык и готово ) а теперь более гибкие регулярки делаю.
правда для гугла не смог победить(время жмет ипстись с ним), а так уже штук 20 наклепал разных.если бы не местные ребята, я бы наверно плюнул на BAS в первый день, первый день было тяжко привыкнуть и понять логику. В итоге еще недельку и я стану мастером по басу )
зинку юзал 3 года... по этму более легко пересел на бас.
-
Регулярки вроде как кросплатформенные должны быть, как отдельный мини язык программирования.
Проверять их лучше на regex101.com.
Если нужна помощь по регуляркам, дайте кусок кода и что нужно в итоге. Помогу чем смогу.
-
@Fox said in Помогите с регуляркой:
Регулярки вроде как кросплатформенные должны быть, как отдельный мини язык программирования.
Проверять их лучше на regex101.com.
Если нужна помощь по регуляркам, дайте кусок кода и что нужно в итоге. Помогу чем смогу.кусок кода любой с поиска гугла, нужно изъять ссылки сайтов выдаваемые гуглом
Я поипался, разобрался,настроил регулярку для гугла, синтаксис регулярки отличается незначительно но все же, вот наглядно на скрине
http://prntscr.com/fg2cn1
-