Помогите с регуляркой



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне не сложно помочь, если это в моих силах



  • Приветствую! Джентельмены помогите, второй день бьюсь и пытаюсь вытащить ссылки и адреса картинок регулярками

    src="(.+)"\ width и <a\ target="_blank"\ href="(.+)"> 
    

    созданными через бас-овский конструктор, из кода полученного со страницы через экшен "Извлечь все данные"

    <html><head><script charset="UTF-8" language="JavaScript" src="http://aff2.florist.ru/site/showcase?action=16ac878aedf08da97a4f554e4f53bf4b"></script><style type="text/css"> .but_img{ background: url(http://aff2.florist.ru/images/showcase/Button.png); display: block; height: 26px; width: 85px; margin: 0 auto; } .but_img:hover { background: url(http://aff2.florist.ru/images/showcase/Button_focused.png); } </style></head><body style="background-color: white;"><table border="0" style="margin-left:-20px!important;background-color:#fff; width:100%; border: 0px;border: 0px solid #060000;"><tbody><tr border="0"><td border="0" style="text-align:center; border: 0px;" colspan="4"><p style="font-size:16px;"> </p></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604411.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/7b/d1/_1266615adacb38c1d9253cc7b2e7/270x270/592fd3dc222c0.jpg" width="300px"></a><br>Солнце в Букете<p style="font-size:14px;">от 2390 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604601.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/87/ae/_dfc47f94278f56dd5d2cfbee492f/270x270/58fa1afa43f4f.jpg" width="300px"></a><br>Охапка Роз<p style="font-size:14px;">от 4990 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604654.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/19/ec/_a6ec5d585163e8e4cfef2f1e7fe0/270x270/58fa2054ceb44.jpg" width="300px"></a><br>Букет из Красных Роз<p style="font-size:14px;">от 890 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606378.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/b5/96/_9fcc8b8557461cbc6c3f1f8ae41a/270x270/590c33e6b65b5.jpg" width="300px"></a><br>Английские Манеры<p style="font-size:14px;">от 5160 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606382.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/4e/ec/_a211c6f0798c0969890942b0b1d4/270x270/59280551ed813.jpg" width="300px"></a><br>Букет Роз в Коробке<p style="font-size:14px;">от 3770 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-605370.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/2f/43/_baa53558b08bd9d17694ae6513b1/270x270/58fa1dd9f0c93.jpg" width="300px"></a><br>Кокетливая Француженка<p style="font-size:14px;">от 4100 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603601.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/95/30/_e1281c278e5b4d992d9efb14ce29/270x270/58fa183aaddd5.jpg" width="300px"></a><br>Отпуск на Море<p style="font-size:14px;">от 3470 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606261.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/ba/ac/_b2496defc3fa5347301a216daddb/270x270/58fa21d35ed2d.jpg" width="300px"></a><br>Женские Чары<p style="font-size:14px;">от 1990 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-602485.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/1f/13/_69fd3f59b0ba4ef7504bdf6b16a4/270x270/602485_130763_1428057462.jpg" width="300px"></a><br>Праздник Солнца<p style="font-size:14px;">от 2980 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606098.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/81/78/_3b92ec7c5370b619c3471242ee64/270x270/58fa206e0b112.jpg" width="300px"></a><br>Корзина "Проявление Чувства"<p style="font-size:14px;">от 3170 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603552.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/68/e5/_a1a1ee1061bd3e29660bb955acfd/270x270/58fa18188ec7d.jpg" width="300px"></a><br>Букет из Разноцветных Роз<p style="font-size:14px;">от 1290 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603599.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/76/c2/_7a5ad2373ff718f6965d01ed1a38/270x270/58fa18387c749.jpg" width="300px"></a><br>Солнечный Ветер<p style="font-size:14px;">от 4170 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606366.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/bb/82/_53539760d4be471e6abeede0773c/270x270/58fa197e9a766.jpg" width="300px"></a><br>Пастух и Пастушка<p style="font-size:14px;">от 1960 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603731.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/1c/bc/_40f75c6bcc2ee1aa67216edfcb22/270x270/58fa18a3168ef.jpg" width="300px"></a><br>Розовые Пионы<p style="font-size:14px;">от 3670 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604422.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/0d/aa/_286aadefe97c65d0cab69f28e0f4/270x270/58fa19ec46f94.jpg" width="300px"></a><br>Корзина "Гермини"<p style="font-size:14px;">от 4630 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606368.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/13/2c/_0731ba895104c473cfcf14a9aa7d/270x270/590c35c62a933.jpg" width="300px"></a><br>Галактика Чувств<p style="font-size:14px;">от 1970 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-600205.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/ef/fc/_418d12472ac0282144fdb1602ed6/270x270/600205_105382_1394629540.jpg" width="300px"></a><br>Радуга<p style="font-size:14px;">от 1890 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604417.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/c5/5e/_3c0373d67964637fe94544493dde/270x270/58fa19e6d978b.jpg" width="300px"></a><br>Розовая Роса<p style="font-size:14px;">от 6770 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603754.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/0a/25/_6fef00e529efdb903fb32d62fdc6/270x270/58fa18c54d98b.jpg" width="300px"></a><br>Озорные Локоны<p style="font-size:14px;">от 2970 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606340.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/96/3e/_fac17728c35cee9bdd1a89a87d79/270x270/58fa227bce7dc.jpg" width="300px"></a><br>Влюблённая Афродита<p style="font-size:14px;">от 3270 RUR</p></div></td></tr></tbody></table></body></html>
    

    но почему то тянется с мусором все, что не так делаю?



  • @bigorat попробуй заменить (.+) на (.+?)



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне сложно помочь, если это в моих силах

    гугл не победить ска )

    дичь выдает, иногда зацепает кроме ссылок левый текст

    russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке)
    https://slovar.cc › ... › Словарь воровского жаргона
    www.russki-mat.net/page.php?l=RuDe&amp;a=падла,%20падло
    https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/
    os.colta.ru/music_modern/projects/8468/details/9827/
    www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413
    mp3.cc/m/43026-art/50948413-zaebali-suki/
    www.pizdec.net/viewtopic.php?forum_id=4&amp;topic_id...
    https://zf.fm/song/4542411
    https://otvet.mail.ru › Компьютеры, Связь › Интернет
    www.diary.ru/~you-all-must-die
    www.graduss.com/m.php?todo=forum_trd&amp;id=2646
    forum.wowcircle.com › Форум › Корзина
    https://muzofond.com/.../napalm%20death%20армия%20извращ...
    www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY
    https://www.youtube.com/watch?v=xpz5SxjBvb4
    https://www.youtube.com/watch?v=2zrOzqoM3zo
    https://www.youtube.com/watch?v=r2hScZc34js
    https://www.youtube.com/watch?v=plK6sjgti9M
    https://www.youtube.com/watch?v=SkmUx42oIlc
    https://de.langenscheidt.com/russisch-deutsch/сука
    dictionary.reverso.net/russian-english/сука
    context.reverso.net/translation/russian-english/сука
    www.russki-mat.net/page.php?l=RuDe&amp;a=сукаlurkmore.to/Копипаста:Зелёный_слоник
    www.vsebudetzae.biz/ru/diary/?tag=песня&amp;sort=2&amp;offset...
    nikitich.livejournal.com/1194367.html
    


  • @santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией

    (?<=<a\ target="_blank"\ href=").*?(?=">)  и (?<=<img\ border="0"\ src=").*?(?="\ )
    

    но не работает в Басе такой код :(



  • @bigorat said in Помогите с регуляркой:

    @santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией

    (?<=<a\ target="_blank"\ href=").*?(?=">)  и (?<=<img\ border="0"\ src=").*?(?="\ )
    

    но не работает в Басе такой код :(

    тоже xpath курить придется я думаю, у меня таже байда когда в регулярки прописываю самое короткое совпадение это не катит не фига хотя в зенки все на ура



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне сложно помочь, если это в моих силах

    гугл не победить ска )

    дичь выдает, иногда зацепает кроме ссылок левый текст

    russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке)
    https://slovar.cc › ... › Словарь воровского жаргона
    www.russki-mat.net/page.php?l=RuDe&amp;a=падла,%20падло
    https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/
    os.colta.ru/music_modern/projects/8468/details/9827/
    www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413
    mp3.cc/m/43026-art/50948413-zaebali-suki/
    www.pizdec.net/viewtopic.php?forum_id=4&amp;topic_id...
    https://zf.fm/song/4542411
    https://otvet.mail.ru › Компьютеры, Связь › Интернет
    www.diary.ru/~you-all-must-die
    www.graduss.com/m.php?todo=forum_trd&amp;id=2646
    forum.wowcircle.com › Форум › Корзина
    https://muzofond.com/.../napalm%20death%20армия%20извращ...
    www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY
    https://www.youtube.com/watch?v=xpz5SxjBvb4
    https://www.youtube.com/watch?v=2zrOzqoM3zo
    https://www.youtube.com/watch?v=r2hScZc34js
    https://www.youtube.com/watch?v=plK6sjgti9M
    https://www.youtube.com/watch?v=SkmUx42oIlc
    https://de.langenscheidt.com/russisch-deutsch/сука
    dictionary.reverso.net/russian-english/сука
    context.reverso.net/translation/russian-english/сука
    www.russki-mat.net/page.php?l=RuDe&amp;a=сукаlurkmore.to/Копипаста:Зелёный_слоник
    www.vsebudetzae.biz/ru/diary/?tag=песня&amp;sort=2&amp;offset...
    nikitich.livejournal.com/1194367.html
    

    хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут



  • @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне сложно помочь, если это в моих силах

    гугл не победить ска )

    дичь выдает, иногда зацепает кроме ссылок левый текст

    russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке)
    https://slovar.cc › ... › Словарь воровского жаргона
    www.russki-mat.net/page.php?l=RuDe&amp;a=падла,%20падло
    https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/
    os.colta.ru/music_modern/projects/8468/details/9827/
    www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413
    mp3.cc/m/43026-art/50948413-zaebali-suki/
    www.pizdec.net/viewtopic.php?forum_id=4&amp;topic_id...
    https://zf.fm/song/4542411
    https://otvet.mail.ru › Компьютеры, Связь › Интернет
    www.diary.ru/~you-all-must-die
    www.graduss.com/m.php?todo=forum_trd&amp;id=2646
    forum.wowcircle.com › Форум › Корзина
    https://muzofond.com/.../napalm%20death%20армия%20извращ...
    www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY
    https://www.youtube.com/watch?v=xpz5SxjBvb4
    https://www.youtube.com/watch?v=2zrOzqoM3zo
    https://www.youtube.com/watch?v=r2hScZc34js
    https://www.youtube.com/watch?v=plK6sjgti9M
    https://www.youtube.com/watch?v=SkmUx42oIlc
    https://de.langenscheidt.com/russisch-deutsch/сука
    dictionary.reverso.net/russian-english/сука
    context.reverso.net/translation/russian-english/сука
    www.russki-mat.net/page.php?l=RuDe&amp;a=сукаlurkmore.to/Копипаста:Зелёный_слоник
    www.vsebudetzae.biz/ru/diary/?tag=песня&amp;sort=2&amp;offset...
    nikitich.livejournal.com/1194367.html
    

    хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут

    Хах придется брать запросом текст, отдавать зенке на корм
    зенка парсит складывает в урлы
    профит
    ))
    но такой костыль не камельфо
    ждем помоши...

    сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера



  • @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    @Zenodrot said in Помогите с регуляркой:

    @santilo said in Помогите с регуляркой:

    //h3[@class="r"]/a/@href

    лишнего зацепляет

    /url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw
    /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw
    /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ
    /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw
    /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw
    /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug
    /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A
    /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ
    /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA
    /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA
    

    Перед get запросом ты установил юзер агент?)

    да сори, с ним все нормально пошло, сеенкс = )

    кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)

    врядли работать будет, в конструкторе то неробит )
    получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?

    да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса

    благодарка огромное тебе друже, какой раз уже выручил.

    Да без проблем, мне сложно помочь, если это в моих силах

    гугл не победить ска )

    дичь выдает, иногда зацепает кроме ссылок левый текст

    russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке)
    https://slovar.cc › ... › Словарь воровского жаргона
    www.russki-mat.net/page.php?l=RuDe&amp;a=падла,%20падло
    https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/
    os.colta.ru/music_modern/projects/8468/details/9827/
    www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413
    mp3.cc/m/43026-art/50948413-zaebali-suki/
    www.pizdec.net/viewtopic.php?forum_id=4&amp;topic_id...
    https://zf.fm/song/4542411
    https://otvet.mail.ru › Компьютеры, Связь › Интернет
    www.diary.ru/~you-all-must-die
    www.graduss.com/m.php?todo=forum_trd&amp;id=2646
    forum.wowcircle.com › Форум › Корзина
    https://muzofond.com/.../napalm%20death%20армия%20извращ...
    www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY
    https://www.youtube.com/watch?v=xpz5SxjBvb4
    https://www.youtube.com/watch?v=2zrOzqoM3zo
    https://www.youtube.com/watch?v=r2hScZc34js
    https://www.youtube.com/watch?v=plK6sjgti9M
    https://www.youtube.com/watch?v=SkmUx42oIlc
    https://de.langenscheidt.com/russisch-deutsch/сука
    dictionary.reverso.net/russian-english/сука
    context.reverso.net/translation/russian-english/сука
    www.russki-mat.net/page.php?l=RuDe&amp;a=сукаlurkmore.to/Копипаста:Зелёный_слоник
    www.vsebudetzae.biz/ru/diary/?tag=песня&amp;sort=2&amp;offset...
    nikitich.livejournal.com/1194367.html
    

    хм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут

    Хах придется брать запросом текст, отдавать зенке на корм
    зенка парсит складывает в урлы
    профит
    ))
    но такой костыль не камельфо
    ждем помоши...

    сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера

    Это да) на гет запросах парсер нужно делать, так как потребления ресурсов в разы меньше)



  • @bigorat said in Помогите с регуляркой:

    @santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией

    (?<=<a\ target="_blank"\ href=").*?(?=">)  и (?<=<img\ border="0"\ src=").*?(?="\ )
    

    но не работает в Басе такой код :(

    слушай а такие регулярки если попробовать

    <img\ border="0"\ src="(.*?)" и <a\ target="_blank"\ href="(.*?)">
    


  • @santilo помогла тестилка зенновская, заработало так для ссылок

    <a\ target="_blank"\ href="(.*?)">
    

    и так

    <img\ border="0"\ src="(.*?)"\ width="300px">
    

    для картинок, теперь все отлавливает!



  • @bigorat said in Помогите с регуляркой:

    @santilo помогла тестилка зенновская, заработало так для ссылок

    <a\ target="_blank"\ href="(.*?)">
    

    и так

    <img\ border="0"\ src="(.*?)"\ width="300px">
    

    для картинок, теперь все отлавливает!

    Победа?)



  • @santilo, вроде как :) Почему БАС не воспринимает регулярки как в зеннопостере интересно? В нем проще их составлять намного...



  • @bigorat В басе регулярки для языка javascript) а в зенки под C# , они не совместимы между собой)



  • @santilo, а.... ясно, жаль, если бы была совместимость было бы круто, ну или какой конвертор из одного в другое :)



  • @santilo said in Помогите с регуляркой:

    кароче мой косяк, у меня 2 запроса, в одном прописан //h3[@class="r"]/a/@href, а втором запросе был первый //cite/text() вот он туда и при выполнении накидал в список кривых урлов ска

    фак еах теперь все робит так как доктор прописал, расходимся пасаны )

    xpatch - крутая фича жаль что прикручивается к определенному сайту

    если парсить с рандомных сайтов то тут только регулярка выручит



  • @Zenodrot хорошо что заметил), а то бы еще больше простоя было))



  • @Zenodrot said in Помогите с регуляркой:

    xpatch - крутая фича жаль что прикручивается к определенному сайту

    Да) я лично парсю сайты только через xpath, с ним проще) он для этого и создавался что бы парсить дом дерево и его элементы
    Например:
    <div class="one">1</div>
    <div class="one">2</div>
    <div class="one">3</div>
    Как регуляркой вытянуть из 2 дива цифру 2? скорее всего можно) но мне проще через xpath это решить
    с помощью xpath это сделать элементарно : //div[@class="one"][2]/text()



  • @santilo said in Помогите с регуляркой:

    @Zenodrot хорошо что заметил), а то бы еще больше простоя было))

    я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)

    теперь с чистой душой пойду зенку в мусорку снесу, более не требуется)
    Создателю BAS нужно памятник при жизни ставить, ИМХО


Log in to reply
 

Looks like your connection to Bablosoft was lost, please wait while we try to reconnect.