Как почистить регуляркой текст от хтмл кода и скриптов?
-
Надо почистить текст от хтмл кода и скриптов. Делал через Xpath Запрос атрибут //body он чистит от html кода но не чистить от кода внутри таких скобок <!-- --> и внутри скрипта <script></script>
Нашел регулярку Удалить весь текст между двумя определенными символами (в данном примере — между двух кавычек): "([^"]*)" но если ее использовать она выбирает не нужный мне кусок кода а не чистит от него, как именно почистить код?
-
This post is deleted!
-
@Samael_96 <[^<]+?> находит
-
@artihorror Спасибо конечно, но для меня главный вопрос, стоит как сделать так, чтобы регулярка не выбирала ненужный мне текст а чистила от него. Наверное туплю, в зеннопостере можно было, сделать так. Действие заменить, и в нем регулярку меняем на пусто, как в Басе такое провернуть?
-
@Samael_96 </?[a-z][a-z0-9][^<>]>|<!--.*?--> В Notepad++ заменить на пустоту
-
@Samael_96 извлечь данные .*[ ^<[^<]+?> ]/g вроде так. Не проверял
-
@Samael_96 said in Как почистить регуляркой текст от хтмл кода и скриптов?:
для меня главный вопрос, стоит как сделать так, чтобы регулярка не выбирала ненужный мне текст а чистила от него.
https://learn.javascript.ru/regexp-methods#str-replace-reg-str-func
[[SAVED_HTML]] = [[SAVED_HTML]].replace(/<[^<]+>/g, "");
-
@Samael_96 Можешь пользоваться, если не принципиально, чтобы это делал БАС прогой 0_1490806444487_RegexFilter.zip Подбираешь разные регулярки и чистишь текст
-