Стоп-слова. Парсинг и строки
-
Возникла пара вопросов, нужны советы может быть кто-то сталкивался :)
Вопрос первый.
Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?Вопрос второй. Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.
-
@venom777 Если допустим использовать парсинг этого слова со станицы и потом проверить содержится ли он в файле.(т.е. сделать действие читать файл и проверить весь файл на наличие этого слова, есть ли оно или нет)
-
@venom777 Вариант как я это делал, не знаю на сколько это вам подойдет.
Мы копируем текст вставляем его в csv потом читаем и вставляем, куда нужно
0_1478893303631_сохранить текст с форматировнием.xml
Правда не знаю на сколько большой текст можно сохранить, так как небыло нужды огромные тексты сохранять.
Плюс удобно когда можно разбить на столбцы и т.д.
-
Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?
Да, я пробовал. Это делается в 2 действия "Ресурс В Список" и "Получить Индекс". Работает на 10 к списке мгновенно
0_1479039057258_stopwords.xmlДля того, чтобы проверить наличие слов на странице нужно сначала получить все слова на странице в список, потом сделать проверку в цикле. Если запускать в режиме "Запись", то проверка стоп слов выполняется мгновенно.
0_1479039804112_stopwords.xmlИз последнего проекта вы можете сделать функцию и использовать при каждой загрузке страницы.
Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.
Перед записью новости в файл вы можете кодировать ее в base64, а после чтение раскодировать(все это действием base64)