Как в конце каждого потока проверять "Результаты" на дубли, чтобы во время парсинга гугла в окне "Результаты" строки всегда были без повторов?



  • @Revers замените результат на ресурс, с галочкой только запись. Добавьте раз в определенное время очистку дублей, например, в скрипте можно получить количество успехов на данный момент, сделать в скрипте условие if, если количество успехов кратно 100 (переменная с количеством успехов % 100 == 0), то получать расположение ресурса, куда пишем результаты, читать файл в список, удалить дубли, записать список в файл с перезаписью (в экшене записи в файл не ставить галочку дописывать файл). Так же что бы не нагружать оперативку при добавлении результата в ресурс ставим галочки только добавить в файл/базу, а для того что бы результаты добавлялись в лайве, ставим галочку добавить в файл/базу мгновенно



  • @Fox Каким образом проверять наличие в файле сохраняемой ссылки ?



  • @Revers с вашим объемом данных это будет ресурсоемко - нужно будет прочитать файл в список и проверить​ существование строки в списке.
    П.с. небольшое примечание к моему способу выше - после того, как перезапишите файл, очистите переменную, в которую вы читали файл, это можно сделать действием установить переменную, например​ в значение 0, или выполнить код delete VAR_имя_переменной



  • @Revers Экшен Читать файл links.txt, содержит (список), If ![[LIST_CONTAINS]] то сохранить результат в файл, с галочками добавить символ окончания строки и дописывать файл.



  • Ok. Буду тестить.



  • @DrPrime Как обстоят дела с ютубом? Там при входе нет хэша(да, я смотрел то 5 часовое видео)?



  • @Revers Я согласен с @DrPrime каждую найденную ссылку сравнивать со всем списком очень ресурсоёмкий процесс. А вот периодическая очистка от дублей конечного результата будет оптимальным вариантом.



  • @Revers еще не смотрел



  • Как правильно записывать в файл?, чтобы не возникало [02:55:55] Поток №1 : Все данные были обработаны для links



  • @Revers получать расположение ресурса, куда пишем результаты, и с этим адресом работать в с файловой системой



  • @Revers
    Как вариант, можно писать все значения, выводимые в результат, в базу. Перед каждым выводом проверять наличие значения в базе довольно легко.


Log in to reply
 

Looks like your connection to Bablosoft was lost, please wait while we try to reconnect.