Требуется парсинг Facebook
-
Приветствую, требуется парсер фб. Цель: спарсить весь фб
Реализация:
Фэйсбук имеет жесткие лимиты на почти весь парсинг, кроме парсинга по типу имя + город.
Этим и воспользуемся.
Указываем список городом и список имен. Парсим все, что нам выдают.
Алгоритм будет примерно такой:
Имеется города Нью-йорк, Филадельфия
имена: Минди, Джон, АлисаПарсер обрабатывает так:
Минди + Нью-йорк, Джон + Нью-йорк, Алиса + Нью-йорк
Минди + Филадельфия, Джон + филадельфия, Алиса + филадельфияПонадобится где-то 1 к потоков. Вероятно, использовать амазон (как я понимаю, они для этих целей имеют сервера)
Прокси ipv6.Вероятно, через браузер или имитацию его. Хотя можно и через хттп запросы попробовать.
Аккаунты, в любом случае, будут лететь в бан, так что нужен регистратор, который будет подтягивать аккаунты на время парсинга.
Далее все это собирается в базу. В которой мы можем:
-
Использовать минус-слова по нужным нам категориям. (например, имя и слово "Лера". Все люди с именем Лера, удалятся)
-
Плюс слова по нужным нам категориям. Например, имя и слово "Лера". Все люди с именем Лера, останутся.
Этап фильтрации многоступенчатый. Т.е. операции плюс и минус слов могут использоваться несколько раз. Как в обычной бд.
А также понадобится рейтинг по самым популярным совпадениям. Приведу пример. У нас есть категория Имя. Софт считает, сколько имен совпадает и выстраивает рейтинг от самого большого количества к самому меньшему.
Если у нас в Списке:
Сергей Филатов
Сергей Есенин
Александр ПушкинСофт выстроит все так:
Сергей - 2
Александр 1Категории:
- !Вся! графа Favorites (рейтинг)
- Образование
- Город
- имя и фамилия
- Любимые цитаты (рейтинг_)
- Работа (рейтинг)
- пол
Для связи - телеграмм @Jricher
-