Парсинг конента
-
Здравствуйте всем!
уважаемые профи подскажите ПЖЛ куда копать, чтобы сделать парсер контента. То есть вытащить статьи из сайтов. Сайты конечно же всегда с разным хтмл кодом. Как пример по аналогии с x-parser light или a-parser.
Парсить один конкретный отдельный сайт не вызывает трудностей - xpath прекрасно с этим справляется - а вот разные сайты не могу понять как - везде же разный код.Вариант "Получить текст xPath" с помощью такого выражения //body - это не вариант, берется весь текст сайта . Может как то можно подключить библиотеку javaScript, ту же jQuery и с помощью нее можно парсить контент с разных сайтов, где заранее не известен хтмл код?
Вообщем можно ли?
- Можно ли вообще такое сделать на БАС? или нужно будет кодить усилено?
- Подключить какую нибудь библиотеку джава скрипт для парсинга контента? Возможно какие универсально есть селекторы в этой библиотеках для такого парсера
- Возможно регулярками можно вытянуть текст статьи - но я в них не силен и кодировка сайтов везде разная.
Готового решения конечно не жду - но возможно кто подскажет алгоритм или в каком направлении копать хоть?
Заранее СПС всем
-
@garat Без обид конечно, но звучит как то:
Подскажите ПЖЛ куда копать чтобы сделать капиталку движка автомобилей. Двигатели везде разные с разными деталями.. Но мне бы универсальный разводной ключ и молоток:D
Если сайтов несколько, даже если их много, можно парсить каждый по отдельности и совмещать подходы, со временем вырабатывая оптимальный, универсальный инструмент.
Как пример по аналогии с x-parser light или a-parser.
Вот это уже интересно. x-parser парсит статьи по ключевым словам. То есть можно получить код всей страницы и по ключевым словам выдёргивать текст между тегами.
Думаю вполне реально сделать на BAS аналог. Но придётся по возится..
-
RSS ленты еще рассмотрите, возможно они имеются у всех сайтов которые вам нужны, тогда все может стать проще
-
СПС всем
-
@garat Видели эту разработку? https://mercury.postlight.com/web-parser/
-
@romanbiz said in Парсинг конента:
@garat Видели эту разработку? https://mercury.postlight.com/web-parser/
ага - интересно - тестирую
-
Почти у всех сайтов есть одинаковые коды, такие как НАЗВАНИЕ к примеру. Ну дальше вы поняли наверно да ?