Берем код страницы
-
Ребята, подскажите плиз, задача - нужно собрать данные из кода страницы (код элемента), страниц много, как это можно реализовать?
- Есть-ли какая-то функция, которая парсит определенное слово из кода каждой страницы?
- Как лучше организовать парсинг страниц - сначала спарсить список (ссылки на страницы) а потом парсить код ?
Сорри за нуб вопросы, начинающий в этом деле
-
@ogurchiki
Со списком удобно работать действием Foreach. вбиваешь туда переменную со списком сайтов, на каждую итерацию (сиречь проход) она будет отдавать в переменной (что-то с foreach в названии, в Инспекторе переменных посмотри) нужный адрес.
Страничку можно получить get-запросом.Просто адрес туда вбиваешь, потом экшен "содержание ответа". Дальше получай нужное слово регуляркой. Экшен первое вхождение, аргументы: переменная с кодом страницы, регулярное выражение.
По регуляркам: кури теорию вот тут http://vdasus.com/2010/06/15/regulyarnye-vyrazheniya-dlya-samyh-nachinayuschih/
Практика: прямо в экшене "первое вхождение" будет "конструктор регулярных выражений". Упростит написание и тестирование.
Удачи.
-
@Viktor спасибо!
-
@ogurchiki Есть действие "Код страницы", оно получает хтмл. Его можно обрабатывать голым javascript, регулярными выражениями и xpath, намного лучше последним.