Парсинг сайтов при помощи библиотеки phpQuery:парсим заголовки статей на главной

Исходя из названия статьи, я думаю вы догадались, что дальше речь пойдет о том, как спарсить заголовки статей с главной страницы при помощи библиотеки phpQuery.  Вообще, тема пасрсинга очень интересна и достаточно актуальна, поскольку встречается в реальных проектах сплошь и рядом. Это может вам пригодиться для того, чтобы распарсить курсы валют, цены для определенных товаров и т.д. Как решить эту задачу? Можно, конечно, решить ее в лоб, с помощью регулярных выражений, но сайты бывают разные, и вытащить информацию с помощью регулярных выражений бывает достаточно сложно. Тут то и приходят нам на помощь всевозможные библиотеки, одна из которых phpQuery.

В качестве сайта для парсинга, я выбрал сайт tproger. Надеюсь они не обидятся.

Парсим заголовки статей

Перед тем, как начать парсить данные, нам нужно изучить страницу с котором мы будем работать. Можно сделать это через отладчик, встроенный в вашем браузере. Нас интересуют все статьи, которые находятся между <div></div> с идентификтором id=main_columns

parser phpQuery

Дальше мы видим что все статьи обернуты в парный тег <article></article> с классом class="post"

parser phpQuery

Изучая дальше стрктуру, мы видим, что заголовок находится между парным тегом <h2></h2> с классом class="entry-title". Нам нужно оттуда взять заголовок, который внутри находится между <span></span>. Можем взять еще ссылку на данную стать и сделать так, чтобы по нажатию на полученный заголовок, нас перекидывало на статью, которая находится на сайте tproger.

parser phpQuery

Перед тем, как начать писать наш парсер, нужно скачать библиотеку phpQuery

В принципе, изучив все эти данные и скачав библиотеку, мы легко можем написать наш парсер.

Вот так мы написали наш парсер заголовков статей. Дальше я буду писать более сложные парсеры ну и конечно же буду делиться ими с вами. Если у вас остались какие-то вопросы, обязательно пишите в комментариях, я постараюсь на всё оветить.

Оставьте ответ

comment-avatar

*