php

Сейчас все становится автоматизированным, время ценится все больше и разумно решать задачи за максимально меньшее время.
Для парсеров на php настали новые времена(уже давно), появились десятки готовых решений.
Я бы хотел рассмотреть несколько из них.
Начну с самого простого парсера различных данных формата xml.
Это конечно функция simplexml_load_file().
Она интерпретирует файл в объект и позволяет легко оперировать с данными.


Пример:

index.php

// структура в которой текст между тегами channel->item->title
$test = simplexml_load_string(rss.xml);

echo $test->channel->item->title; // echo test

Следующий на очереди: simple_html_dom(На sourceforge)

Удобное, но тяжеловатое решение, код местами сыроват. Из плюсов jquery-подобные конструкции при парсинге контента.
Пример парсинга ссылок на новости.

index.php

$html = file_get_html('http://m.lenta.ru/');
foreach($html->find('div[class=b-tabs-box"] a') as $element)
{
       echo $element->href;
}

Существует еще несколько похожи библиотек, различия в них со стороны синтаксиса небольшие, поэтому перейду сразу к следующему интересному парсеру.

htmlSQL(На github)

Да, вся суть в том, что парсинг контента возможен использую sql подобные запросы.

SELECT href,title FROM a WHERE $class == "list"
       ^ Attributes    ^       ^ search query (can be empty)
         to return     ^
                       ^ HTML tag to search in
                         "*" is possible = all tags

Что и как делать, выбирать каждому вариант по себе — экономить время и пользоваться готовыми решениями, проигрывая в ресурсозатратах, либо тратить время на написание кода, но получить его оптимизированным и выиграть в скорости обработки информации.