PHPでHTMLをパース(オブジェクト化)して解析する簡単な方法

参照サイト:http://blog.katty.in/1400

WEBスクレイピング=出力されたHTMLを解析して、中に適切な情報が含まれているかを知る
PHPの便利な関数:simplexml_load_string()

⇒XML文書をパース(オブジェクト化)する関数だが、HTMLはパースできない。
なぜなら、HTMLというのは結構みんな自由に書かれてしまっているので、ブラウザ上で動いてしまうから。先に、『HTMLをXMLとして適切に整形』するメソッドを利用する。
DOMDocument::loadHTML:HTMLをXMLとして適切に整形するメソッド
※(PHP5から追加されたクラス)DOMDocument::loadHTML

$domDocument = new DOMDocument();
$domDocument->loadHTML($html);
$xmlString = $domDocument->saveXML();

②整形してからsimplexml_load_stringを使い、解析する。

$html = file_get_contents('http://blog.katty.in/');
$domDocument = new DOMDocument();
$domDocument->loadHTML($html);
$xmlString = $domDocument->saveXML();
$xmlObject = simplexml_load_string($xmlString);
var_dump($xmlObject);
タイトルとURLをコピーしました