参照サイト:http://blog.katty.in/1400
WEBスクレイピング=出力されたHTMLを解析して、中に適切な情報が含まれているかを知る
PHPの便利な関数:simplexml_load_string()
⇒XML文書をパース(オブジェクト化)する関数だが、HTMLはパースできない。
なぜなら、HTMLというのは結構みんな自由に書かれてしまっているので、ブラウザ上で動いてしまうから。先に、『HTMLをXMLとして適切に整形』するメソッドを利用する。
①DOMDocument::loadHTML:HTMLをXMLとして適切に整形するメソッド
※(PHP5から追加されたクラス)DOMDocument::loadHTML
$domDocument = new DOMDocument(); $domDocument->loadHTML($html); $xmlString = $domDocument->saveXML(); |
②整形してからsimplexml_load_stringを使い、解析する。
$html = file_get_contents('http://blog.katty.in/'); $domDocument = new DOMDocument(); $domDocument->loadHTML($html); $xmlString = $domDocument->saveXML(); $xmlObject = simplexml_load_string($xmlString); var_dump($xmlObject); |