PHPでタイトル取得してみた

参考サイト:PHPでWEBページのタイトルを抜き出すサンプル
      http://creazy.net/2008/05/php_get_page_title_sample.html

こんな感じで書いて動かしてみる

echo "PageTitle:". getPageTitle("http://www.google.co.jp/");

function getPageTitle($url) {
    $html = file_get_contents($url);
    $html = mb_convert_encoding($html, "UTF-8", "auto" );
    if (preg_match( "/<title>(.*?)</title>/i", $html, $matches)) {
        return $matches[1];
    } else {
        return "タイトル取れなかった";
    }
}

実行すると、一応結果は表示される…が!
Warning: mb_convert_encoding() [function.mb-convert-encoding]: Unable to detect character encoding
って出る、解決するには、

$html = mb_convert_encoding($html, mb_internal_encoding());

と、”auto”を消すだけだった。

これで、”一応取”得はできた
次に今のコードで、
http://headlines.yahoo.co.jp/hl?a=20110321-00000046-jij-soci
ここの名前を取ろうとすると…

見事に文字化けする!
(ちなみに、”auto” 付けてもダメでした)
勝手にエンコードの種類を特定して勝手にしてくれるのかと思ってた…

もしかして:このページが EUC-JP で出来てるから?

取りあえず、ゴニョゴニョしてみる

結論こんなコードになった。

echo "PageTitle:". getPageTitle("http://headlines.yahoo.co.jp/hl?a=20110321-00000046-jij-soci");

function getPageTitle( $url ) {
    $html = file_get_contents($url);
    $enc_format =  "JIS, eucjp-win, sjis-win, UTF-8";
    $html = mb_convert_encoding($html, "UTF-8", $enc_format);
    if ( preg_match( "/<title>(.*?)</title>/i", $html, $matches) ) {
        return $matches[1];
    } else {
        return "タイトル取れなかった";
    }
}

“auto”じゃなく、形式を指定してあげればいいみたい

ちなみに、なぜ、eucjp-win とか付けるのか?
参考サイト:SJISじゃなくてSJIS-win、EUC-JPじゃなくてeucJP-winを使おう
      http://pentan.info/php/sjiswin_eucjpwin.html

以上終わりです。

っと思ったけど、まだ続きがある!
世の中にはこんなサイトもある、

( ゚д゚)…

?!

改行が…

まぁ、正規表現変えればいいだけなんだけどねw

preg_match( "/<title>(.*?)</title>/is", $html, $matches)

/なんとか/i が文字列の大文字・小文字を区別しない
/なんとか/is が大文字・小文字を区別せず、1行とみなして調べる

こんな感じ

結論!

$br = "<br />n";
$url = "http://headlines.yahoo.co.jp/hl?a=20110321-00000046-jij-soci";

    echo "PageTitle:". getPageTitle($url). $br;

    function getPageTitle($url){
        $html = file_get_contents($url);

        $enc_format =  "JIS, eucjp-win, sjis-win, UTF-8";
        $enc_html = mb_convert_encoding($html, "UTF-8", $enc_format);
        if(preg_match( "/<title>(.*?)</title>/is", $enc_html, $matches)){
            //echo mb_detect_encoding($html, $enc_format). "<br />n";
            return $matches[1];
        } else {
            return false;
        }
    }

以上です、お疲れ様でした。

追伸:改行が入るかも…

【某人理論の解説】PHPで ‘ と . を大量に繋げるのと “” で一括でやるのどっちがいいの?

以下某人の説明
まず、PHPの言語仕様ではシングルクォートのが早いで、
ダブルクォートは書き方がたくさんあって
シングルクォートと同じ書き方にすればシングルクォートのがはやい
例えばシングルクォートだったら
'a' . $a . 'a'
これしかないんだけど
ダブルクォートだったら
"a" . $a . "a"
"a{$a}a"
"a $a a"
これだけあるだから、
セッキーとみゆっきのやり方はフェアじゃない
だそうです

PHPで ‘ と . を大量に繋げるのと “” で一括でやるのどっちがいいの?

PHPで ‘ と . を大量に繋げるのと “” で一括でやるのどっちがいいの?

実験に使用したコードは下記の通り

$value = 'ミートボール';
$start = microtime(true);

for($i = 1;$i <1000;$i++){
//下記の2つで実験
//echo '私の大好きな'. $value. ' ヴぁー';
//echo '私の大好きな${valu}eヴぁー';
}
$end = microtime(true);
echo "<br />n";
echo $end - $start. '秒処理にかかった';

結果

echo ‘私の大好きな’. $value. ‘ ヴぁー’;の場合
10000回
① 6.7555861473083秒処理にかかった
② 3.3046059608459秒処理にかかった
③ 3.1271910667419秒処理にかかった

echo ‘私の大好きな${valu}eヴぁー’;の場合
1000回
① 0.42566299438477秒処理にかかった
② 0.84215688705444秒処理にかかった
③ 0.38536906242371秒処理にかかった

このような結果になりました。

※鯖によって結果は異なりますのでご注意ください。
※この結果は、m264鯖で実験した結果です。