WordPress站長(zhǎng)們，快給你的文章加上文字統(tǒng)計(jì)吧

編輯：狂族晨曦來(lái)源：WordPress技巧日期：2016-04-20 閱讀： 3,730 次 4 條評(píng)論 » 百度已收錄

先森閑著沒事就愛逛逛張戈博客等WordPress大神們的博客，發(fā)現(xiàn)大神們的文章頁(yè)面中，很多都加上了文字字?jǐn)?shù)統(tǒng)計(jì)。不怎么起眼，但看到了會(huì)感覺很貼心。

百度了一下，發(fā)現(xiàn)代碼基本上是來(lái)自知更鳥博客的，鳥叔確實(shí)厲害啊。先森體驗(yàn)了一把，代碼部署起來(lái)非常簡(jiǎn)單,先將下面的代碼放到functions.php里：

//字?jǐn)?shù)統(tǒng)計(jì)
function count_words ($text) {
global $post;
if ( '' == $text ) {
   $text = $post->post_content;
   if (mb_strlen($output, 'UTF-8') < mb_strlen($text, 'UTF-8')) $output .= '本文共' . mb_strlen(preg_replace('/\s/','',html_entity_decode(strip_tags($post->post_content))),'UTF-8') . '個(gè)字';
   return $output;}
}

然后在single.php中或其它希望顯示字?jǐn)?shù)統(tǒng)計(jì)的位置加上：

<?php echo count_words ($text); ?>

但是鳥叔也說(shuō)了，中文統(tǒng)計(jì)沒有什么問(wèn)題，但英文統(tǒng)計(jì)的是字母。

英文按字母統(tǒng)計(jì)，也就意味著一個(gè)字母統(tǒng)計(jì)就會(huì)+1。而我們WordPress最多接觸的就是代碼，代碼的字母動(dòng)輒就是成百上千。一篇文章看著沒有多少內(nèi)容，字?jǐn)?shù)統(tǒng)計(jì)卻會(huì)顯示幾千字，看著著實(shí)有點(diǎn)不爽。

先森想要的效果是，中文按字?jǐn)?shù)統(tǒng)計(jì)，英文按單詞統(tǒng)計(jì)。先森特意看了下Word，發(fā)現(xiàn)Word就是這種統(tǒng)計(jì)規(guī)則。

但是令先森無(wú)奈的是，在各大搜索引擎搜了一遍，沒有找到能夠解決這個(gè)問(wèn)題的教程。鳥叔雖然也分享了統(tǒng)計(jì)英文博客文字的代碼，但是經(jīng)先森測(cè)試，好像不會(huì)對(duì)本站的代碼部分進(jìn)行統(tǒng)計(jì)，總之就是統(tǒng)計(jì)出來(lái)的英文字?jǐn)?shù)不對(duì)。想要中文代碼統(tǒng)計(jì)文字時(shí)排除字母，再加上英文單詞統(tǒng)計(jì)的想法破滅了~請(qǐng)看下面內(nèi)容↓

不過(guò)先森在搜索的時(shí)候，另外發(fā)現(xiàn)了我愛水煮魚關(guān)于如何統(tǒng)計(jì)中文字?jǐn)?shù)研究的文章。文章介紹了PHP中，計(jì)算字符串長(zhǎng)度的三種函數(shù)strlen，mb_strlen，mb_strwidth。水煮魚用這三個(gè)函數(shù)去測(cè)試統(tǒng)計(jì)字符串的長(zhǎng)度，看看它們分別把中文算成幾個(gè)字節(jié)：

echo strlen("你好ABC") . "";
// 輸出 9
echo mb_strlen("你好ABC", 'UTF-8') . "";
// 輸出 5
echo mb_strwidth("你好ABC") . "";
// 輸出 7

上面的測(cè)試顯示：strlen 把中文字符算成 3 個(gè)字節(jié)，mb_strlen 不管中文還是英文，都算 1 個(gè)字節(jié)，而mb_strwidth 則把中文算成 2 個(gè)字節(jié)。而實(shí)際上，mb_strwidth 才是正確的：中文 2 個(gè)字節(jié)，英文 1 個(gè)字節(jié)。

現(xiàn)在再返回去看鳥叔提供的代碼，統(tǒng)計(jì)的函數(shù)用的是第二種：mb_strlen。通過(guò)三種函數(shù)統(tǒng)計(jì)結(jié)果對(duì)比可知，這個(gè)函數(shù)是統(tǒng)計(jì)出來(lái)數(shù)字最少的一種。所以，在找到解決方法之前，鳥叔提供的代碼已經(jīng)是最好的解決方案了，將就著用吧。

先森之前一直搜索的是WordPress的方法，但后來(lái)通過(guò)搜索PHP的方法，找到了一些解決方案。

方案一：php 統(tǒng)計(jì)字?jǐn)?shù)(支持中英文)的實(shí)現(xiàn)代碼

首先還是在functions.php中添加下面代碼;

//php 統(tǒng)計(jì)字?jǐn)?shù)(支持中英文)的實(shí)現(xiàn)代碼
function count_word($str){     
    $str = preg_replace('/[\x80-\xff]{1,3}/', ' ', $str,-1,$n); 
    $n += str_word_count($str); 
    return $n; 
}

然后在希望顯示字?jǐn)?shù)統(tǒng)計(jì)的位置加上：

<?php echo ";本文共".count_word($post->post_content)."個(gè)字";?>

方案二：PHP統(tǒng)計(jì)中英文單詞數(shù)（UTF-8編碼)

注：這種方案不會(huì)統(tǒng)計(jì)標(biāo)點(diǎn)符號(hào)。其實(shí)還有一種GB2312編碼的方法，但據(jù)說(shuō)無(wú)法統(tǒng)計(jì)中文，所以此處沒提。

一樣的，在functions.php中添加下面代碼;

//PHP統(tǒng)計(jì)中英文單詞數(shù)（UTF-8編碼)
define( "UTF8_CHINESE_PATTERN", "/[\x{4e00}-\x{9fff}\x{f900}-\x{faff}]/u" );
define( "UTF8_SYMBOL_PATTERN", "/[\x{ff00}-\x{ffef}\x{2000}-\x{206F}]/u" );
// count only chinese words
function str_utf8_chinese_word_count($str = ""){
    $str = preg_replace(UTF8_SYMBOL_PATTERN, "", $str);
    return preg_match_all(UTF8_CHINESE_PATTERN, $str, $arr);
}
// count both chinese and english
function str_utf8_mix_word_count($str = ""){
    $str = preg_replace(UTF8_SYMBOL_PATTERN, "", $str);
    return str_utf8_chinese_word_count($str) + str_word_count(preg_replace(UTF8_CHINESE_PATTERN, "", $str));
}

也是一樣的，在希望顯示字?jǐn)?shù)統(tǒng)計(jì)的位置加上：

<?php echo ";本文共".str_utf8_mix_word_count($post->post_content)."個(gè)字";?>

先森在測(cè)試的時(shí)候，發(fā)現(xiàn)不含代碼，文字較多的文章，這兩種方案統(tǒng)計(jì)除出來(lái)的數(shù)字會(huì)比鳥叔代碼統(tǒng)計(jì)出來(lái)的多。下圖中，第一個(gè)是鳥叔代碼統(tǒng)計(jì)出的，第二個(gè)是方案一統(tǒng)計(jì)出的，第三個(gè)是方案二統(tǒng)計(jì)出的?？梢钥吹?，方案一和方案二都比鳥叔的多，方案一又比方案二多。為什么會(huì)比鳥叔代碼統(tǒng)計(jì)的多先森沒懂，但是方案一又比方案二多確實(shí)符合了方案二不統(tǒng)計(jì)標(biāo)點(diǎn)符號(hào)的特性。

純文字文章三種代碼文字統(tǒng)計(jì)情況 -1