如何優化Mysql千萬級快速分頁

很多應用往往只展示最新或最熱門的幾條記錄，但為了舊記錄仍然可訪問，所以就需要個分頁的導航欄。然而，如何通過MySQL更好的實現分頁，始終是比較令人頭疼的問題。雖然沒有拿來就能用的解決辦法，但了解數據庫的底層或多或少有助於優化分頁查詢。

我們先從壹個常用但性能很差的查詢來看壹看。

SELECT *

FROM city

ORDER BY id DESC

LIMIT 0, 15

這個查詢耗時0.00sec。So，這個查詢有什麽問題呢？實際上，這個查詢語句和參數都沒有問題，因為它用到了下面表的主鍵，而且只讀取15條記錄。

CREATE TABLE city (

id int(10) unsigned NOT NULL AUTO_INCREMENT,

city varchar(128) NOT NULL,

PRIMARY KEY (id)

) ENGINE=InnoDB;

真正的問題在於offset(分頁偏移量)很大的時候，像下面這樣：

SELECT *

FROM city

ORDER BY id DESC

LIMIT 100000, 15;

上面的查詢在有2M行記錄時需要0.22sec，通過EXPLAIN查看SQL的執行計劃可以發現該SQL檢索了100015行，但最後只需要15行。大的分頁偏移量會增加使用的數據，MySQL會將大量最終不會使用的數據加載到內存中。就算我們假設大部分網站的用戶只訪問前幾頁數據，但少量的大的分頁偏移量的請求也會對整個系統造成危害。Facebook意識到了這壹點，但Facebook並沒有為了每秒可以處理更多的請求而去優化數據庫，而是將重心放在將請求響應時間的方差變小。

對於分頁請求，還有壹個信息也很重要，就是總***的記錄數。我們可以通過下面的查詢很容易的獲取總的記錄數。

SELECT COUNT(*)

FROM city;

然而，上面的SQL在采用InnoDB為存儲引擎時需要耗費9.28sec。壹個不正確的優化是采用 SQL_CALC_FOUND_ROWS,SQL_CALC_FOUND_ROWS 可以在能夠在分頁查詢時事先準備好符合條件的記錄數，隨後只要執行壹句 select FOUND_ROWS(); 就能獲得總記錄數。但是在大多數情況下，查詢語句簡短並不意味著性能的提高。不幸的是，這種分頁查詢方式在許多主流框架中都有用到，下面看看這個語句的查詢性能。

SELECT SQL_CALC_FOUND_ROWS *

FROM city

ORDER BY id DESC

LIMIT 100000, 15;

這個語句耗時20.02sec，是上壹個的兩倍。事實證明使用 SQL_CALC_FOUND_ROWS 做分頁是很糟糕的想法。

下面來看看到底如何優化。文章分為兩部分，第壹部分是如何獲取記錄的總數目，第二部分是獲取真正的記錄。

高效的計算行數

如果采用的引擎是MyISAM，可以直接執行COUNT(*)去獲取行數即可。相似的，在堆表中也會將行數存儲到表的元信息中。但如果引擎是InnoDB情況就會復雜壹些，因為InnoDB不保存表的具體行數。

我們可以將行數緩存起來，然後可以通過壹個守護進程定期更新或者用戶的某些操作導致緩存失效時，執行下面的語句：

SELECT COUNT(*)

FROM city

USE INDEX(PRIMARY);

獲取記錄

下面進入這篇文章最重要的部分，獲取分頁要展示的記錄。上面已經說過了，大的偏移量會影響性能，所以我們要重寫查詢語句。為了演示，我們創建壹個新的表“news”，按照時事性排序(最新發布的在最前面)，實現壹個高性能的分頁。為了簡單，我們就假設最新發布的新聞的Id也是最大的。

CREATE TABLE news(

id INT UNSIGNED PRIMARY KEY AUTO_INCREMENT,

title VARCHAR(128) NOT NULL

) ENGINE=InnoDB;

壹個比較高效的方式是基於用戶展示的最後壹個新聞Id。查詢下壹頁的語句如下，需要傳入當前頁面展示的最後壹個Id。

SELECT *

FROM news WHERE id < $last_id

ORDER BY id DESC

LIMIT $perpage

查詢上壹頁的語句類似，只不過需要傳入當前頁的第壹個Id，並且要逆序。

SELECT *

FROM news WHERE id > $last_id

ORDER BY id ASC

LIMIT $perpage

上面的查詢方式適合實現簡易的分頁，即不顯示具體的頁數導航，只顯示“上壹頁”和“下壹頁”，例如博客中頁腳顯示“上壹頁”，“下壹頁”的按鈕。但如果要實現真正的頁面導航還是很難的,下面看看另壹種方式。

SELECT id

FROM (

SELECT id, ((@cnt:= @cnt + 1) + $perpage - 1) % $perpage cnt

FROM news

JOIN (SELECT @cnt:= 0)T

WHERE id < $last_id

ORDER BY id DESC

LIMIT $perpage * $buttons

WHERE cnt = 0;

通過上面的語句可以為每壹個分頁的按鈕計算出壹個offset對應的id。這種方法還有壹個好處。假設，網站上正在發布壹片新的文章，那麽所有文章的位置都會往後移壹位，所以如果用戶在發布文章時換頁，那麽他會看見壹篇文章兩次。如果固定了每個按鈕的offset Id，這個問題就迎刃而解了。Mark Callaghan發表過壹篇類似的博客，利用了組合索引和兩個位置變量，但是基本思想是壹致的。

如果表中的記錄很少被刪除、修改，還可以將記錄對應的頁碼存儲到表中，並在該列上創建合適的索引。采用這種方式，當新增壹個記錄的時候，需要執行下面的查詢重新生成對應的頁號。

SET p:= 0;

UPDATE news SET page=CEIL((p:= p + 1) / $perpage) ORDER BY id DESC;

當然，也可以新增壹個專用於分頁的表，可以用個後臺程序來維護。

UPDATE pagination T

JOIN (

SELECT id, CEIL((p:= p + 1) / $perpage) page

FROM news

ORDER BY id

ON C.id = T.id

SET T.page = C.page;

現在想獲取任意壹頁的元素就很簡單了：