如何愉快地寫個小parser

在前幾日的文章『軟件隨想錄』裏，我隨性寫了壹句：「現在似乎已經不是lex/yacc 或 bison/flex的時代了。我親眼看見壹個同事在費力地用perl壹行行解析某個系統的數據文件，卻壓根沒想到寫個BNF。BNF對他來說，不是壹種選擇。」

很多同學不解，問我：lex/yacc不是寫編譯器 [1] 的麽？我又不發明新的語言，它們對我有什麽用？

從這個問題裏，我們可以見到國內本科教育荼毒之深。象牙塔裏的講編譯原理的老師們，估計用lex/yacc也就是寫過個毫無用處的toy language，然後把自己的壹知半解傳遞給了他們的學生，學生們學得半通不通，興趣索然，考完試之後便把死記硬背的內容如數奉還給了老師。

別笑，我還真就是這麽過來的。我用lex/yacc幹的唯壹壹件事，就是TMD設計壹個語言。

這世間的語言如此之多，實在容不下我等庸人再設計壹門蹩腳的，捉急的，沒有顏值，沒有性能的語言。況且2000年左右的時候還沒有LLVM這種神器，也沒有github這樣的冥想盆去「偷」別人的思想，設計出來的蹩腳語言只能到語法分析這壹步就停下來，沒有任何實際用處。

後來lex/yacc進化成flex/bison，在工作中我也無意中翻看了壹本orelley叫『Flex & Bison』的書，這書的副標題赫然寫著：text processing tools。

書的內容還是挺教條的，和實際的工作內容略微脫節，可text processing tools這個說法戳中了我：是啊，詞法分析 - lexical parsing（lex/flex），語法分析 - grammar parsing（yacc/bison）只是更好的文本處理工具（parser），是個高效處理帶有語法的文本的DSL（Domain Specific Language）！它們和編譯器沒有半毛錢關系，只不過，它們的某壹個應用場景是和編譯器有關罷了。我們不必將其想得過於高深！

我們想想文本處理有什麽工具？

Regular expression！

如今的編程語言，有哪個不支持regular expression呢？同樣的，如今的程序員，哪個不用使用（沒在代碼裏使用）regular expression呢？

Regular expression也是壹種文本處理工具，也是個DSL，只不過，它處理不了復雜的語法。

我們知道，自動化理論（automata theory）裏，有FSA（Finite State Automata）和PDA（PushDown Automata），前者可以用regular expression表述，而後者可以處理CFG（Context Free Grammar）。而CFG便是flex/bison要處理的對象！

遺憾的是，大部分語言都沒有內置對CFG的處理，壹旦文本處理的復雜度超過了regular expression可以表述的復雜度，我們便無能為力。舉個例子，如果要妳解析這樣壹段文本，妳該怎麽做？

用regular expression自然是無能為力的，壹個字符壹個字符讀入，按單詞切分token，然後處理大括號，分號這樣的語法，妳相當於自己寫了個解析器，很難保證高效和可擴展。所以這種時候我們需要求助於第三方的flex/bison，或者類似的工具。

flex是lex演進過來的，做詞法分析。所謂的詞法分析，說白了就是把文本切成壹個個妳認識的語法單元，比如上圖裏，server 就是這樣壹個語法單元，我們管這個單元叫token。

在flex裏，我們可以這樣描述上面文本裏出現的token：

接下來就是語法分析的環節了。語法分析做的是pattern matching的事情，和regular expression的pattern matching不同，它允許妳定義壹系列可遞歸的規則。標準的unix下，語法分析的工具是bison，我們看看上述文本如何使用bison解析：

其主體代碼還是很清晰的，壹個 server {…} 就用 SERVER OP({) exp_list CP(}) 這樣壹條規則匹配，當解析器碰到 exp_list 這樣壹個它無法認識的內容時，它會尋找名為 exp_list 的規則繼續匹配。如果妳經常使用函數式編程語言，妳會發現，這種規則的撰寫似曾相識。

bison使用的描述規則的語法是BNF的變體。

以下是編譯和執行的結果，作為展示，我僅僅把語法樹中我感興趣的內容打印出來了：

從上面的編譯過程裏，妳可以看到，flex/bison是壹個C語言的DSL。因此，妳可以在處理詞法和語法的過程中嵌入C代碼，處理（transform）妳需要的結果。DSL和宿主語言之間必然要有壹些約定俗成的接口，這也是 yytext，yyparser，yyterminate，yylex 等等變量和方法存在的原因。它們看起來很奇怪，但如果妳以壹顆看待DSL的心去看待它們，變不那麽別扭了。

（二）

可惜，如今大部分文藝青年都已經不用C了 —— 雖說很多語言都提供了對C的FFI(Foreign Function Interface)，比如Python，妳可以用flex/bison生成壹個parser，然後用FFI包裝。然而，這畢竟很麻煩，如果我能用我喜愛的語言做parser，該多方便？

嗯，有需求的地方便有產品，看這個wiki page吧：/bramp/js-sequence-diagrams。如果妳想定義壹門語言生成javascript（我不建議妳幹這個），可以參考coffeescript，它也使用了jison。

接下來我們講壹下另壹個神器 antlr4。我也是在撰寫這篇文章的時候才接觸antlr4，還在第壹次親密接觸中。除去解析器設計方面的與眾不同 - LL(*) - antlr4對我而言，有三個強大的地方：

各種現成的語法定義（基本都是MIT/BSD license，跪拜吧，少年！）。打開這個repo：/antlr/grammars-v4，有沒有想哭的趕腳？

生成主流程序語言的parser。嗯，妳可以對著g4語法文件輕松生成python，javascript等的源碼，然後集成到妳自己的項目裏。繼續哭吧。

SAX-like event driven。antlr4直接替妳生成好了復雜的語法樹 - 壹般而言，antlr4生成的語法樹沒有使用instaparse/bison等生成的那麽清爽，所以直接處理起來有些費勁，antlr4的創新之處在於：我先幫妳生成好樹，然後妳可以隨意遍歷。就像SAX處理XML那樣，每條規則（可以類比XML的每個Node）妳都可以設置enter listener和exit listener，妳把callback註冊在妳關心的節點上，antlr4會把上下文交給妳處理。

比如說為SQlite的語法生成javascript的lexer/parser，然後撰寫壹個簡單的index.js調用：

調用結果（解析樹）：

由於antlr4有大部分的語言的語法定義，妳可以把精力花在transform上而不是語法定義上。比如老板說：小明啊，把我司codebase裏面所有超過100行的，裏面沒有壹行註釋的函數給我找出來，我要審審這幫不寫註釋的孫子。

這種以前看上去無解的惡心需求，現在可能只需要壹天就能搞定了：

假如代碼是python3，找到python3的g4 file，用antlr4生成lexer/parser

listen每個 def 規則，統計裏面的有效代碼數（不含空行），和註釋數，如果註釋為0，代碼數超過100，把函數名和文件名，起始/結束行號記下來，然後用 git blame 找到作者，生成壹個csv文件。

用excel打開這個csv，調整壹下格式，通知裏面出現的認識的每壹個小夥伴和名字看上去像中文名字的人，讓其把各自的代碼趕緊加上註釋，從名單裏剔除（嘿嘿），然後聚合出來top 10 大壞蛋，餅圖，柱狀圖什麽的作為「表哥/表姐」的妳隨意

把excel文件發給老板

嗯，接受小夥伴的祝福，如果對方要請吃晚餐的話，不要拒絕，尤其是妹子（漢子）的。:)

好了，最後壹個，parsec。parsec是個神器。壹個我沒用過但是要BB壹下的Haskell下的神器。Haskell是門學了要走火入魔的語言，妳看練鬥轉星移的慕容復在復國的路上可悲地瘋了，練乾坤大挪移的張教主在革命的路上想不清楚選那個美人可恥地匿了就可以看出，如果滿腦子裏都裝著monad和composition，最會不可避免地看起來像精神病（大智若愚）。

上文所述的parser其實都是parser generator，generate出來的代碼都是不可compose的，妳寫壹個SQL parser，不能說先寫壹個select的parser，然後再寫壹個create table的parser，把兩個compose起來，就是支持select和create的parser。妳無法這麽做。但parsec可以。在parsec裏，妳可以從壹個很細力度的parser寫起，壹路將其compose成壹個非常復雜的parser。當然，parsec已經替妳完成了很多parser，妳只需要定義壹些新的，然後把他們和已有的compose起來就好。

這便是parsec所謂的 "A monadic parser combinator" 的意思。究竟神馬是monad？這是個好問題，我們先放下不表，以後的文章再講。

（三）

這篇文章並未告訴妳LALR(1)，LL(1)，LL(*)等概念，沒有具體解釋lexical parser，grammar parser的詳細步驟，雖然舉了壹些BNF（及其變體）的例子，也沒有觸及如何撰寫BNF。這些內容很重要，但在妳寫壹個parser之前，都是不打緊的內容。妳需要知道的是，除了regular expression，妳還有其他的工具處理更為復雜的帶格式的文本。妳應該了解了parser可能的壹些應用場景，妳也看到了壹些主要的工具是怎麽使用的，有什麽優缺點。

妳不必立刻放下手邊的活去學習這些工具 —— 最好的學習方法之壹是 learning by practising 而不是 learning by reading a book (manual)。下次老板讓妳做點和文本處理相關的任務，妳要記得，除了regular expression，妳還有壹些可以處理更復雜問題的工具！不要怕，接下這個任務，相信deadline的威力足以把妳從做parser的小白變成壹個大白。

還有，下次如果妳覺得markdown的語法缺點什麽，想加些更豐富的內容進去，妳大概知道該怎麽做，可以用什麽工具去做了。

上一篇:如何安全上網？

下一篇:路橋專業的如何考造價員？

試述斜齒圓柱齒輪的基本參數及斜齒圓柱齒輪正確嚙合條件