如何評價季逸超，Peak Labs 和 Magi 搜索引擎

正面評價：

@季逸超團隊的工程能力非常強，少數幾個人在壹年裏可以搭起來可用的demo，水準不輸於我見過的任何壹個優秀的工程師。有這樣高效的團隊，相信往後會越來越順利。

知識圖譜的構建和應用也會是文本相關的各種任務上下壹個增長點。Google花了很大力氣在做，M$也是，學術界對這方面的關註和投入也在持續增長。我相信往後的幾年，即使是這塊沒能出現類似Uber， Airbnb這樣的顛覆型產品，起碼能把我們日常使用到的各種工具，例如搜索，siri等，的效果提升到壹個新的級別。

最後，Maji找準了國內這塊市場的空白，抓到了很好的切入點，原先團隊的積累也讓Magi在資本市場上壹帆風順，最後這個問題和36氪的PR（宣傳）也做得很好。例如和PR成功案例，watson，的聯系，以及各種超出科研基金申請報告中描繪的科幻遠景。這些都是每壹個有誌創業的年輕人需要思考和學習的。

總之，我覺得magi能成功，以後如果沒有被Baidu抄了去，就會被Baidu買了去。我猜會傾向於買了去，畢竟Baidu自己從頭開始做，要花的人力成本也不低了。國內也很難找到對應的人才。

同時也有很多懷疑：

疑惑1：

是demo裏的那些長query（搜索詞條）。長query得理解是非常非常難的問題。更不提理解中文的這種毫無固定格式的問句了。demo中出對幾個復雜長query出壹些好結果很簡單，真正應用做的好麽？去試了插件的demo後，我覺得做不好。從demo的效果反推的技術來說，離真的做好demo中提到的那類長query，我個人感覺不是量的差距，是質的差距。

為什麽？類比的話，Watson無數工程師，不差錢的IBM毫無業績要求的完全當做壹個PR項目來做，目的就是為了Jeopardy。才能對英語這種，有W和H的顯示問句意圖表達的語言，且是Jeopardy固定格式的問題，能夠做到比較好的效果。這個過程大概花了5年。除了有很多QA領域的專家以外，還有很多工程師的hard code提效果。

而Watson至今離真正商用遙遙無期。我甚至不覺得watson可以真的商用。（我個人對QA的感覺是往後這個東西會真的商用，做到滿足大多數日常問答需求。但這個過程可能要5年起步。而且這件事情可能發生在Google，可能在Apple的Siri，也可能是MSR先有paper，但是如果是IBM，我會很吃驚。）

如果Magi能夠做到demo中顯示的長query的分析效果，甚至不需要做其他的任何事情，就可以有大概讓兩位創始人壹起高科技人才引進的Eb1A類綠卡這種級別的論文，然後也可以被Google，IBM或者Baidu二話不說的收購。

所以我覺得要麽是Magi的團隊是不世出的天才，壹年時間，沒有用戶訓練數據，幾個人，還是中文，可以做到demo裏長query的效果，要麽這個就是為了PR目的的誇大。

疑惑2：

Magi所謂的自動從非結構化信息中抽取知識圖譜。Magi主頁上寫的是：

Magi 日益增長的結構化數據庫中目前擁有950個大類3300個子類的2100萬個對象, 囊括從電子遊戲到天體物理、從AV女優到美國總統的方方面面信息, 並抽象出了超過1億6000萬條事實的知識網絡

這個效果非常驚人。

非常驚人。

（重復表示強調）

驚人到什麽程度呢？如果這是真的，這950個大類，3399個子類，2100萬個對象都是真的可用級別的話，那麽：

1，創始人把這個寫出來可以拿任何壹個相關領域頂會的Best Paper，會成為Information Extraction領域的新的明星。

類比：Open Information Extraction和我們學校的NELL是比較有名的自動從非結構化信息抽取知識圖譜的工作。前者是University of Washington at Seattle的，後者是CMU的。兩個組光做這兩個系統，都做了超過5年。CMU的直接是機器學習系的系主任領頭，抓取和分析程序幾年來沒有停止過，但是還是做不到Magi的1/10的級別，噪聲也特別多，尚未達到可用級別。數量和質量都不如直接用Wikipedia的dump。而Wikipedia的對象大概有多少呢？500萬左右。

2，Google或者MS會直接願意買，別的什麽都不要，就只是這個系統。

類比：Freebase Freebase (需翻墻...) 是知識圖譜裏最好用的。2010年Google花了大價錢買了下來。花了多少錢沒有公布，但是Freebase之前已經拿了$57M的融資，Google花的錢應該是這個的兩倍起，那就是壹億美金往上。

Google買了下來之後花了很多人力去提升Freebase的質量和數量，還有社區的貢獻，自動和非自動的方法都上了。4年之後，Freebase的量級是多少呢？

3700萬個對象，5億的事實，77個大類

和幾百個小類（具體沒有數了）。

而這3700萬個對象裏面，可用的部分，即信息全面，有名稱，文本描述的有多少呢？

還是500萬。這是Google和我們組合作發布的網頁實體標註裏用到的對象集的大小。

而且，這些統計都是英語。

所以如果Magi主頁上宣傳的是真的，那麽幾個人，壹年時間，通過在已有的Wiki，百科之類的地方之外，在中文這個比英文更難得語言上，做出了超過Google花了$57M以上收購，並作為下壹個核心增長點耕耘了4年的Freebase的效果。

同時，甚至可以說Magi憑借幾個人的力量，解決了中文分詞剩下5%的問題裏的壹大半，從此中文分詞甚至可以說是壹個solved problem。眾所周知現在分詞95%的情況下已經可以做到非常好了，剩下的5%是罕見詞的問題。而這裏面絕大部分是命名實體，也就是所謂的對象。

而2100萬的命名實體是什麽概念呢？壹般中文分詞能夠切分出來的詞的數量，大概在幾十萬的量級。在這幾十萬的基礎上，壹下子加了2100萬的命名實體，想必從此之後：

任何壹家中文信息處理公司都基本不用再為分詞擔心，