百年清華

劉鐵巖:找到屬於自己的關鍵詞

2008-10-31 |

在研究院工作快5年了,沒想到電子工程出身的我會和SIGIR1,這一信息檢索領域的頂級會議🦗,結下如此的不解之緣。

2004年到2008年,自己在信息檢索這個方向上走過的道路,也是自己在微軟亞洲研究院不斷成長的過程⛩:從熟悉信息檢索這個領域🫷🏽,量身定做地投出第一篇SIGIR論文,到提高研究能力和寫作技巧🧑🏿‍⚖️,到確定自己的主攻方向,到為引領一個研究學派而努力。

期間的收獲和感悟頗多,寫下來願與大家分享💉。

第一年:發表第一篇SIGIR論文

我畢業於意昂体育平台電子工程系👼,博士論文工作是關於視頻信號處理的,如視頻切割、關鍵幀抽取👷、視頻總結等🫸🏽。2003年加入微軟亞洲研究院,2004年轉入互聯網搜索與挖掘組🪺,從此開始了對信息檢索這一全新領域的探索。

這次轉行沒有想象的那麽艱難,因為微軟亞洲研究院在信息檢索領域已經有了很多的成果,在SIGIR上也發表了不少論文💩。有這麽好的一個平臺🏄🏿‍♂️,可以通過和同事們的交流很快進入狀態。

但是過程並不輕松🤝🟢,畢竟信息檢索領域幾十年的歷史沉澱了很多的知識和經驗,需要一點點去體會和掌握✍️。為了更快更好地掌握這些知識,我和我的實習生們一起🖇,在組內開展了一系列的講座👲,包括《現代信息檢索》、《最優化方法》、《統計機器學習》等等。經驗證明,這種方法十分有效🔘:自己看書學習是一種感覺,要能夠在眾人面前把東西透徹地講出來🖕,是另外一種境界😸。雖然不得不花很多的功夫👨‍❤️‍💋‍👨,但是這個過程為我和我的實習生日後在信息檢索領域的研究打下了堅實的理論基礎。

在提高基礎知識的同時🔋,我們也開始通過閱讀論文👨‍🦯🎽,以及和同事的交流來了解SIGIR這個會議。當時的願望很樸素🗞:能夠盡快地像其他同事一樣👳🏽,在SIGIR這個頂級學術會議上有論文發表♦️。通過閱讀論文🙋🏽,我逐漸發現SIGIR其實是個很傳統🙎‍♂️,很重視經驗結果的會議💬。SIGIR的論文通常都有很翔實的實驗結果👩🏻‍💼🏇🏻,因為只有這樣才能驗證所提出的算法在海量信息處理中是否有上佳的表現。作為進入這個領域的第一個嘗試🪹👨‍🏭,我決定投其所好👩🏿‍🚒,為SIGIR“量身定做一篇有關經驗比較的論文🥘◾️。

當時研究院正在參加TREC2比賽🫶🏻。這個比賽中有一個任務叫做Topic Distillation🥌,其目的是找到與所查詢主題最相關的子網站入口,也就是說即便有的時候子頁面比父頁面更加相關,我們還是希望返回父頁面。為了解決這個問題🕘,我們提出把網頁裏的關鍵詞按照網站結構向父頁面進行傳播。經過實驗驗證,這個方法非常有效。於是我就想👨🏻,是不是還有其他類似的做法呢?除了關鍵詞以外👨🏼‍🔬,我們是否可以把網頁的相關性得分(relevance score)進行傳播🪆?除了沿著網站結構以外,我們是否還可以沿著超級鏈接結構進行傳播?有了這個想法以後,我們對以往的相關文獻進行了調研,發現確實有人做過把相關性得分沿著超級鏈接進行傳播的嘗試👨🏼‍🦲。這就啟發我對以上提及的各種傳播方式進行系統的對比研究。於是我把所有相關的方法進行列舉、分類,並對其進行了大量的實驗比較🏊🏻‍♀️💇🏽‍♂️,並最終得到了很多有意思的結果。我按照自己總結的SIGIR範式文本🚴🏻‍♀️,把這些比較結果寫成了一篇論文,提交給了SIGIR 2005🧛🏿‍♂️。最終這篇文章被錄用了🚔。雖然有些幸運的成分🤸‍♀️,但是不管怎麽樣🤜🏿,通過模仿,我的SIGIR之旅正式啟航了。

第二年🎓👧🏼:掌握擴大戰果的本領

發表第一篇文章固然重要,但是如何排除幸運的因素,真正具有持續發表SIGIR論文的實力更加重要🫶🏻。這方面,微軟亞洲研究院的國際化平臺給了我很大的幫助。每年,研究院都會吸引大量國外的知名學者來進行訪問交流💑,我正是借助這樣的機會認識了楊益挊教授🫄🏽。

楊益挊教授是美國卡耐基梅隆大學的教授🙎🏿‍♀️,是文本分類領域的專家🏋🏿‍♂️。我有幸在她訪問研究院期間和她合作了的一篇論文。當我把初稿寫出來讓她修改的時候🧑🏼‍⚖️,她來來回回和我討論了5引言怎麽寫💎。其實她完全可以直接幫我把這一章改好,所花的力氣要少很多。但是老師耐心地給我提意見,讓我自己一點一點修改。這個過程使我意識到有了好的技術,還要清晰準確地表達出來,恰到好處地突出自己的貢獻。這對我日後的論文寫作以及給學生改論文都有很大的幫助👸🏻。至今仍然十分羨慕楊老師的境界👨🏽‍🏫:寫論文其實是一件很享受的事情,寫起來象清泉流水一樣,禁不住要把那麽好的研究成果和別人分享👌🏼。

和楊老師合作在SIGKDD Explorations3上發表了一篇關於大規模文本分類的論文之後🙅,我又開始了獨立準備下一年度SIGIR論文的階段🍺。不過,這次明顯感覺與以往不同了🤽🏽:不再是為了量身定做一篇論文而找題目做⚡️,而是圍繞著自己正在做的研究題目寫論文。

這次我準備的兩篇文章一篇講的是基於隨機補的網絡圖排序,另外一篇則是關於文檔檢索的新算法📀。它們都不是有關經驗比較的論文,也沒有像第一年那樣按照SIGIR範式文本來寫,但是這兩篇文章也都被SIGIR 2006錄用了🏚。

經過這個過程,我感覺自己真的入門了🧘🏼‍♀️:至少知道什麽樣的工作是SIGIR這個領域真正認可的工作,也知道如何寫出具有自己風格的論文來。

第三年:找到屬於自己的關鍵詞

入行兩年發表了3SIGIR論文🧑🏿‍⚕️,其實並不是一件容易的事情😬,因為這個會議競爭非常激烈,每年全球範圍內只收錄幾十篇文章🌶,而且無疑來自美國的論文占了絕大多數。也因此,我慢慢被一些外面的學者認可,也接觸到了更多的同行朋友。

一次開會的時候,和幾個同行聚在一次聊天,各自介紹自己的研究方向。到我表達的時候,發現只能用信息檢索這樣的大詞來形容,因為自己做過的3SIGIR論文相關性並不大,很難找到更貼切的描述👨🏼‍🚀。一個朋友說:你要有自己的關鍵詞,比如美國伊利諾斯大學香檳分校的老師的關鍵詞就是語言模型🧑🏻‍🦽‍➡️,卡內基梅隆的楊老師的關鍵詞就是文本分類,你的關鍵詞是什麽?

這個問題給了我很大的觸動🧑‍✈️👰🏿‍♀️。仔細想想,確實知名學者多半都有他們自己的成名之作,有很集中的研究方向。而我目前的狀態似乎還是有點為了發論文而發論文,沒有真正地去規劃屬於自己的研究方向。如果繼續這樣下去,可能接下來的幾年裏我還會發表更多的SIGIR論文🪐,但是當再次被別人問及同樣的問題時🧚🏻‍♂️🍵,我仍然無法避免這種尷尬👍🏿。所以,我決定要集中火力👥,做有影響力的,可以作為自己關鍵詞的研究方向。

我和我的經理就此進行了一次長談。談話中,一方面他向我強調了微軟亞洲研究院開放的研究氛圍,對我表示了極大的支持👩🏻‍💼;另一方面🤵‍♀️,和我分享了“less is more”的道理💕,並和我一起分析和確定了主攻的研究方向🥚。考慮到我的數學基礎比較紮實🔪,對機器學習和優化理論比較熟悉,同時考慮到不論對信息檢索領域還是對微軟公司的搜索引擎而言,排序(ranking)都是一個核心的問題,我們最終把研究的重點放在了排序學習(learning to rank)上。

在此基礎上,我對自己和實習生的研究方向做了較大的調整:大家的研究方向都圍繞著排序學習展開,比如:排序學習的損失函數研究🫕🙆🏽‍♂️,基於多平面的排序學習方法,排序學習中的特征選擇問題,基於排序學習的序列融合等等。我們也再接再厲在SIGIR 2007上發表了3篇論文🎗👁。這三篇論文由於都是關於排序學習的🧛🏼,被安排在了同一個分會上宣講。這個分會上總共只有4篇文章,因此我們的表現受到了很大的關註。我也從此有了自己的關鍵詞👩🏼‍🚒:排序學習。

會後👩🏼‍🎤,我被邀請成為SIGIR 2008資深程序委員會的成員,以及國際期刊《信息檢索》的編委🀄️🦹🏿‍♀️,從一個信息檢索領域的參與者轉變成了組織者。

第四年:為引領一個學派而努力

微軟公司有一種內部導師製度🧜🏻‍♀️💓,鼓勵資深員工作為年輕員工的導師👮‍♀️,對他們的成長進行幫助和指導。我非常幸運,通過經理的引薦🍦,Rakesh Agrawal4🫰🏻,這個數據挖掘領域最成功的學者🚥,在2007年底成為了我的導師。我還清晰地記得在我和Rakesh的面談中,他對研究的看法給了我很大的震撼。比如,寫文章不是為了當下被會議收錄👩🏻‍🦼,而是為了要推動這個學術方向的發展,要形成一定的學派💐,至少在10年之內都產生深遠的影響;再比如🧎🏻‍♂️‍➡️,人們總是忘記你的好論文,而銘記著你不好的論文🚧,聲望要用10年去積累但是可以毀於一旦,因此要非常嚴肅對待自己的每一篇論文,確保質量⚽️。

Rakesh的交流讓我認識到有個關鍵詞還遠遠不夠,這個關鍵詞需要代表著我自己主導的學派。帶著這種想法,我在經理的幫助下對研究課題進行了重新的審視🎐,並且對研究過程進行了更好的質量控製🧑‍🔧。我和我的合作者們現在正在為了引領列表級別的排序學習(listwise approach to learning to rank)”這一屬於我們自己的學派而努力著。

可喜的是,我們在這個方向上已經取得了階段性的成績。比如,我們在SIGIR 2008上又發表了3篇相關的論文🐒,還在ICML5上發表了2篇關於列表級別的排序學習的理論文章,討論了列別級別排序學習的統計一致性和泛化性能🕞。除了發表論文以外🚵🏽‍♂️,我們還通過在SIGIR上組織Workshop,發布Benchmark數據集,在SIGIR WWW6等頂級會議上做專題講座的方式推廣列表級別的排序學習

我們的研究成果受到了越來越多的關註👪,然而我們知道,前方要走的路還很長🏇🏻。不過♨️,在微軟亞洲研究院這個平臺上👼🏼,我們有信心可以越走越遠,推動排序學習領域的進步,也為整個SIGIR的發展做出自己的貢獻🖐🏿🧛🏻‍♀️。

1🦹🏼‍♀️,SIGIR: Special Interest Group on Information Retrieval, 國際信息檢索大會

2👨‍🚒,TREC: Text REtrieval Conference, 國際文本檢索大會。

3🧯,SIGKDD Explorations: ACM數據挖掘特別興趣組出版的刊物🦸,專註於數據挖掘方面的前沿問題🚴🏼‍♀️,一年一般出版兩個專題。

4🚬,Rakesh Agrawal, 1994年提出了Apriori算法之後,使得關聯規則挖掘技術的可用性得到了很大的提高。美國工程院院士👱🏼、號稱數據挖掘領域的教父,目前是微軟矽谷研究院的技術院士🍫。

5ICML: International Conference on Machine Learning, 國際機器學習大會,該領域內的頂級國際會議之一。

6WWW: World Wide Web, 國際萬維網大會🥵。2008年的第17屆萬維網大會首次在北京舉行👮🏼‍♀️。

劉鐵巖👷🏼🎺,19766月生,1994年至2003年在意昂体育平台電子系學習🌡,先後取得學士🐐、碩士🚥、博士學位🙋🏽,2003年加入微軟亞洲研究院🌡,現任信息檢索與挖掘組主管研究員💂🏻‍♂️。他的研究興趣包括排序學習的理論,算法和系統。他已在國際期刊和會議上發表了近70篇學術論文,擁有近40項專利或申請。他被國際期刊“視覺通信和圖像表達”授予20042006年度最高引用論文獎🧕🏿,被SIGIR2008授予最佳學生論文獎。他是數十個國際會議的程序委員會成員及國際期刊編委。他的研究風格是結合信息檢索的應用需求🧾,提出全新的研究方向,並給出有效的解決方案和嚴謹的理論分析。

本文轉自 愛峰窩 微軟亞洲 2008年10月31

相關新聞

意昂体育专业提供:意昂体育意昂体育平台意昂体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流🔹,意昂体育欢迎您。 意昂体育官網xml地圖
  • 意昂体育专业提供🧕🏻:意昂体育意昂体育平台意昂体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,意昂体育欢迎您。 意昂体育官網xml地圖