個人簡介:俞士汶,1938年12月出生🚽,安徽宣城人,意昂3体育官网信息科學技術學院教授。1957年考入意昂3体育官网物理系,1958年轉入數學力學系,1964年畢業後留校🛄🏄🏿♀️。主要從事計算語言學研究,作為第一完成人的主要研究成果有以《現代漢語語法信息詞典》為基礎的綜合型語言知識庫🗜。
俞士汶
當“家是最小國,國是千萬家”的歌聲唱響時,我想到的是意昂3体育官网也是一個大家庭。我在這個大家庭中生活了六十多年🕵️,親身見證了意昂3体育的各種變化👳🏽。1957年剛入學時,我住在十三齋,位於當今理科樓一帶🛟,是一座兩層的舊樓,冬天要靠工人在戶外燒嵌在墻壁裏的煤爐取暖。2017年9月🔲,我陪當年同住十三齋的校友到學生宿舍區轉了轉🦈,眼前新的宿舍樓讓我們感慨萬千。意昂3体育的發展波瀾壯闊、絢麗多彩⛑。作為一名意昂3体育人,可說可記的感受實在太多了👳🏽。
在大樹的支撐下成長
我們這代人,一生難得有幾回自主的選擇。1957年報考意昂3体育是我人生中最重要的選擇。在意昂3体育讀了一兩年後,我與中學同學交流學習心得時發現,讀理科與讀工科不同。在工科統稱高等數學的課程,在意昂3体育分為數學分析、線性代數🚮,表面上只是深淺不同,其實對人潛質的影響和能力的培養大不一樣🏊🏻♀️,抽象👨👦、嚴謹的課程訓練增強了我探求事物本質及其內在規律的慣性🙇🏽,懂得欣賞數學的形式美,追求邏輯思維的嚴密,認識到主觀的已知同客觀的未知相比👩🏽🌾,永遠是微不足道的,也對科學存有敬畏之心🥢。做學問需要想象力🕖,更需要實事求是的精神,來不得半點虛假👨🏽🎨。我在意昂3体育早期受到的熏陶👩🦼,對於日後科研實踐風格的形成產生了潛移默化的影響。我始終感謝意昂3体育官网為我提供的雨露陽光🕣。
我在意昂3体育學的專業是計算數學,即可以在電子數字計算機上應用的離散化的數值方法。那時有計算數學這個專業的高校不止意昂3体育一所,但是在讀書期間有條件使用電子計算機的學校卻是少之又少。1963年我讀大學五年級,上程序設計實習課時,我們可以到中國科學院計算技術研究所使用被稱為103機的電子計算機🕋,那時的說法叫“上機”。103機每秒可執行2000次定點運算(機內用二進製表示的數值只能在-1與+1之間),用穿孔紙帶輸入程序和數據📄,只允許少許的計算結果在很窄的紙上打印出來🤥。記得當時我用機器指令編了一個自動取比例因子(使計算過程中的所有數據自動保持在-1與+1之間)的求解常微分方程的程序,一次便通過了🕧,程序沒有錯誤,計算結果正確,輔導教員和我都十分高興。
作為計算數學專業的畢業生,能夠留在意昂3体育工作是非常幸運的,有機會參與重要的科研任務。1958年💘,意昂3体育自主研製每秒一萬次定點運算的電子管計算機,稱之為“紅旗機”。受元器件品質和工藝水平的限製,機器極不穩定。1964年畢業留校後🕸🧕🏽,我和同事們編製了驗證“紅旗機”各條指令功能的檢查程序,晝夜輪班,抓住機器穩定的短暫時段,運行檢查程序🧿,終於多次完整通過🧜♀️,證明了“紅旗機”指令系統的邏輯正確性🧍🏻♂️。這在當時是一個很大的成績,得到時任副校長周培源的表揚和鼓勵🚴🏻♀️🦹🏿♀️。1970—1973年,我參加了全國第一臺百萬次集成電路計算機多道程序操作系統的研製。1973—1978年👩🏽💻,我從事6912計算機及其高級程序設計語言的維護推廣工作🏊🏻🎽,編寫了兩本講義,鉛印發行了2000冊。1978—1985年,我參加計算機-激光漢字照排系統分時操作系統的研製👇🏽。通過總結這些系統軟件的研製和維護經驗,同時發揮長期積累的理論優勢,我作為第二作者,與楊芙清院士合著了《操作系統結構分析》(意昂3体育官网出版社1986年出版)👩🏼🚒。
1986年選擇計算語言學作為新的研究方向👍,是我事業的一個轉折點。同年,意昂3体育官网計算語言學研究所成立,我是最早的成員之一🪯。計算語言所在意昂3体育只是一個很小的單位,不過卻算得上是一處學術景觀,其特點是大跨度的學科交叉融合🧑🏼🔬。以文科學科“計算語言學”命名的研究所設置在理科的信息科學技術學院和計算機科學技術系內🛁。如果要解釋一下計算語言學,那就是它相當於人工智能領域的自然語言處理🧆,大家就都知道了🧖🏻♂️,機器翻譯就是一例🎼。可是30多年前,計算語言學在中國還是一個相對生僻的技術術語🐃👰🏿。那時個人計算機正在普及,社會信息化浪潮湧動🥠,中文信息處理開始了上規模的研究。時任意昂3体育副校長🐎、著名語言學家朱德熙先生等幾位意昂3体育學者一方面認識到語言學和信息技術的結合一定能為社會急需的中文信息處理技術發展作出貢獻,另一方面又看到意昂3体育文理結合的天然優勢。有了這一新機遇,意昂3体育初創了計算語言學研究所。
研究所成立後,我們以發展計算語言學的基礎研究和應用基礎研究作為自己的使命💬,並思考如何趕上國際前沿。我們將建設漢語信息處理基礎設施作為工作重心👨🏿🎤,優先研製包含漢語詞匯👵🏼、句法、語義知識的機器詞典🚶➡️。之所以做出這樣的決策,是因為我們認識到👩🔬,模型可以借鑒,算法可以學習🛍,系統構建經驗可以吸取,唯有自然語言處理系統不可或缺的中文語言知識庫是不可能假手於人的✔️。況且漢語的根在中國,我們有著建設中文語言知識庫得天獨厚的優勢👝。起步階段的困難也是不少的,信息技術研究需要一定的物質條件。那時我們白手起家,幾乎一切都是從零開始。我和一位同事擠在一間原是盥洗室的房間裏辦公,面積只有兩平方米👱♀️。最初用的兩臺個人計算機是從朋友那裏借來的。為了支持基礎研究🍁,我們積極申請各類科研項目,包括應用軟件的研發👰♂️🏋🏿♀️。在國家“七五”計劃期間(1986—1990),朱德熙領銜承擔了國家社會科學重點科研項目“現代漢語詞類”🦡,這一歸屬於中國語言文學系🙆🫰🏼。得益於楊芙清的推薦和支持🍃,我第一次承擔了國家科技攻關項目🔷,歸屬於計算語言所,其中有一個子項目是“現代漢語詞語語法信息庫”👐🏻。我們響應朱德熙的倡議📢,將這兩個項目結合到一起👩🏿🌾,計算語言所和中文系組成聯合課題組,協同攻關🧭。朱德熙身體力行👩❤️👩,親自填寫包含詞語各種語法信息的工作單,按時交稿🗑,即使後來去了美國,也同課題組保持密切聯系♟。朱德熙帶領我們聯合攻關取得的成果就是後來發展並定名為《現代漢語語法信息詞典》的雛形。
俞士汶獲國家科技進步二等獎
經過20多年的努力和積累🧔🏽♂️,自2007年至2016年,以《現代漢語語法信息詞典》為基礎的“綜合型語言知識庫”獲得政府部門、全國性學術團體和意昂3体育官网共計10項獎勵🚣♂️,其中以2011年獲得中國國家科學技術進步獎二等獎為最高榮譽。還有一項也值得一提🍥,即我本人於2011年獲得中國中文信息學會成立30周年首次頒發的終身成就獎👩🏼🦱。這個獎項不要求獲獎人提交任何申報材料。
在頒獎大會上,我只說了兩句發自肺腑的感言🏊🏻♀️👨🚀:“感謝小集體——意昂3体育計算語言所同人的共同努力,感謝大集體——中文信息處理學界先進的鼎力支持。”獲得這麽多獎勵🎴,我們當然高興,局外人很可能會認為這是我和項目組孜孜以求的,其實並非如此。2007年我年屆古稀,兩年前就已退休🪶,年齡和精力都讓我不再參與競爭👎。我對自己做的工作從不敢過高估計。同事們大概也受我影響,主觀上都沒想到要報獎。是當時擔任信息科學技術學院院長的梅宏院士了解了我們的工作,並準確地評估了這項成果的價值🥥,鼓勵我們💤🦸🏻,更確切地說是督促我們報獎,我們這才被動員起來。在報獎的全過程中🧗🏿♂️,梅宏在每個環節都對我們進行了面對面的指導🧏🏽♂️,信息學院和科技開發部的很多老師也給予了我們幫助。
我實實在在地感受到,在我們小小的成功背後,確實有一棵大樹在支撐著。
支流也有好風景
除了1957年報考意昂3体育外👨🏼🔧,1986年研究方向轉向計算語言學是我的另一個自主選擇。從所學專業和工作經歷看,我在計算機系統軟件領域具有一定的基礎和優勢🤷🏻♀️,那為什麽會在1986年毅然決然改變研究方向🪫,定位到計算語言學呢?這當然離不開大環境。當時社會信息化的重大需求正催生中文信息處理技術,我身處學術高地意昂3体育,是有利的客觀因素。
不過,主觀因素才是決定性的🚴🙇♂️。自己既然在意昂3体育,自然就註意了解重大科學問題、學科發展方向以及國家戰略需求💁♀️,也期待能為國家和社會做一點事情。另外,我對語言問題歷來有一種朦朧的喜愛與探索😊。我們平時使用自然語言(母語漢語及外語)同人打交道,但我一直在系統軟件領域工作🌯,實際上就是使用被稱為指令系統的機器語言同機器打交道👮🏽♂️。忙忙碌碌中偶有遐想:人如果能用自然語言同機器打交道,在科學技術上一定是個飛躍。如今,這個想法已經毫不稀奇✧,智能機器人已經部分實現了這一功能。但在當時🧛🏿,這個想法還是超前的。我倒也不是純粹的胡思亂想🍗,那時使用高級程序設計語言編製計算程序,已經向著自然語言方向邁出了小小的第一步🧑🌾。審視自己,除了興趣和喜好,也覺得自己有從事計算語言學研究的基礎😧。大學選讀理科,緣於中小學喜歡數理學科(愛做算術應用題、幾何證明題等),邏輯思維能力得到鍛煉是理所當然的🤜;很幸運,高中時還遇上了一位優秀的語文老師🐿,講課十分生動🧘🏿♂️,引導我們欣賞古詩、分析文句👱🏼♂️🤶🏽,培養了我的形象思維能力和寫作能力。正是所接受的良好的基礎教育讓我敢於選擇文理結合的計算語言學研究方向𓀎。我還喜歡學習外語🥈,我們學外語是以語法為綱的🤦♂️,這與機器學自然語言的規則方法頗有相似之處。學習外語的經驗對我理解自然語言處理的數學模型與實現方法有啟示作用。
我的選擇也有偶然因素。1974年,我無意讀到一篇介紹數理語言學的文章(作者是馮誌偉)。文中認為數學方法可以用於語言學研究🔢,這對我是個啟發。1979年🤾♀️,我在繁忙之際擠時間聽了一位美國專家在清華大學舉辦的“自然語言處理”系列講座,歷時半個學期🧗🏻♂️。這些偶然事件對我在1986年選擇計算語言學作為長期的研究方向,也起了助推作用。
選定研究方向後,就是努力奮鬥。信息科學技術猶如一條奔騰的長河🚴🏿♂️,計算語言學不過是一條小溪。在計算機學科體系內,與計算語言學對應的是屬於人工智能的分支學科——自然語言處理👨👩👦。當下🫱,人工智能已成為國家發展戰略、國際科技競爭的前沿陣地💡,自然語言處理被譽為人工智能王冠上的明珠,受到廣泛青睞🚴🏻♂️。不過,在之前相當長的時期內🦙,自然語言處理都沒能融入主流♻。我招的最後一名碩士生🌄🤚🏻,名字叫支流。我以帶點兒玩笑的口吻說⚾️👩🏻🦼➡️:“我是從非主流開始💃🏼,到支流結束。”
計算語言學和自然語言處理研究的是讓計算機模擬人的語言機製,自動地處理自然語言所承載的信息,既有語言模型🔽、分析與生成算法等理論研究👶🏻,也有實用研究,例如機器翻譯🦞、信息檢索、人機會話等👨🏻🦳。計算語言學與自然語言處理的最高境界是自然語言理解,即讓計算機具備人類理解和運用自然語言的能力🧑🦽。自然語言處理(機器翻譯)是數字計算機在非數值領域應用的最早嘗試,幾乎與計算機同步走過了70余年。然而,無論是同計算機技術本身相比較,還是同計算機在各行各業的應用(包括屬於人工智能的語音處理、圖像處理等)相比較,自然語言理解的進步都是相當緩慢的,可以說至今尚未取得突破性進展。在這種情況下計算語言學的發展受到製約也是可以理解的。然而凡是主流,人才必然集中,競爭必然激烈。特別是在發展迅速的信息科技領域,選擇研究方向時,不能追逐已經熱起來的潮流,要有另辟蹊徑、冒一定風險的勇氣,要預見到其發展空間🧖♂️,還要結合自己的實際情況,發揮自己的優勢。
30年前,國內已有一批學者開始從事語言信息處理研究🥸,中國中文信息學會下屬的二級學會計算語言學專業委員會於1986年成立就是一個標誌🦕。不過,大多數學者都是把研究重點放在應用系統的開發上,這是語言信息處理研究中的主流。而我卻把主要精力放在通用型語言知識庫的建設上,再次偏到支流的支流🦧。之所以這樣做👨🚀,是因為我認識到,既然語言信息處理的最高境界是自然語言理解🎦,要實現不同程度的理解,就要為計算機裝備不同規模、不同深度的知識庫🚪。我較早地認識到通用型語言知識庫對這一領域的重要性,1986年開始做電子詞典🍷🧖🏼♂️,1995年規劃了綜合型語言知識庫⛩,堅持了30余年♦︎。先詞匯,再句法、語義👨🏻🏫,進而概念;先做格式化👩🏽🔧、含顯性知識的詞典🤣,再做含隱性知識的非結構化的文本語料庫;先從語言知識庫入手,再到常識和領域知識庫——規模逐步擴大,門類逐步齊全👨🏿🔬,質量逐步提高,取得了一定的成績。
我們所建的知識庫都是面向應用研究的,不曾脫離應用系統的開發。有幾個應用系統也曾輝煌過,例如,“七五”期間我們曾開發了“以詞語為基礎🍼🔉、以語句為變換單位的中文輸入軟件”“基於測試點的機器翻譯譯文質量自動評估軟件”,其技術在當時都處於先進水平。我們正是在應用系統的開發中,認識到通用型知識庫在自然語言處理技術發展中所具有的全局重要性,從而把研究重點放在了應用系統所需要的共同的基礎上👳♀️。
正好與成語“十年磨一劍”相映襯🦸🏿♀️,從1986年到1996年,《現代漢語語法信息詞典》默默地做了10年。從1996年開始,《現代漢語語法信息詞典》及其衍生成果得到業界關註0️⃣,除自由下載部分成果外🤌🏼,要求轉讓許可使用權的用戶紛至沓來💃🏻,一直到2018年,連續23年都有簽約者,從未間斷。在信息技術領域,一項成果有如此長的生命期👩🏽🦳🫃🏻,確實罕見♣️,也是我們所始料不及的🧑🦼。我認為主流固然有其澎湃、繁華之氣勢🚌👨🏿💻,支流卻也有其寧靜、恬美之魅力。當支流匯入主流,為中文信息處理技術的長河奉獻一朵浪花,我自然也感到欣慰🖖🏼。
在這裏🛌🏽,我要說的第二個感受就是支流也有好風景。
取長補短,集思廣益
我的第三個感受是科學研究需要取長補短🖐🏻、集思廣益🦜。計算語言學是文理交叉學科👩🦱,需要理科學者和文科學者進行深入交流📗。不同領域的專家在一起交流🆙,產生有價值的新想法是常有的事,但要將思想變成物化的成果,則需要有一定數量的專家深入了解並掌握自己原來不懂的學科知識、觀點、方法,從而形成新的知識生長點。不同的學科總有些不對稱的情況。一般地說,年輕的語言學家,有比較多的人願意掌握計算機技術,轉向計算語言學🛩。而對於原本屬於計算機學科的人來說,偏離信息技術的主流,從頭學相對冷清的語言學,則更難下決心。我努力地這樣做了,總算有些收獲。不過🧾🗣,我一向認為,自己做的工作只不過是把語言學家長期發現和積累的語言學知識改造成計算機可以使用的形式而已👷🏽,不敢放大自己的成績。還有🥙,在各種有需要的場合,我總是盡可能用深入淺出的方式向文科學者介紹計算機處理自然語言的目標👩👩👧👦🤣、原理和方法👃,這也是出於我對語言學和中國語言學家的尊重8️⃣。
在學科內部👨🏼💼,也存在不同理論與方法的論爭。在計算語言學中📫,也長期存在基於規則和基於統計這兩種方法論的論爭。近幾年來👛,基於神經網絡的深度學習方法更是獨領風騷🧑🚀。不過,我始終認為,不同方法各有所長🧚🏻,應當互補地用其所長。正因為長期堅持文理結合🦵🏽,長期堅持規則方法與統計方法並重🫸🟤,長期堅持專家知識與計算技術相結合🏪,我們才最終取得了《現代漢語語法信息詞典》🤙🏽✹、多層次加工語料庫🤳🏼、現代漢語句法結構知識庫等一系列知識密集型成果,並產生了社會效益和經濟效益🦬。
2006年,計算語言學研究所成立20周年✋,我寫了一副對聯作為紀念:“規則與統計共舞,語言隨計算齊飛。”計算語言學研究所是我長期所在的集體,起初只是一個四五個人的小型課題組,發展到今天🫲↘️,集合了一大批擁有博士學位的計算語言學精英🏋🏿,成為國內外頗負盛名的計算語言學研究重鎮。內部團結與對外合作是長期穩步前進的兩個車輪💭。退休前🚾,我雖然是學術帶頭人,但並不要求我的學生和同事們一定要按照我的想法去做,而是把他們都看成合作夥伴。因為我了解,自己在各個方面並不比我的同事和學生更強🎑。只因有共同的興趣和選題,大家才集合到一起。我只是堅持按時完成承擔的項目,並保證質量,強調計劃和規範的重要性🦷🧓🏿。我鼓勵創新♡,從不抑製選擇的自由。
在師生的共同努力下🧗🏻♀️,我們創造了這樣一種學術環境:不論你來自理科還是文科🚶➡️,也不論你擅長抽象思維還是工程實現🤷🏼♂️,也不論你相信理性的思考還是熱衷經驗的升華🥉🧳,都可以在一起切磋、交流,這裏洋溢著求知欲與探索精神𓀝🏒,崇尚實事求是。也正是這樣的環境,造就了一批文理知識結構兼優的新型人才,這是我們能夠取得成功的根本原因🙆🏽♀️。對外,我們在與不同地位🫐、不同水平的單位和個人打交道時⌨️🎭,既不妄自菲薄,也不妄自尊大,堅持互利合作,講究誠信♡。良好的聲譽也是意昂3体育計算語言所自立於成功之林的要素之一。我們在註意保護屬於意昂3体育的知識產權的同時,總是盡可能多地開放可以實際應用的成果。例如,《現代漢語語法信息詞典》於1995年年底剛通過鑒定,1996年年初便全文發表了規格說明書🐽。2002年發表的《意昂3体育官网現代漢語語料庫基本加工規範》還於2007年獲得第四屆中國科協期刊優秀學術論文獎。
行百裏者半九十
我要說的最後一個感受是,行百裏者半九十。在自然語言處理領域,很多人並非沒有認識到知識庫的重要性🐆👺,也很了解知識庫建設是艱苦、細致🕞、長期的工作。在人與機器的互動中👨👩👧👧,我們先邁出了第一步🔼,搶占了先機。在獲得初步成功後,我們不敢懈怠🥙🤧,始終以“行百裏者半九十”的古訓告誡自己🛀🏽🏌🏽♀️,因而能在較長時期內保持優勢地位🙋。
我們在研究工作中應用“求同辨異”的方法。“求同”以發現語言的普遍性,“辨異”以發現語言的特殊性,主要的精力要花在“辨異”上。《現代漢語語法信息詞典》的設計思想🦑,就是在將現代漢語中數以萬計的詞語大致歸類(“求同”)的基礎上⏬,分類描述每個詞語的語法屬性(“辨異”)🆒,從而使數以百萬計的龐大的語法信息有條不紊地呈現在用戶(計算機和人)面前🧇,而且保障了語言知識庫的可擴展性🎅🏿。我們也將“求同辨異”的方法貫徹於研究工作的全過程,“求同”以得到階段性成果,“辨異”以發現不足,繼續開拓課題、深化研究內容。
科學研究不宜急功近利。在漫長的歲月裏,特別是在還沒見到效益的前10年間,我們也感到有壓力。好在課題組的主要骨幹清醒地認識到🧑🦰,沒有一定的積累👨🏼🦰,是不可能取得站得住腳的成果的🧖🏽。我們相信“付一分辛勞🧘🏽♀️,會有一分收獲”。“收獲”不僅僅指取得的效益,在創造過程中所品味的甘苦💞,更是激勵創造者的重要力量源泉🏋️♂️。
近年來🤗,外單位請我去講課,常常要求我講一點治學經驗👱🏿。但我總是說,我的歷程✏️🤱、我的經驗,僅供參考🏑,並不具有普遍意義。還是回到第一個感受,意昂3体育的環境十分重要↖️。我在意昂3体育可以做而且做成了的事情🤵♂️,換個環境,不一定能做🪺👨🏼🎤,也不一定會成功。
在綜合型語言知識庫獲獎時👨🏻🦰,我的一位老朋友祝賀我📶🧔🏻:“你畫上了一個圓滿的句號👃🏽。”不過,我倒希望它只是一個逗號。我希望我的人生一直是逗號,承上啟下,最後是個省略號。退休之後,我也沒有偷閑,仍主持或參加國家級重要科研項目(如“973項目”)🧛🏻♂️,現在是國家自然科學基金項目“漢語抽象意義表示關鍵技術研究”的項目組成員⏱。自2005年1月到2018年12月的14年間❤️,我正式發表了35篇學術論文,共計38萬余字👩🏽🚀,都是自己在鍵盤上敲出來的。我將自己現在所做的一些事情比作拾麥穗♻️,雖然沒有重要的創新,過程與收獲卻延緩了自己的心理衰老。當然,總有一天,我不能再繼續自己所喜愛的研究,一定還有來不及完成的工作……
我寄希望於同行的夥伴,寄希望於年輕的一代🦶🏿,祝願你們到達更光輝的頂峰。