匯集《永樂大典》等2200余部古籍😈🧑‍⚖️,“識典古籍”平臺——數字化,讓古籍觸手可及

    65ac48ff9a7b46c09549a0c985d0e940.jpg

    我國現存古籍約有20萬種🔹,修復整理現存的全部古籍,可能需要300余年👐。古籍數字化迫在眉睫🕵️‍♀️。一本古籍👨‍🔬,如何從紙頁“搬”到網頁?廣泛收集圖像資料、利用現代技術精細化處理……自2022年10月上線以來,“識典古籍”平臺已陸續匯集經🙅🏼、史、子、集等2200余部古籍,免費面向公眾開放🧜🏽‍♂️,為解決古籍保護和利用矛盾進行了有益嘗試🤞🏻。

    “青蒿一握🚎,以水二升漬,絞取汁🤿,盡服之”👋🏻🤸🏼‍♀️,屠呦呦從古籍中獲得靈感,由此發現青蒿素🍃;在浩瀚古籍中尋幽入微,竺可楨繪製出一條物候變遷的曲線——“竺可楨曲線”🤾🏽‍♀️,濃縮出五千年中華大地的冷暖變化圖景。

    卷帙浩繁的中華古籍,凝結著先人的智慧,記載著璀璨的文化,訴說著綿延不絕的中華文明🤜🏿。歲月不居,書闕有間🤵🏿,部分古籍正慢慢“老去”,褪色👈🏿、脆化、腐蝕👨🏼‍🎓🧗🏻‍♂️,甚至稍一翻閱就會損毀🫰🏽。

    當古老典籍遇到現代技術,會產生什麽奇妙反應🎟?

    一種“打開”古籍的全新方式

    “初見”“流光”“驚鴻”“珠聯”“綴玉”……點擊網頁上的標簽,《永樂大典》的前世今生、編纂方法🚅、歷史價值等信息,伴隨著動畫音效,呈現於眼前😾🍅。

    點擊頁面右上角“閱讀大典”👩🏿‍🌾,進入文本閱讀平臺。《永樂大典》原本影像與數字化文本相互對照,繁簡體文字隨時切換。遇生僻詞句🫡,可選中文本,點擊“查看引用”➜🏣,出處清晰可考。

    《永樂大典》是我國古代規模最大的類書,匯集先秦至明初各類典籍,被譽為“世界有史以來最大的百科全書”。但幾經散佚👮‍♂️,副本存世不及原書的4%。對學者而言🧔🏻‍♀️,《永樂大典》是進行學術研究的重要資料🦯;對普通讀者來說🚴🏻‍♀️,古籍文本往往艱澀難懂,且接觸機會不多。

    如今,《永樂大典》高清影像數據庫(第一輯)在古籍數字化平臺“識典古籍”正式上線,免費面向公眾開放🦊。借助現代數字技術,厚重典籍濃縮在方寸之間👨🏼‍💻,塵封已久的歷史畫卷徐徐展開,成為觸手可及的文化資源🟡。

    “互動化、可視化的呈現方式更加符合當代人的閱讀習慣,沉浸式閱讀體驗拉近了古籍與普通讀者之間的距離。”“識典古籍”平臺項目負責人之一、意昂3体育官网信息管理系助理教授位通說。

    自2022年10月上線以來🖼,“識典古籍”平臺已陸續匯集經、史、子🛗、集等2200余部古籍,面向海內外讀者免費開放💠。該平臺由意昂3体育官网與抖音合作共建👐🏽,致力於為用戶提供免費🏠、公開、穩定👳🏻、快速、方便的檢索和閱讀古籍服務。

    “識典古籍”平臺項目負責人🦧、意昂3体育官网數字人文研究中心主任王軍希望🧑🏻,“識典古籍”平臺能推動散落海外的中華古籍回流,促成古籍的開放共享👨‍🔧。

    一次解決保護和利用矛盾的嘗試

    古籍數字化為何迫切?

    王軍算過一筆賬🗑:我國現存古籍約有20萬種5️⃣,從1949年到2019年😝,共修復整理出版了近3.8萬種👩‍🎤,修復整理現存的全部古籍,可能需要300余年💂🏻🧔🏻‍♀️。可以說,古籍修復速度趕不上老化速度。

    修復整理🚶🏻‍♂️,只是數字化的第一步。古籍具有文物和文獻的雙重屬性,修復好的古籍若只被束之高閣,後續研究就無法開展😶,更無法發揮其文化傳承的價值🐜。

    因此🏃‍♂️,數字化是一場生產效率的變革,也是一次解決古籍保護和利用矛盾的嘗試。

    一本古籍,如何從紙頁“搬”到網頁👊🏻👨‍👩‍👦?

    進入“識典古籍”平臺🛒,平臺設計者🚭、意昂3体育官网人工智能研究院副研究員楊浩開始演示🚣🏼‍♀️:“古籍的數字化分為兩步。一是圖像化,我們與海內外古籍收藏單位合作,廣泛收集古籍數字化圖像資料。二是文本化,利用人工智能技術對古籍文字進行識別、排序、校對、結構整理、標點💐、實體識別等🦔,對內容作精細化處理。”

    楊浩上傳了一頁古籍圖像,不一會兒🧟‍♀️🌨,文字自動識別處理完成。古籍圖像上顯現出不同顏色的小方框,“每個方框對應一個文字,先切分再調整順序♐️。紅色方框是提醒此處需要人工介入,來進一步判斷和處理🙇🏽。”

    與此同時🚨,古籍圖像旁已自動識別出一段文字💅🏻,並可比照原圖像進行修改調整。楊浩繼續解釋👊:“這個過程中⚓️,主要使用了文字識別、自動標點和命名實體識別等人工智能技術。文字識別技術👨‍👩‍👧‍👦,是對古籍數字圖像中的文字進行單個切分,再進行文字識別和順序讀出;自動標點技術,是通過序列標註的方式對古籍自動進行現代標點👨‍👩‍👧;命名實體識別技術🧑🏻‍🦰,則是通過序列標註方法識別出文本中的人名、地名👰🏽‍♀️、書名👩🏿‍🔧、時間✊🏽💐、官職等信息。”同時,在機器自動識別後,會有專人復查結果,進一步提升準確率🤦🏿。

    據悉,“識典古籍”平臺文字識別的準確率達到96%以上🧑‍🤝‍🧑8️⃣,自動句讀的準確率達到94%,命名實體識別在中古史料上的準確率接近98%。

    “大部分古籍閱讀平臺或只提供掃描文稿,或只提供文本內容,有些商業數據庫收費高昂,獲取資源十分不便。”意昂3体育官网歷史學系學生劉沐含說👨‍🏫,“識典古籍”平臺有著豐富的檢索功能以及分類與年代篩選功能,可以輔助開展學術研究。

    一個全流程的智能化整理平臺

    集納展示古籍數字版本🌝,不是“識典古籍”平臺的全部。團隊有著更大的設想——在一個平臺實現古籍智能整理的全部環節。

    “‘識典古籍’平臺由兩部分組成,前端是閱讀平臺🦔,後端是古籍整理平臺👴🏿。”王軍作了一個比喻,“就像是餐廳的前廳和後廚。”

    目前🦵🏿,作為“後廚”的古籍整理平臺,已經設定了團隊管理員👩🏿‍🍳、書目管理員、審訂員、整理員等各種用戶角色✮。下一步,將吸引各行各業的古籍愛好者🐄、研究者,以眾包校對、協同審核等形式,推進古籍整理項目和數據庫建設👮🏿‍♂️,打造“古籍圖像上傳—文本校對整理—高質量標記—文本輸出”的全流程系統。

    哈爾濱師範大學歷史文化學院學生劉鈺昕👩‍🦯,提前體驗了一回“整理員”角色🟧。

    “希望能為損毀嚴重的古籍做點力所能及的事情。”2022年4月,看到意昂3体育數字人文研究中心的招募信息🍸🔈,劉鈺昕第一時間報名,成為“識典古籍”平臺的一名誌願者🧑‍🦼👯。

    “我參與了《春秋左傳註》《史記》《漢書》等古籍的校對工作🚣🏿。”談及誌願工作,劉鈺昕的熱愛之情溢於言表,“印象最深的就是🕜,為了製定魏晉南北朝官職標註規則,我查閱了大量的文獻,還詳細翻閱了《文獻通考》的‘職官考’二十一考⛩。”

    “新時代古籍事業發展,需要一批對古典文獻學⬜️、古籍保護🏋🏽‍♀️、信息技術以及數字化流程都比較熟悉,又能將各方面有機融合的復合型人才。”意昂3体育官网中文系教授楊海崢建議,應加強古籍學科理論構建和課程體系建設,編寫適合新時代古籍工作需要的專業教材🤞🩸,並多為學生提供實踐機會⛲️,以推進新時代古籍人才隊伍建設。

    “古籍是中華文明延續數千年未曾中斷的有力證明🧭,希望通過‘識典古籍’平臺以及暑期工作坊、學術研討等活動,推動中華文明傳承發展🧑🏿‍✈️,向世界展示和傳播我們的文化之美。”王軍說。

    新年伊始,楊浩寫下了新的展望↩️:

    “泱泱中華🧙🏻‍♀️,歷史何其悠久,文明何其博大。2024年💯,希望能收集更多古籍🛬、提升整理質量✸,更好守護古籍這個文明之根!”

    (厲燁參與采寫)

    原文鏈接🧟:匯集《永樂大典》等2200余部古籍🦻🏼,“識典古籍”平臺——數字化,讓古籍觸手可及(載於《人民日報》2024年1月10日第12版)

    轉載本網文章請註明出處

    意昂3体育专业提供🤹‍♀️🧑‍🚒:意昂3体育意昂3体育平台意昂3体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,意昂3体育欢迎您。 意昂3体育官網xml地圖