1、引言
自20世紀70年代末開始,古籍數字化研究與實踐迄今已走過了近40年的歷程。從最初的文本錄入、索引編制,到大規模建設各種類型的古籍數據庫(如書目型、全文型和影像型數據庫等),發展到今天利用計算機信息處理技術對古籍數字文本進行各種深加工,如自動標點、自動???、自動注釋、語義標引、文本聚類、知識挖掘等,人們對古籍數字化的認識也在不斷發展。
最初人們對古籍數字化的理解只是將紙質古籍的文本信息轉換成數字形式,以便長久保存和利用,進而利用計算機處理信息的技術優勢,開發出便捷高效的全文檢索功能。
隨著數字信息技術的發展,特別是本世紀初“數字人文”理念的興起,人們發現還可以將轉換后的古籍數字文本當作進一步加工整理的數據,通過一系列數據處理及加工技術開發出新的知識產品,古籍數字化的概念向著更深的“知識域”邁進。
當古籍數字化發展到新階段后,就古籍整理與研究者而言,對古籍完成數字文本轉換之后的海量數據進行深度的知識加工,成為繞不開的課題。為此,筆者擬對近10年來古籍數字化研究進行總結,分析古籍數字化研究的總體特征、存在問題及內在驅動力,并結合人文科學研究對古籍數字化產品功能需求的特點,探討古籍數字化未來的發展方向,為古籍整理和人文社會科學相關研究提供參考和借鑒。
2、近10年來古籍數字化研究概況(2009-2019)
2.1 相關的期刊論文基本情況
筆者利用CNKI數據庫,來源選擇為“期刊”,字段選為“主題”,一次檢索詞為“古籍”“典籍” “善本”“古文”“古代文獻”“古籍整理”“古籍保護”,二次檢索詞為“數字化”“電子化”“計算機”“數據庫”,組配方式均為邏輯或,時間限定在2009年至2019年,勾選同義詞擴展,檢索日期為2019年7月1日,共命中1053條結果。通過篩選、剔除后共得到759條相關結果,然后運用CiteSpace軟件工具對所得結果進行計量和可視化分析,得到作者合作網絡圖和關鍵詞共現圖,如圖1和圖2。
圖1古籍數字化研究的作者合作網絡
作者合作網絡圖能夠反映領域內重要的研究貢獻者及研究者之間的聯系。在作者合作網絡圖中,節點的大小代表作者的發文數量。從圖1可以看出,古籍數字化研究的作者分布較為分散,說明近10年來該主題研究者的來源背景比較復雜,研究的方向也較為分散;從發文數量來看,葛懷東、毛建軍、張文亮等學者位居前列;還有部分研究者是以合作的方式進行學術探索,例如李兵、符永馳、王蕊等,這些學者均來自同一研究機構,且研究內容多以中醫藥古籍為主。
分散的作者網絡圖從側面說明了兩個問題:①研究者來自于不同的學科背景,印證了現階段古籍數字化研究的多學科性質,涉及到圖書情報、文史、計算機領域,但不同類型的研究機構之間的合作較少,學科交叉的性質仍有待加強;②研究者正在努力發掘新的課題,因而研究主題顯得較為分散,當前并未形成一個穩定、完整的研究體系。
圖2古籍數字化研究的關鍵詞共現
關鍵詞體現出文章所要表達的核心主題和主要內容。通過關鍵詞共現分析,可以對研究領域的主題進行分析。在關鍵詞共現圖中,節點的大小代表關鍵詞的頻次,關鍵詞出現頻次越多,對應的節點就越大。節點之間的連線則表示共現關系,其粗細表示的是共現強度。圖2將共現次數較多的關鍵詞和一些特殊的關鍵詞分別用方形框和橢圓框標記了出來。
結合圖2及調研相關文獻,筆者歸納出近10年來古籍數字化研究主要集中在以下6個方面:
(1)古籍數字化概念及古籍數字化現狀研究。此類論文數量偏多,說明學界比較關注古籍數字化的基本理論問題,同時注重與實踐相結合。對于古籍數字化概念的探討始于20世紀90年代中后期,至今沒有間斷。人們對古籍數字化的認識,隨著古籍數字化的發展而不斷深入,這個過程大致經歷了古籍存儲介質的轉換、文本組織與檢索、數據加工與知識服務3個階段。對古籍數字化現狀的研究,多是對古籍數字化進程、問題、對策、趨勢等方面的總結和分析,代表性論文有《中文古籍數字化的現狀與意義》[1]《我國古籍數字化進展與研究述評》[2]《中國大陸地區古籍數字化問題及對策》[3]《古籍數字化的困局及應對策略》[4]等。
(2)與古籍保護相關的古籍數字化研究。視古籍數字化為古籍再生性保護的一種有效手段,并展開相應的研究,代表性的論文有《古籍保護與開發的策略與建議》[5]《古籍數字化的保真問題》[6]《數字化生存下的歷史文化資源保護與開發研究——以陜西為中心》[7]《數字人文時代圖書館古籍文獻資源的數字化長期保存機制探討》[8]等。
(3)與圖書館業務相關的古籍數字資源建設研究。主要涉及各類型古籍數據庫的開發、古籍數字資源整合、古籍數字資源共建共享等問題。圖書館作為古籍收藏、管理、開發與利用的主體,與其古籍數字化工作相關的研究主要圍繞古籍數字資源建設展開,代表性論文如《古籍書目數據庫的標準與評價研究》[9]《我國古籍書目數據庫建設標準規范探討》[10]《古籍數字資源庫發展趨勢探討》[11]《古籍數字化與共建共享》[12]《圖書館古籍數字資源整合研究》[13]《古籍資源聚合研究》[14]等。另外,古籍版本數據庫和專題知識庫的建設也引起了學者們的關注,如《基于Unicode的中國蒙古文古籍版本數據庫的構建》[15]《論古籍版本數據庫建設》[16]《中醫古籍知識庫的發展現狀及古籍養生知識庫的構建》[17]等。
(4)專類古籍的數字化研究。涉及中醫藥古籍、少數民族古籍、地方文獻、譜牒、方志、拓片等的數字化問題,如《中醫古籍數字化整理方案研究》[18]《數字化家譜的研究與實現》[19]《抄寫本方志古籍數字化整理與實踐》[20]《國家圖書館石刻拓片的數字化》[21]《蒙古文資源數字化共建共享保障體系研究》[22]《中醫古籍數字化建設及其平臺設計和實現》[23]等。這類研究多是從文獻保護和文化傳承的視角展開的,就古籍數字化技術本身而言,并無多少突破。
(5)古籍數字化協作機制研究。選題重復、缺少規劃等問題是長期困擾古籍數字化的一個問題,已有不少學者意識到,必須通過國家層面的機制創新來解決這一難題。這方面代表性的論文有《對現階段古籍數字化的思考——兼論古籍數字化國家行為的重要性》[24]《古籍數字化工作統籌協調機制的構建》[25]《試論古籍數字化的國家宏觀政策體系》[26]《中文古籍數字化的主體構成及協作機制初探》[27]等。
(6)古籍數字化與數字人文相結合的研究,包括關聯數據、知識挖掘、地理信息系統(GIS)、知識組織等。近5年來,這類論文有逐年增多的趨勢,預示著古籍數字化研究已進入面向知識服務的新階段。代表性的論文如《命名實體識別在方志內容挖掘中的應用研究》[28]《“數字人文”內涵與古籍數字化的深度開發》[29]《“數字人文”與歷史地理信息化研究》[30]《基于GIS的中國古籍地理信息系統研究》[31]《面向數字人文研究的大規模古籍文本可視化分析與挖掘》[32]《地方歷史文獻的數字化、數據化與文本挖掘:以中國地方歷史文獻數據庫為例》[33]《基于本體和XML的注疏文獻的結構化知識表示》[34]《中國歷史地理關聯數據在圖書館數字人文項目中的開放應用研究》[35]等。
在中醫古籍的數字化研究方面,對知識的挖掘和重組取得了令人矚目的成果,如《基于本體論構建中醫古籍知識庫的探索》[36]《基于知識元的中醫古籍方劑知識表示研究》[37]《基于溫病古籍知識概念語義網絡構建研究》[38]《基于本體的中醫學術傳承脈絡構建》[39]等。
2.2 相關的國家社科基金項目基本情況
筆者利用國家社會科學基金項目數據庫[40],將時間范圍設定在2009-2018年,學科類別限定在“圖書館、情報與文獻學”,檢得與古籍數字化相關的研究項目54項。
從立項數量來看,整體呈逐年上升趨勢,其中2009年最少,只有1項;2017年最多,達到13項。從項目類型來看,西部項目最多,為23項,占比42.59%;其次是一般項目21項,占比38.89%;青年項目9項,占比16.67%;重大項目1項,占比1.85%。
從項目研究的主題分布來看,大致分為以下幾類:
(1)少數民族古籍和中醫藥古籍的搶救性整理與保護。此類項目數量最多,計有21項,典型的如“布依族象形文字古越書價值及其資源搶救、建設與開發利用研究”(10XTQ010)、“蒙古民族文獻價值及其文獻資源建設研究”(10XTQ012)、“云南傣族醫藥古籍文獻整理及其基礎數據庫建設研究”(11CTQ041)、“撒拉族文獻資料數據庫的建設研究”(11XTQ011)、“四川南派藏醫藥古籍文獻的搶救性挖掘整理及數據庫研究”(13XTQ012)、“青海地區藏醫藥古籍文獻收集、整理與數字化研究”(16BTQ051)、“湘黔桂邊區侗醫藥古籍文獻收集、整理及數字化研究”(17CTQ017)、“存世寧夏舊方志數字化整理研究”(18XTQ007)等。
(2)口述歷史、特殊檔案及非物質文化遺產保護相關的數字化項目。這類項目嚴格地說不屬于古籍數字化項目,但屬歷史文獻的范疇,故放在一起統計。此類項目計有15項,如“云南少數民族口述文獻價值及其數字化語音庫建設”(10CTQ015)、“白族口承文藝非物質文化遺產調查及專題數據庫建設”(12CTQ018)、“歷代孔府檔案文獻集成與研究及全文數據庫建設”(13&ZD108)、“清代彝事漢文硃批檔案文獻匯編、整理與數字化建設”(16BTQ045)、“瀕??陬^詩學青海撒拉族‘玉爾’的數字化保護與傳承研究”(17XTQ011)、“瀕危非物質文化遺產的青海土族‘道拉’的傳承與數字化保護研究”(18BTQ035)等。自2016年起,國家社會科學基金項目明顯加大了對少數民族地區口述歷史和非物質文化遺產的保護力度。
(3)專題研究或專類古籍的數字化項目。此類項目計有14項。在專題研究方面,有的探討古籍數字化理論問題,如“文獻整理學術傳統在古籍數字化中的價值實現研究”(17BTQ009)、“圖書館古籍文獻的數字人文開發與應用模式研究”(17XTQ003)等;有的探討古籍數字化產業發展問題,如“我國臺灣地區數位典藏產業鏈建置研究17CTQ033”;有的致力于某類古籍的數字化平臺建設,如“越南與中國南海地名考證及歷史地理信息平臺建設研究”(18BTQ048);有的探討古籍數字化的具體技術問題,如“面向數字出版的蒙古文字形規范問題研究”(17XTQ001)、“基于典籍的中華傳統文化知識表達體系自動構建方法研究”(18BTQ063)、“徽州文書分類法與元數據標準設計研究”(12CTQ007)、“基于關聯數據的南海水下文化遺產文獻資源共享和可視化檢索研究”(17CTQ004)、“基于方志類典籍的地標農產品挖掘與組織研究”(18CTQ011)等。專類古籍的數字化通常是為某一領域的專題研究服務的,具有很強的應用性,如“四庫全書研究資源數據庫建設”(09BTQ017)、“青海省三江源區藏傳佛教寺院特色數據庫建設研究”(10XTQ013)、“湖南碑刻整理研究和數據庫建設”(11XTQ010)、“民國以前云南水資料整理及數據庫建設”(13BTQ041)、“存世寧夏舊方志數字化整理研究”(18XTQ007)。
(4)單書的古籍數字化研究。此類項目計有4項,如“楚辭文獻語義化研究”(10BTQ031)、“基于《苯教大藏經·丹珠爾》的詞匯計量研究”(12CTQ020)、“《秦簡書法大字典》創編及數字化應用研究”(12XTQ009)、“《讀史方輿紀要》地名考證及地理信息系統平臺建設研究”(17BTQ038)。
3、近10年來古籍數字化研究的總體特征和存在問題
3.1 總體特征
通過對近10年來古籍數字化領域期刊論文發表和國家社會科學基金項目立項情況的分析,筆者認為,近10年來古籍數字化研究總體上呈現以下3大特征:
(1)古籍的再生性保護仍是當前古籍數字化實踐和研究的主要領域。從論文發表和項目立項情況來看,專類古籍保護和圖書館古籍資源建設類的古籍數字化研究占了絕大多數。換句話說,當前我國古籍數字化仍是以保護和傳承古籍的內容文本為主要任務,遵循的是古籍的再生性保護思路。這在那些具有濃郁的民族特色、地區特色、文化特色的古籍身上體現得尤為突出。國家社會科學基金項目中與古籍數字化相關的“西部項目”數量最多,除了政策傾斜的因素之外,更多的是因為西部地區這3類特色古籍較多,亟需得到保護。僅從技術上而言,此類研究也許談不上有多大創新,但從文獻保護和文化傳承的角度而言,則意義非同一般。
(2)古籍數字化研究領域不斷拓展,學科化趨勢日益明顯。如果把古籍數字化的研究內容整體比作一座金字塔,那么古籍再生性保護就是這座金字塔的塔基。在塔基之上,不斷延展出新的研究領域,比如古籍數字化基礎理論、古籍數字資源建設、古籍數字資源管理、古籍數字化政策、古籍數字化技術等。從理論到實踐,從技術到政策,從應用到管理,古籍數字化研究儼然可以構成一門新的學科。
事實上,古籍數字化的學科建設問題已經引起了部分學者的關注,如毛建軍從傳統目錄學、版本學、??睂W研究的新視野,探討了電子文獻學的研究范疇[41];葛懷東對古籍數字化學科的研究對象、學科性質作了初步界定,并提出擬以數字化古籍整理學、中文信息處理技術、古籍數字化管理理論作為學科構建的基本框架[42]。
(3)古籍數字化研究在技術和理念上形成了以知識服務為核心的思想。古籍數字化不論如何發展,其本質仍屬于古籍整理的范疇。傳統的古籍整理是為人文社會科學研究提供文本和語義服務,在數字化時代,古籍整理進入了更深的知識層次。
在古籍數字化這座金字塔的塔尖,古籍數字化技術與理念指引著古籍數字化發展的方向。近10年來,數字技術與人文觀念的結合,催生了以知識服務于人文社會科學研究的思想,使得古籍數字化整理不再局限于提供準確可靠、可理解的內容文本,而是提供可用于輔助研究的知識產品。
3.2存在問題
除了研究論文與科研項目之外,具體的數字化產品也是古籍數字化研究成果的一部分。因此,筆者在對研究論文和科研項目進行統計分析之外,還通過網絡調查、親身體驗等方法,考察了現有古籍數字化成果的系統功能。將文獻調研與系統功能考察結合起來,筆者總結出古籍數字化研究存在以下不足:
(1)忽視了對用戶需求的調查分析。古籍數字化成果最終面向的是人文社會科學研究者及古籍愛好者群體。古籍數字化除了運用技術手段轉錄古籍內容、保護古籍本身外,更重要的是服務學術研究。當前的古籍數字化成果究竟能在多大程度上滿足傳統學術研究的需要,是很值得懷疑的,因為信息技術專家對人文學科研究的特點及專業知識信息需求缺乏深入的調查分析。
(2)未能構建完整的古籍數字化學術規范。古籍數字化不是古籍內容存儲介質的簡單轉換,而是傳統的古籍整理在數字化環境下的合理延伸。古籍整理的理念、方法經過長時期的歷史沉淀,適應了傳統學術研究的需要,有其科學合理的一面,如對底本的考訂和遴選、對文字的???、對副文本的處理等。因此,古籍數字化產品必須是古籍整理的成果,必須符合古籍整理的學術規范。然而時至今日,古籍數字化在文本加工、技術處理、管理流程等方面,還沒有建立一套相應的規范來保障古籍數字化的學術品質。
(3)對古籍整理學術傳統的借鑒力度不夠,學科合作有待加強。我國的古籍整理經過漫長的歷史積累,形成了許多優良的學術思想,如孔子提出的“述而不作”的文獻整理基本原則、司馬遷提出的文獻編纂的“會通觀”、支敏度提出的“百慮一致,萬流同歸”的版本源流考訂思想、顏之推提出的“觀天下書未遍,不得妄下雌黃”的??睂W思想、章學誠提出的“辨章學術,考鏡源流”的目錄學思想等。這些學術思想是與古籍整理相適應的,對今天的古籍數字化實踐仍具有重要的借鑒意義。
(4)忽視了對現有古籍整理成果的數字化研究。在紙本文獻環境下,前人已經做了大量的古籍整理工作,留下了豐富的古籍整理成果,包括大量的古籍序跋、書目、類序、提要以及編纂而成的各種工具書,如職官表、年表、傳記、年譜、學案、類書等。這些成果本來就是用以輔助傳統學術研究的,從提高服務效率的角度來講,對已有古籍整理成果的數字化將起到事半功倍的效果。然而,現有的古籍數字化產品較少將這類古籍整理成果嵌入其中,造成了學術資源的浪費。
(5)案例研究所涉古籍范圍有限。當前的古籍數字化研究已經進入數據整理階段,本體的構建、語義的關聯、知識的挖掘和可視化技術,已大量應用到古籍數字化領域。但從應用的古籍范圍來看,主要局限于醫藥、農業、家譜類古籍,而像歷代筆記小說、各家書目、類書、方志等其他有特點的古籍類別還較為少見,這需要在今后的研究中加以拓展。另外,從實踐來看,對古籍知識深度開發的成果還不是很多,尤其缺乏集各種功能于一體的開放共享式的古籍數字化平臺。
4、面向用戶的知識服務:未來古籍數字化研究趨勢探討
如前所述,古籍再生性保護是當前古籍數字化這座金字塔的塔基,折射的是古籍數字化的現實情況,而古籍數字化技術與理念則是這座金字塔的塔尖,指引的是古籍數字化發展的未來方向。
當現有的各大圖書館收藏的珍本、孤本及普通古籍,以及地方特色的少數民族古籍都完成了數字文本的轉換(即再生性保護)之后,對古籍數字資源的深加工就成為未來古籍數字化研究的必然課題。
就目前古籍數據加工的技術和理念來看,面向用戶的知識服務是未來古籍數字化研究的趨勢,而這也是由學術傳承、用戶需求及信息技術發展為內在驅動力的。
4.1 學術傳承驅動下的知識服務
中華文化最大的一個特性在于其傳承性。對于古籍而言,一方面它承載的知識內容是歷代學術研究的成果,具有傳承性;另一方面,古籍本身是歷代學者整理和出版的產物,在長期實踐中形成的文獻整理思想和方法體系,也是學術傳承的一部分。
對于古籍數字化而言,一方面要保存古籍的知識內容,傳承歷代學術研究的成果,另一方面要繼承和發揚古代文獻整理的優良學術傳統。
而從知識生產的邏輯來看,任何學術研究都肩負著知識生產、學術創新的任務,而在推進知識生產的過程中,研究者們最先做的工作都是文獻回顧。它指的是對到目前為止的、與某一研究問題相關的各種文獻進行系統查閱和分析,以了解該領域研究狀況的過程?;蛘哒f,就是一個系統識別、尋找、考察和總結那些與我們的研究有關的文獻的過程[43]。
文獻回顧需要在既有文獻和新的知識生產之間建立內在的學術聯系:一是通過清理既有文獻,為新的知識生產過程建立一個學術對話點;二是通過文獻清理,發現新的研究空間,從而建立一個學術推進點[44]。它除了推動知識生產和學術創新外,另一個關鍵點在于理清學術源流、促進學術傳承。
在傳統文獻環境下,古人通過對前代文獻的系統整理來完成對前代學術的總結,幾成慣例,如西漢劉向等學者對政府藏書的整理,通過“條別篇目,撮其指意”,撰成《別錄》;劉歆類分群書,編成《七略》,從而完成對先秦以來學術的系統總結。歷代大型類書(如《永樂大典》)和綜合性叢書(如《四庫全書》)的編纂,也是對一代學術的系統梳理和集成。
在數字環境下,現代學者對承載古人思想和智慧的古籍文本進行存儲介質的轉換、語義的解析、內容的組織、知識的挖掘等工作,與古人對前代文獻的系統整理的本質是一脈相承的,只是過程和方法上有所不同而已。
在對古籍文本內容進行整理的同時,古籍整理的學術傳統也在古籍數字化中得以傳承。
01、體現了“述而不作”的原則
如在古籍文本的轉錄過程中,對文字的原始特征及各種眉批、夾注、點評予以保留;
02、體現了“會通”的理念
對不同類型的古籍數字資源及各種輔助人文學科研究功能的集成;
03、秉承了“辨章學術,考鏡源流”的思想
而通過語義分析和關聯,實現文本的自動聚類,甚至利用知識挖掘的方法,揭示古籍文本中隱含的豐富知識和不同的學科主題內容,理清各家思想,探究學術源流。
無論是古代的文獻生產與整理活動,還是當代信息環境下的古籍數字化實踐,從本質上講都是知識生產與傳播的中間環節。知識生產的主體根據自身的社會實踐經歷,將個人經驗予以提煉和升華,輸出知識成果。但經過一段時間的傳播后,由于傳播過程中的不可避免的信息失真,后人必須對前人的知識成果進行整理,發掘和吸納其可利用的成分,從而產生新的認知和研究主題。如此循環往復,構成了以知識為核心的學術傳承過程。
4.2用戶需求驅動下的知識服務
回顧古籍數字化研究的發端到全面開展的過程,再結合近10年來的研究現狀,筆者發現,服務于工作實踐、解決實際問題、滿足用戶在學術研究中的知識信息需求一直是古籍數字化的核心議題。從古籍收藏的主要機構——圖書館來看,其服務方式經歷了從文獻、信息到知識的轉變,而古籍數字化的發展也同樣經歷了古籍文本的數字化保存、文本信息的組織加工、文本內知識的挖掘和再組織的過程,這個不斷遞進的過程也是用戶需求不斷發展的結果。
為了驗證用戶需求對面向知識服務的古籍數字化的驅動作用,本課題組成員徐丹[45]將古籍數字化產品功能分為“基本信息瀏覽”“內容檢索與篩選”“閱讀顯示”“輔助工具”“個性化設置”和“知識增值利用”6個功能模塊及具體的33個功能點,利用線下訪談、線上問卷的方式,對人文社會科學研究者對古籍數字化產品功能的需求,以及23所大型公共圖書館和高校圖書館使用的古籍數字化產品功能進行了調查,然后引入日本狩野紀昭教授的KANO模型,對各個模塊的功能與用戶滿意度之間的關系進行評測。結果表明,“基本信息瀏覽”“內容檢索與篩選”和“閱讀顯示”這3個功能模塊屬于基本需求和期望型需求,而“知識增值利用”屬于魅力型需求?!爸R增值利用”功能包括聯機字典、紀年換算、詞/字頻統計、社會網絡分析、文本聚類、知識關聯、內容可視化、地理空間展示等具體功能。古籍數字化產品如果能提供這些功能,將會大大提升用戶的滿意度。
目前,古籍數字化產品在“基本信息瀏覽”“內容檢索與篩選”和“閱讀顯示”功能方面已經基本實現,隨著技術的發展、研究的深入,“知識增值利用”這一部分功能逐漸從用戶的魅力型需求轉向期望型需求或者基本型需求。因此,對古籍文本轉換后的數據進行深度知識挖掘、加工和可視化展示,為用戶提供知識服務,將是古籍數字化研究的重點內容。
4.3信息技術發展驅動下的知識服務
信息技術作為一種工具,在科學認知、科學研究中發揮著重要的功能。它不僅能帶來研究效率的提高,還能拓寬研究思路,尤其是數字技術與傳統學術研究相結合,甚至帶來研究方法的變革,數字人文就是最好的例子。古籍數字化既是關于古籍整理的研究,也是關于信息技術應用的研究。只有把握好信息技術的發展導向,才能認清古籍數字化研究的未來趨勢。
從信息技術的發展歷程來看,古籍數字化經歷了古籍文本的數字化轉換、古籍內容的組織加工、古籍知識的發掘和可視化呈現3個階段。
第一階段所用的技術方法包括文字錄入、影像掃描、OCR識別等,其中也涉及漢字的簡繁轉換、俗體字和異體字的識別、字符集標準等技術問題;
第二階段所用的技術方法包括運用計算機進行分類標引、書目編制、關鍵詞索引,以及自動標點、???、注釋、翻譯、編纂等,主要滿足用戶對特定主題或學科領域內的古籍原文內容及語義闡釋的需求。
現階段,隨著信息技術的進一步發展,古籍數字化越來越重視古籍知識的發掘和可視化呈現,這種以海量的古籍文本數據為對象的知識加工服務,打破了學科與學科、書與書之間的界限,技術上主要采用文本聚類、數據挖掘、本體構建、社會網絡分析、地理信息系統、知識圖譜等方法。
從目前情況來看,面向知識服務的信息技術主要應用于中醫藥、農業類的古籍數字化,如《胸痹心痛古代文獻用藥規律及聚類分析》[46]《基于古籍文獻挖掘的頭痛中醫病性證素特征研究》[47]《基于中醫古籍數據挖掘的不育癥病名源流考辨》[48]《基于數據挖掘技術分析古籍中風病腧穴處方規律》[49]《基于本體的脾臟象理論知識體系構建研究》[50]《基于中醫骨傷古籍本體的語義檢索研究》[51]《農業古籍本體構建及應用》[52]《農業古籍本體的構建及其檢索機制研究》[53]等。
另外,在方志、地理、史書類古籍方面,也有不少成果,如《方志類古籍中物產名與別名關系的可視化——基于社會網絡分析技術視角》[54]《基于GIS的中國古籍地理信息系統研究》[55]《大規模古籍文本在中國史定量研究中的應用探索》[56]等。其他領域面向知識服務的古籍數字化研究還有很大的空間。
5、結語
古籍數字化學術研究是古籍數字化實踐活動的先導。通過對近10年來發表的與古籍數字化相關的學術論文及國家社會科學基金項目的研究領域、主題分布的統計分析,結合對現有古籍數字化產品功能的考察和親身體驗,筆者歸納總結了近10年來古籍數字化研究的總體特征和存在的問題,并從學術傳統的傳承、用戶需求的滿足、技術發展的推動3個方面,指明面向用戶的知識服務是未來古籍數字化研究的趨勢。古籍數字化在做好古籍文化遺產保護、數字資源建設工作的同時,應根據人文社會科學研究的特點,面向專業研究者的知識需求,開發出更多輔助人文社會科學研究的知識產品。
參考文獻:
[1]劉偉紅.中文古籍數字化的現狀與意義[J].圖書與情報,2009(4):134-137.
[2]朱鎖玲,包平.我國古籍數字化進展與研究述評[J].圖書館理論與實踐,2009(9):18-21.
[3]高娟,劉家真.中國大陸地區古籍數字化問題及對策[J].中國圖書館學報,2013(4):110-119.
[4]邵正坤.古籍數字化的困局及應對策略[J].圖書館學研究,2014(12):32-34.
[5]劉家真,程萬高.古籍保護與開發的策略與建議[J].中國圖書館學報,2009(3):15-20.
[6]丁侃,柳長華.古籍數字化的保真問題[J].中醫文獻雜志,2009(2):31-33.
[7]趙東.數字化生存下的歷史文化資源保護與開發研究——以陜西為中心[D].濟南:山東大學,2014.
[8]陳誠.數字人文時代圖書館古籍文獻資源的數字化長期保存機制探討[J].中國中醫藥圖書情報雜志,2019(3):6-9.
[9]毛建軍.古籍書目數據庫的標準與評價研究[J].圖書館理論與實踐,2009(6):30-33.
[10]周琳潔.我國古籍書目數據庫建設標準規范探討[J].圖書館建設,2010(2):47-50.
[11]趙葆英,蘇沫.古籍數字資源庫發展趨勢探討[J].圖書館工作與研究,2011(2):36-39.
[12]梁愛民,陳荔京.古籍數字化與共建共享[J].國家圖書館學刊,2012(5):108-112.
[13]薩雷.圖書館古籍數字資源整合研究[J].圖書館,2014(4):116-119.
[14]陳士兵.古籍資源聚合研究[D].太原:山西大學,2018.
[15]黃飛龍,札義蘭.基于Unicode的中國蒙古文古籍版本數據庫的構建[J].內蒙古民族大學學報,2009(3):160-161.
[16]葛懷東.論古籍版本數據庫建設[J].情報探索,2012(7):75-77.
[17]安歡等.中醫古籍知識庫的發展現狀及古籍養生知識庫的構建[J].西部中醫藥,2016(6):158-159.
[18]李兵.中醫古籍數字化整理方案研究[D].北京:中國中醫科學院,2009.
[19]柯洲.數字化家譜的研究與實現[D].武漢:華中師范大學,2011.
[20]胡以濤,宋葉.抄寫本方志古籍數字化整理與實踐[J].圖書館理論與實踐,2014(8):101-103.
[21]袁玉紅.國家圖書館石刻拓片的數字化[J].圖書館理論與實踐,2014(5):17-18.
[22]王康,康健. 蒙古文資源數字化共建共享保障體系研究[J].圖書情報工作,2015(12):39-43.
[23]曹霞,常存庫,裴麗. 中醫古籍數字化建設及其平臺設計和實現[J].中華醫學圖書情報雜志,2016(3):45-47.
[24]李玉安.對現階段古籍數字化的思考[C]//第二屆中國古籍數字化國際學術研討會論文集.北京:五洲傳播出版社,2011.
[25]陳得媛.古籍數字化工作統籌協調機制的構建[J].中國圖書館學報,2009(5):47-51.
[26]郜麗紅.試論古籍數字化的國家宏觀政策體系[J].中州大學學報,2010(4):39-41.
[27]李明杰,俞優優.中文古籍數字化的主體構成及協作機制初探[J].圖書與情報,2010(1):34-44.
[28]朱鎖玲.命名實體識別在方志內容挖掘中的應用研究[D].南京:南京農業大學,2011.
[29]范佳.“數字人文”內涵與古籍數字化的深度開發[J].圖書館學研究,2013(3):29-32.
[30]陳剛.“數字人文”與歷史地理信息化研究[J].南京社會科學,2014(3):136-142.
[31]王大學,陳熙,楊光輝.基于GIS的中國古籍地理信息系統研究[J].復旦學報(自科版),2016(6):684-688.
[32]歐陽劍.面向數字人文研究的大規模古籍文本可視化分析與挖掘[J].中國圖書館學報,2016(2):66-80.
[33]趙思淵. 地方歷史文獻的數字化、數據化與文本挖掘:以中國地方歷史文獻數據庫為例[J].清史研究,2016(4):26-35.
[34]馬創新,陳小荷.基于本體和XML的注疏文獻的結構化知識表示[J].圖書館雜志,2017(8):62-68.
[35]夏翠娟.中國歷史地理關聯數據在圖書館數字人文項目中的開放應用研究[J].中國圖書館學報,2017(2):40-53.
[36]孫海舒,符永馳,張華敏,等.基于本體論構建中醫古籍知識庫的探索[J].醫學信息學雜志,2011(3):64-68.
[37]丁侃.基于知識元的中醫古籍方劑知識表示研究[D].北京:中國中醫科學院,2012.
[38]許雯.基于溫病古籍知識概念語義網絡構建研究[D].北京:中國中醫科學院,2015.
[39]丁侃,張麗君. 基于本體的中醫學術傳承脈絡構建[J].中醫文獻雜志,2018(5):32-35.
[40]全國哲學社會科學工作辦公室.國家社科基金項目數據庫[DB/OL].[2019-04-19].
http://fz.people.com.cn/skygb/sk/.
[41]毛建軍.論古籍電子文獻學研究范疇的確立[J].圖書館理論與實踐,2010(9):46-48,88.
[42]葛懷東.古籍數字化的學科建設[J].科技教育創新,2012(1):156-157.
[43]風笑天.論社會研究中的文獻回顧[J].華中師范大學學報(人文社會科學版),2010(4):40-46.
[44]張兆曙,高遠欣.知識生產與文獻回顧——從技術指引到意義指引[J].天津社會科學,2019(1):48-53.
[45]徐丹.基于KANO模型的人文學科研究需求對古籍數字化產品的功能調查[D].武漢:武漢大學,2019.
[46]陸一竹,李園白,毛靜遠,等.胸痹心痛古代文獻用藥規律及聚類分析[J].天津中醫藥,2013(10):629-631.
[47]雷玉嬌.基于古籍文獻挖掘的頭痛中醫病性證素特征研究[D].鄭州:河南中醫藥大學,2018.
[48]邢益濤,張明強,王定國,等.基于中醫古籍數據挖掘的不育癥病名源流考辨[J].河南中醫,2018(4):603-605.
[49]陳楚云,李麗霞,李偉林,等.基于數據挖掘技術分析古籍中風病腧穴處方規律[J].上海針灸雜志,2017(12):1494-1499.
[50]崔家鵬,王彩霞,袁東超,等.基于本體的脾臟象理論知識體系構建研究[J].中華中醫藥學刊,2018(2):388-292.
[51]林爾正.基于中醫骨傷古籍本體的語義檢索研究[D].福州:福建中醫學院,2018.
[52]曹玲,何琳.農業古籍本體構建及應用[J].廣西師范大學學報(自科版),2007(2):1-4.
[53]何琳,曹玲.農業古籍本體的構建及其檢索機制研究[J].現代圖書情報技術,2006(12):37-53.
[54]李娜,包平.方志類古籍中物產名與別名關系的可視化——基于社會網絡分析技術視角[J].圖書館論壇,2017(12):108-114.
[55]王大學.基于GIS的中國古籍地理信息系統研究[J].復旦學報(自科版),2016(6):684-697.
[56]歐陽劍.大規模古籍文本在中國史定量研究中的應用探索[J].大學圖書館學報,2016(3):5-15.
作者介紹
李明杰,1971年生,江西豐城人,現為武漢大學信息管理學院教授、博士生導師。主要研究領域:文獻學與中國圖書文化史。主要著作有《宋代版本學研究》(齊魯書社2006年)、《中國出版史·古代卷》(湖南大學出版社2008年)、《中國古代圖書著作權研究》(社會科學文獻出版社2013年)、《簡明古籍整理教程》(武漢大學出版社2018年)、《暮雨弦歌:西德尼?D?甘博鏡頭下的民國教育(1917-1932)》(武漢大學出版社2019年),發表學術論文70余篇。
張纖柯,武漢大學信息管理學院2018級碩士研究生,現在九江學院圖書館工作
陳夢石,武漢大學信息管理學院2017級碩士研究生,現在北京某部委機關工作。
運營機構:鄂爾多斯國家級文化和科技融合示范基地管委會
Email:ordoswh123@163.com 服務電話:0477-8394929