前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數據分析方向范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞: 數據挖掘;數據倉庫;相關分析
中圖分類號:TP 311.3 文獻標志碼:A 文章編號:1672-8513(2011)03-0182-03
The Application of Correlation Analysis Algorithms in the Data Invites Chien
ZHANG Hanyun,DUAN Peng
(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)
Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.
Key words: data mining;data warehouse; correlation analysis
相關分析法是在分析某個問題或指標時,將與該問題或指標相關的其他問題或指標進行對比,分析其相互關系或相關程度的一種分析方法,用少數幾對綜合變量來反映2組變量間的線性相關性質.目前它已經在眾多領域的相關分析和預測分析中得到廣泛應用.本文主要研究如何利用相關分析技術產生計算機專業課之間的相關系數,發現專業課程之間的相關度,對數據倉庫中的數據進行約簡[1].
1 相關分析
1.1 相關分析概述[2]
相關分析(Correlation Analysis)是研究隨機變量之間的相關關系的一種統計方法.相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系.例如,教育投資與教育發展速度的關系、教師教學水平和學生的學習效果之間的關系等[3].
相關系數值為-1(完全負相關關系)~+1(完全正相關關系)之間,相關系數為0時,表示不存在相關關系.例:
正相關:學生的學習能力與學習成績的關系;
負相關:教師的身體狀況與缺勤率的關系;
零相關:教師的身高與教學能力的關系.
Pearson相關用于雙變量正態分布的資料,其相關系數稱為積矩相關系數(Coefficient of Product-Moment Correlation).進行相關分析時,我們一般會同時對2變量繪制散點圖,以更直觀地考察2變量之間的相互變化關系[4].
用Flag Significant Correlations 進行顯著性檢驗,標出有顯著性意義的相關系數,用一個星號“*”標記在α=0.05水平上有顯著性意義的相關系數;用2個星號“**”標記在α=0.01水平上有顯著性意義的相關系數[5].
1.2 相關分析的表示方法
進行相關分析的主要方法有圖示法和計算法.圖示法是通過繪制相關散點圖來進行相關分析,計算法則是根據不同類型的數據,選擇不同的計算方法求出相關系數來進行相關分析.
1.2.1 圖示法
圖示法的具體做法就是繪制相關散點圖.相關散點圖是觀察2個變量之間關系的一種非常直觀的方法.具體繪制的方法是:以橫軸表示2個變量中的1個變量(作為自變量),以縱軸表示另一個變量(作為因變量).將2個變量之間相對應的變量值以坐標點的形式逐一標在直角坐標系中,通過點的分布形狀和疏密程度來形象描述2個變量之間的相關關系.
相關散點圖可以通過手工繪制而得到.但如果面對的變量值比較多,手工繪制的過程既費時,又不夠精確.
1.2.2 計算法
相關系數也稱為相關量,是用來描述變量之間變化方向和密切程度的數字特征量,一般用r表示.它的數值范圍在-1到+1之間,它的正負號反映變量之間變化的方向;它的絕對值的大小反映變量之間關系的密切程度.
根據2個變量變化的密切程度,我們把相關關系分為完全相關、高度相關、中度相關、低度相關、零相關[6].
完全相關:│r│=1的相關;
高度相關或強相關:0.7≤│r│<1的相關;
中度相關:0.4≤│r│<0.7的相關;
低度相關或弱相關:│r│<0.4的相關.
1.3 Pearson相關
Pearson相關也稱積差相關,積差相關也稱積矩相關,是英國統計學家Rearson提出的一種計算直線相關的方法,因而又稱為Rearson相關[6-7].
積差相關系數是2列成對觀測值中各對觀測值的標準分數乘積之和除以觀測值對數所得之商[8].
1.3.1 Pearson相關的使用條件
1) 2個變量之間是線性關系,都是連續數據;
2) 2個變量的總體是正態分布,或接近正態的單峰分布;
3) 2個變量的觀測值是成對的,每對觀測值之間相互獨立.
1.3.2 Pearson相關的計算公式
r=∑ZXZYn=∑X-Y-nσXσY.
式中,[ZK(]n表示數據的對數;σX,σY分別表示X和Y變量的樣本標準差;[JP],分別表示X和Y變量的樣本平均數.[ZK)]
對于學生成績,其課程總體分布接近正態分布,滿足Pearson相關的使用條件.在統計軟件SPSS中,可以很方便地得出2變量之間的Pearson相關系數.[JP]
2 用相關分析法進行數據約簡
2.1 學生成績數據倉庫的建立
數據選擇上,主要選擇了作者所在學校計算機專業3年來產生的專業基礎課成績,收集并整理了包含高等數學、C語言、數據結構和數據庫系統原理的504條學生成績數據.并將具體的成績數據離散化為4個等級[9],即:
成績>=80“A”; 70=
2.2 用相關分析法進行數據約簡
對大規模數據庫內容進行復雜的數據分析通常需要耗費大量的時間,這就常常使得這樣分析變得不現實和不可行,尤其是需要交互式數據挖掘時.數據約簡技術正是用于幫助從原有龐大數據集中獲得一個精簡的數據集合,并使這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘,顯然效率更高,并且挖掘出來的結果與使用原有數據集所獲得結果基本相同[10].
數據約簡并不是一個新的領域,現在已經提出了很多理論和方法,如:層次分析法,主成分分析法,隨機抽樣、免疫算法等.本研究根據實際需要,提出將相關分析方法應用于學生成績的屬性約簡,即方便快捷又不失理論性.
在SPSS軟件中,畫出計算機專業課高等數學成績的直方圖,如圖1.
用同樣的方法,可以畫出其他計算機專業課如C語言、數據結構等的直方圖,可以看出,我們所建立的數據倉庫中,學生計算機專業課程成績基本上符合正態分布,滿足Pearson相關的使用條件.
我們用雙變量相關分析技術來分析相關課程之間的關聯程度,并做出統計學推斷,以最少的數據量反映最大的信息量,進而對數據庫的屬性進行約簡.通過相關分析約簡相關性較弱的屬性,選擇相關性強的屬性而不直接利用數據庫中的所有屬性,從而減少大量冗余屬性,以提高算法的效率.
在SPSS中進行課程間Pearson相關系數分析,得到計算機專業課程相關系數分析表如表1.
1:表中數值為4門課程進行相關分析得到的皮爾遜相關系數(Pearson Correlation)、相伴概率(Sig.(2-tailed))、樣本個數(N).“*”標記在α=0.05水平上有顯著性意義的相關系數;用兩個星號“**”標記在α=0.01水平上有顯著性意義的相關系數;
2:相伴概率用來判斷求解線性關系的兩變量之間是否有明顯的線性關系.一般將這個Sig值與0.05相比較,如果它大于0.05,說明平均值在大于5%的幾率上是相等的,而在小于95%的幾率上不相等;如果它小于0.05,說明平均值在小于5%的幾率上是相等的,而在大于95%的幾率上不相等;如C語言與數據結構的Sig是0,此數值說明C語言與數據結構有顯著的線性關系(因為Sig0.05,則說明兩變量之間沒有明顯的線性關系).
由表1可以看出,同一門課程之間的Pearson相關系數為1,是完全相關關系.高等數學與C語言之間的Pearson相關系數為0.283,C語言與數據結構之間的Pearson相關系數為0.281,數據結構與數據庫系統原理之間的Pearson相關系數為0.565,并且都有“*”標記,由此可以推斷這4組課程之間有顯著性意義的相關性.
3 結語
用相關分析技術對數據庫進行約簡,結果表明:線性代數、計算機導論及Pascal語言等多個因素相關性較弱;而C語言、數據結構、高等數學及數據庫系統原理之間相關性較強,根據數據庫約簡原則,可將線性代數、計算機導論及Pascal語言等多個屬性項從數據庫中刪除,以便提高數據挖掘效率.
參考文獻:
[1]段西凌,甘開鵬.數據挖掘在人口普查信息系統中的應用[J].云南民族大學學報:自然科學版,2006,15(2):170-172.
[2]茆詩松.統計手冊[M].北京:科學出版社,2003.
[3]TANG Zhaohui,MACLENNAN J.數據挖掘原理與應用[M]. 鄺祝芳,焦賢龍,高升,譯.北京:清華大學出版社,2007.
[4]王艷.數據挖掘中關聯規則的探討[J].成都信息工程學院學報,2004,19(2):173.
[5]張儒良,王翰虎.論數據挖掘優化教學管理[J].貴州民族學院學報,2004:133.
[6]趙輝.數據挖掘技術在學生成績中分析中的應用[D].大連:大連海事大學,2007.
[7]王月敏.基于遺傳算法的智能組卷系統研究[J].云南民族大學學報:自然科學版,2009,18(2):173-176.
[8]劉利鋒,吳孟達. 關聯規則的快速提取算法 [J].計算機工程.2008,34(5):63-65.
[9]李萍,段富.數據挖掘中數據約簡的研究與應用[J].微計算機應用.2009,25(2):58-60.[ZK)]
[10][ZK(#]蔡勇,韓永國,劉自偉.數據挖掘技術在生源分析中的應用研究[J].計算機應用研究.2004,32(6):48-51.
收稿日期:2010-09-06.
Lin Mao
(Xuzhou College of Industrial Technology,Xuzhou 221140,China)
摘要:在虛擬現實項目制作中,由于種種原因,海量數據處理是一項艱巨而復雜的任務,本文主要論述了海量數據處理困難的原因,并提出了對海量數據進行處理的方法。
Abstract: In the virtual reality project production, due to various reasons, mass data processing is a difficult and complex task. This paper discusses the reasons for massive data processing difficulties, and provides methods for massive data processing.
關鍵詞:虛擬現實 海量數據
Key words: virtual reality;massive data
中圖分類號:TP39 文獻標識碼:A文章編號:1006-4311(2011)19-0158-02
0引言
虛擬現實項目制作過程中,由于虛擬現實包含的內容豐富,需要載入的數據量有時會非常巨大,需要進行處理和查詢的內容很多,然后還要以文字和圖像的形式進行表示出來,所以經常會遇到海量數據處理的瓶頸,造成這種情況的原因是:
①數據量過大,數據中什么情況都可能存在。如果說有10條數據,那么大不了每條去逐一檢查,人為處理,如果有上百條數據,也可以考慮,如果數據上到千萬級別,甚至過億,那不是手工能解決的了,必須通過工具或者程序進行處理,尤其海量的數據中,什么情況都可能存在,例如,數據中某處格式出了問題,尤其在程序處理時,前面還能正常處理,突然到了某個地方問題出現了,程序終止了。
②軟硬件要求高,系統資源占用率高。對海量的數據進行處理,除了好的方法,最重要的就是合理使用工具,合理分配系統資源。一般情況,如果處理的數據過TB級,小型機是要考慮的,普通的機子如果有好的方法可以考慮,不過也必須加大CPU和內存,就象面對著千軍萬馬,光有勇氣沒有一兵一卒是很難取勝的。
③要求很高的處理方法和技巧。這也是本文的寫作目的所在,好的處理方法是一位工程師長期工作經驗的積累,也是個人的經驗的總結。沒有通用的處理方法,但有通用的原理和規則。
在多個虛擬現實項目的基礎上,尤其是通過與行內多名專家進行項目經驗交流,以下的方法都可以對海量數據在虛擬現實項目中的處理進行改善。
1選用優秀的數據庫工具
現在的數據庫工具廠家比較多,對海量數據的處理對所使用的數據庫工具要求比較高,一般使用Oracle或者DB2,微軟公司最近的SQL Server 2005性能也不錯。另外在BI領域:數據庫,數據倉庫,多維數據庫,數據挖掘等相關工具也要進行選擇,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。筆者在實際數據分析項目中,對每天6000萬條的日志數據進行處理,使用SQL Server 2000需要花費6小時,而使用SQL Server 2005則只需要花費3小時。
2編寫優良的程序代碼
處理數據離不開優秀的程序代碼,尤其在進行復雜數據處理時,必須使用程序。好的程序代碼對數據的處理至關重要,這不僅僅是數據處理準確度的問題,更是數據處理效率的問題。良好的程序代碼應該包含好的算法,包含好的處理流程,包含好的效率,包含好的異常處理機制等。
3對海量數據進行分區操作
對海量數據進行分區操作十分必要,例如針對按年份存取的數據,我們可以按年進行分區,不同的數據庫有不同的分區方式,不過處理機制大體相同。例如SQL Server的數據庫分區是將不同的數據存于不同的文件組下,而不同的文件組存于不同的磁盤分區下,這樣將數據分散開,減小磁盤I/O,減小了系統負荷,而且還可以將日志,索引等放于不同的分區下。
4建立廣泛的索引
對海量的數據處理,對大表建立索引是必行的,建立索引要考慮到具體情況,例如針對大表的分組、排序等字段,都要建立相應索引,一般還可以建立復合索引,對經常插入的表則建立索引時要小心,筆者在處理數據時,曾經在一個ETL流程中,當插入表時,首先刪除索引,然后插入完畢,建立索引,并實施聚合操作,聚合完成后,再次插入前還是刪除索引,所以索引要用到好的時機,索引的填充因子和聚集、非聚集索引都要考慮。
5建立緩存機制
當數據量增加時,一般的處理工具都要考慮到緩存問題。緩存大小設置的好差也關系到數據處理的成敗,例如,筆者在處理2億條數據聚合操作時,緩存設置為100000條/Buffer,這對于這個級別的數據量是可行的。
6加大虛擬內存
如果系統資源有限,內存提示不足,則可以靠增加虛擬內存來解決。筆者在實際項目中曾經遇到針對18億條的數據進行處理,內存為1GB,1個P4 2.4G的CPU,對這么大的數據量進行聚合操作是有問題的,提示內存不足,那么采用了加大虛擬內存的方法來解決,在6塊磁盤分區上分別建立了6個4096M的磁盤分區,用于虛擬內存,這樣虛擬的內存則增加為4096*6+1024=25600M,解決了數據處理中的內存不足問題。
7分批處理
海量數據處理難因為數據量大,那么解決海量數據處理難的問題其中一個技巧是減少數據量。可以對海量數據分批處理,然后處理后的數據再進行合并操作,這樣逐個擊破,有利于小數據量的處理,不至于面對大數據量帶來的問題,不過這種方法也要因時因勢進行,如果不允許拆分數據,還需要另想辦法。不過一般的數據按天、按月、按年等存儲的,都可以采用先分后合的方法,對數據進行分開處理。
8使用臨時表和中間表
數據量增加時,處理中要考慮提前匯總。這樣做的目的是化整為零,大表變小表,分塊處理完成后,再利用一定的規則進行合并,處理過程中的臨時表的使用和中間結果的保存都非常重要,如果對于超海量的數據,大表處理不了,只能拆分為多個小表。如果處理過程中需要多步匯總操作,可按匯總步驟一步步來,不要一條語句完成,一口氣吃掉一個胖子。
9優化查詢SQL語句
在對海量數據進行查詢處理過程中,查詢的SQL語句的性能對查詢效率的影響是非常大的,編寫高效優良的SQL腳本和存儲過程是數據庫工作人員的職責,也是檢驗數據庫工作人員水平的一個標準,在對SQL語句的編寫過程中,例如減少關聯,少用或不用游標,設計好高效的數據庫表結構等都十分必要。筆者在工作中試著對1億行的數據使用游標,運行3個小時沒有出結果,這是一定要改用程序處理了。
10使用文本格式進行處理
對一般的數據處理可以使用數據庫,如果對復雜的數據處理,必須借助程序,那么在程序操作數據庫和程序操作文本之間選擇,是一定要選擇程序操作文本的,原因為:程序操作文本速度快;對文本進行處理不容易出錯;文本的存儲不受限制等。例如一般的海量的網絡日志都是文本格式或者csv格式(文本格式),對它進行處理牽扯到數據清洗,是要利用程序進行處理的,而不建議導入數據庫再做清洗。
11定制強大的清洗規則和出錯處理機制
海量數據中存在著不一致性,極有可能出現某處的瑕疵。例如,同樣的數據中的時間字段,有的可能為非標準的時間,出現的原因可能為應用程序的錯誤,系統的錯誤等,這是在進行數據處理時,必須制定強大的數據清洗規則和出錯處理機制。
12建立視圖或者物化視圖
視圖中的數據來源于基表,對海量數據的處理,可以將數據按一定的規則分散到各個基表中,查詢或處理過程中可以基于視圖進行,這樣分散了磁盤I/O,正如10根繩子吊著一根柱子和一根吊著一根柱子的區別。
13避免使用32位機子
目前的計算機很多都是32位的,那么編寫的程序對內存的需要便受限制,而很多的海量數據處理是必須大量消耗內存的,這便要求更好性能的機子,其中對位數的限制也十分重要。
14考慮操作系統問題
海量數據處理過程中,除了對數據庫,處理程序等要求比較高以外,對操作系統的要求也放到了重要的位置,一般是必須使用服務器的,而且對系統的安全性和穩定性等要求也比較高。尤其對操作系統自身的緩存機制,臨時空間的處理等問題都需要綜合考慮。
15使用數據倉庫和多維數據庫存儲
數據量加大是一定要考慮OLAP的,傳統的報表可能5、6個小時出來結果,而基于Cube的查詢可能只需要幾分鐘,因此處理海量數據的利器是OLAP多維分析,即建立數據倉庫,建立多維數據集,基于多維數據集進行報表展現和數據挖掘等。
16使用采樣數據,進行數據挖掘
基于海量數據的數據挖掘正在逐步興起,面對著超海量的數據,一般的挖掘軟件或算法往往采用數據抽樣的方式進行處理,這樣的誤差不會很高,大大提高了處理效率和處理的成功率。一般采樣時要注意數據的完整性和,防止過大的偏差。筆者曾經對1億2千萬行的表數據進行采樣,抽取出400萬行,經測試軟件測試處理的誤差為千分之五,客戶可以接受。
還有一些方法,需要在不同的情況和場合下運用,例如使用鍵等操作,這樣的好處是加快了聚合時間,因為對數值型的聚合比對字符型的聚合快得多。類似的情況需要針對不同的需求進行處理。
海量數據是發展趨勢,對數據分析和挖掘也越來越重要,從海量數據中提取有用信息重要而緊迫,這便要求處理要準確,精度要高,而且處理時間要短,得到有價值信息要快,所以,對海量數據的研究很有前途,也很值得進行廣泛深入的研究。
參考文獻:
[1]何來坤,徐淵.虛擬現實建模語言VRML及其應用[J].杭州師范學院學報,2005,(2).
【關鍵詞】民航氣象數據庫系統;Oracle;宕機;inactive;LOCAL=NO
【Abstract】Timely, accurate, standardized acquire meteorological data information of aviation is running an important basis to protect the safety of civil aviation. In this paper, we introduce a normal fault of civil aviation meteorological database system, process reach to maxProcessors led to process frequently down, so users cannot receive new message and data. We use “kill -9” command killed inactive process which have same keyword “LOCAL=NO” in Oracle database system, so we solved the error code ORA-0020 in no restart.
【Key words】Civil aviation meteorological database system; Oracle; Down; inactive; LOCAL=NO
0 引言
民航氣象數據庫系統利用數據庫技術和商用數據庫管理系統,對各類氣象資料進行有效的組織與管理,采用統一的數據模型和用戶界面,從而實現對氣象資料的有效存儲和快速檢索,并具有分布調用、高度共享和安全可靠等性能,為航空氣象服務、氣象業務與科研培訓提供有力的支持。航空氣象情報及氣象資料的及時、準確、標準化獲取是保障民航安全運行的重要基礎。本文介B了一起由數據庫進程數達到最大導致民航氣象數據庫進程頻繁宕機故障,并給出了故障問題處理方法。
1 民航數據庫系統結構簡介
民航氣象數據庫系統是具有飛行氣象情報及氣象資料的制作、交換、備供、存儲等功能的信息系統,包括通信分系統、數據庫分系統、預報平臺及服務平臺四部分[1],如圖1所示。
1.1 通信分系統
通信分系統是民航氣象數據庫系統的基礎系統,它主要實現各類氣象資料的接收、檢查、處理,并根據一定的規則向其它系統及地區中心進行資料分發,同時實現氣象中心、地區中心與航站之間的數據交換。通信分系統將獲取的各種氣象數據發送給數據庫分系統,數據庫分系統將這些數據進行分類、解析和處理后存儲在數據庫中。
1.2 數據庫分系統
數據庫分系統采根據存儲數據的用途及時間劃分為實時庫、歷史庫及臨時庫,分別滿足不同的業務與服務的要求。數據庫分系統又分為資料處理子系統和數據庫管理子系統。
(1)資料處理子系統對服務器data目錄下接收到的氣象信息進行分析分解,質量控制后入庫;
(2)數據庫管理子系統采用C/S模式,對資料處理、數據庫等進行實時監控與管理,預報平臺與服務平臺則通過獲取Oracle數據庫中的氣象資料,以不同的形式展現給用戶。數據庫管理子系統主要側重于對數據庫中氣象資料的管理。提供的主要功能有:系統登錄、資料處理、數據庫管理、數據庫恢復、日志和統計、告警、用戶管理、進程管理、系統配置、窗口、幫助等。
1.3 預報平臺
預報平臺(民航氣象信息綜合處理系統)利用氣象實時數據庫資料,通過對數據庫中的氣象資料進行檢索、分析、處理,制作成文本、圖形等形式的氣象產品,為航空氣象預報人員提供服務。
1.4 服務平臺
氣象信息服務平臺從數據庫中提取相關產品,以WEB形式展示向航空氣象用戶提供航空氣象產品及服務。
2 故障現象
民航氣象數據庫系統數據庫子系統運行環境:硬件環境為IBM服務器;操作系統為AIX5.2;數據庫系統為oracle 10g。
數據庫運行一段時間后,資料處理子系統相關進程自動停止運行,導致621客戶端及相關協議單位無法檢索到最新資料,且重新啟動后再次停止運行或直接無法重新啟動。
3 故障分析
通過查看數據庫相應進程診斷文件方法檢查故障原因,數據庫診斷文件是獲取有關數據庫活動信息的一種方法,用于解決數據庫出現的一些問題,主要包含有關數據庫中出現的重要事件的一些信息,這些文件能更好的對數據庫進行日常的管理。
5 結束語
本文介紹了一起民航氣象數據庫常見故障,即達到進程最大連接數后導致相關用戶進程頻繁down機問題,造成用戶無法獲取最新報文和自觀數據,一般較為普遍的處理方法為采用修改系統最大進程連接數后重新啟動數據庫,但是民航氣象數據庫對系統停機重啟要求較高,重啟數據庫將導致用戶無法及時獲取數據,具有一定的安全風險。本文主要利用Oracle數據庫中遠程連接進程的共同特點,都含有關鍵字“LOCAL=NO”,然后經根據關鍵字“LOCAL=NO”篩選出inactive進程使用“kill -9”強行殺掉[4],此方法可以實現在不重啟數據庫情況下解決ORA-0020問題。
【參考文獻】
[1]太極計算機股份有限公司,民航氣象衛星傳真廣播系統用戶手冊[M].1-60.
[2]李月軍.數據庫原理與設計(Oracle版)[M].北京:清華大學出版社,2012.
〔關鍵詞〕科學數據;開放數據政策;數據共享;研究動向
DOI:10.3969/j.issn.1008-0821.2016.02.031
〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)02-0167-04
〔Abstract〕This paper systematically studied relevant research outputs and compared respective research status on open research data policy home and abroad.In order to provide references for promoting relevant research,this paper discussed the characteristics of relevant research home and abroad,pointed out the shortages of current research in China,and finally evaluated the future research trends on open research data policy in China.
〔Key words〕research data;open data policy;research status;research trend
科學數據(Scientific Data),也稱科研數據(Research Data),與科學論文一樣也被視為重要的科研產出,也是一種具有潛在經濟價值的戰略資源。開放科學數據對數據驅動科學研究起到了關鍵作用,越來越多的研究是建立在對已有科學數據重用的基礎之上的。因此,完整保存并開放獲取先前研究的科學數據,對于順利開展后續研究、推動科學進步具有重要意義。開放科學數據在國家科技創新中的戰略地位不斷提升,目前在開放規模和開放程度上均達到了前所未有的水平。通過開放科學數據改善社會生活受到眾多投資者、出版商、科學家和其他利益相關者的高度關注,歐洲、美國以及眾多國際組織與研究機構都積極建立開放科學數據的政策保障與管理機制。如美國已經形成了以“完全與開放”為基本國策的科學數據開放共享法規體系;經濟合作與發展組織(OECD)頒布了《公共資金資助的科學數據獲取原則與指南》,以指導成員國制定與完善科學數據開放共享政策;歐盟“地平線2020計劃”將科學數據新增為開放存取的對象并要求逐步達到開放性可獲取,并啟動了旨在促進科學數據獲取和再利用的“科學數據開放先導性計劃”[1]。
我國早在2002年就已正式啟動科學數據共享工程,并先后在六大領域共計24個部門開展了科學數據共享工作。2006年以來,中國科學院國家科學圖書館提出并開展了科學數據與科技文獻跨界集成服務、數據融合技術的研究和開發。目前,我國在科學數據開放政策的制定和完善方面,與美國、英國、澳大利亞、日本、韓國、臺灣等國家和地區相比仍顯滯后。本文針對國內外科學數據開放政策的研究現狀進行了比較分析,在此基礎上探討了國內外相關研究的特點以及我國現有研究的不足,并對我國科學數據開放政策的未來研究動向進行了評判。
1 國內研究現狀分析
對從CNKI和萬方數據兩大中文數據庫檢索到的相關文獻進行閱讀和梳理發現,我國針對科學數據開放政策的相關研究可以概括為以下5個方面:
1.1 建立開放科學數據政策保障機制的理論性研究
目前已有較多成果是針對建立和完善科學數據開放共享政策法規的頂層設計展開論證,如劉細文(2009)指出,美國、英國以及眾多國際組織與研究機構都就科學數據開放獲取問題,積極建立政策保障與管理機制并廣泛推行相關服務與實踐,其政策舉措主要圍繞科學數據交流渠道各環節,集中體現在數據開放資助、數據質量控制、數據合法保護、數據保存以及數據共享利用五大方面[2]。王晴(2014)指出:國內外20余個組織相繼制定或實施了30余條旨在促進科學數據開放共享的政策法規,根據制定主體和效力范圍可以分為宏觀、中觀和微觀3個層面,共同形成了一個較為完備并在不斷完善的制度體系[3]。
1.2 針對國內外各類科學數據開放共享政策的調查研究 目前已有部分成果針對多種政策主體(如高等院校、科研資助機構、信息服務機構等)的有關開放科學數據的聲明、指南以及政策法規等各類政策文本展開了調查分析,如司莉等(2013)考察了美國、英國、澳大利亞3個國家的科研管理機構、高校制定的數據管理政策以及政府制定的數據公開政策,并指出:發達國家的政府部門都制定了科學數據開放共享政策,對科學數據的保存與管理等均作了明確具體的規定。我國政府也應制定完善的科學數據開放共享政策,從政策層面對科學數據的開放共享進行指導和規范[4]。司莉等(2014)針對英美10所高校的科學數據開放共享政策,從一般政策、數據標準、數據訪問與保存、數據共享、數據安全與保護以及數據產權6個方面進行了調查與比較,揭示了英美兩國大學科學數據開放共享政策的特點與差異,指出通過借鑒國外大學科學數據開放共享政策的良好實踐,推動我國大學相關政策法規的制定和[5]。唐源等(2015)針對國外典型醫學相關機構的科學數據開放共享政策從科學數據開放資助、科學數據匯交、科學數據保存、數據共享利用4個方面的政策內容進行文獻調研和網站調研,指出國外政策制定者從政府到機構自身以及期刊等具有多重身份,政策內容集中于數據匯交和共享計劃。
1.3 科學數據開放政策利益主體的開放共享行為研究 由于開放科學數據的利益主體一般要受到相關政策法規的制約,因此也可視為科學數據開放政策的利益主體。國內的相關研究成果主要包括:①單一利益主體的開放共享行為的共享意愿及影響因素分析,如張晉朝(2013)通過問卷調查方法和結構方程模型,分析了我國高校科研人員科學數據共享意愿的影響因素,指出科學數據開放共享工作的順利開展不僅要關注技術維度,還要關注社會環境因素、內在激勵、人際信任等人文維度[7]。②針對單一利益主體的開放共享行為的演化博弈分析,如莊倩等(2015)建立了參與科學數據開放共享的科研人員之間的演化博弈模型,揭示了科學數據開放共享博弈中存在的"公共品困境"及其原因,指出為促進我國科學數據開放共享健康有序發展,不能僅從國家層面制定和完善相關的戰略規劃,還要從政策法規層面建立相應的激勵機制[8]。
1.4 制定開放科學數據相關知識產權政策法律問題的研究 雖然目前科學數據具有著作權已經成為共識,但其使用存在著作權界定不清及其利益分配不當等問題,尤其是科學數據二次研發過程中的著作權分配問題。司莉等(2015)從科學數據開放共享中的授權方式、數據出版及引用、技術措施、制度與法規、科學數據二次利用5個方面分別探討了科學數據著作權保護存在的問題及對策,指出我國應結合知識產權保護法、著作權法、專利法和中華人民共和國政府信息公開條例等已有法規條例,盡快建立完善的科學數據著作權保護體系[9]。
1.5 基于政策文本分析的科學數據開放政策實證研究 目前國內的相關研究成果非常有限,主要是通過內容分析法進行政策文本分析,如裴雷(2013)通過內容分析法構建了基于政策文本的上下位政策概念一致性的測算框架,并對我國12個領域的科學數據開放共享政策文本進行內容編碼和實證分析,探討了當前我國科學數據開放共享政策在吸收、擴散和創新過程中的政策文本質量[10]。
2 國外研究現狀分析
對從Springer、Emerald和Elsevier三大外文數據庫檢索到的相關文獻進行閱讀和梳理,可以發現國外科學數據開放政策研究所涉及的研究主題更為廣泛,可以大致概括為以下5個方面:
2.1 制定科學數據開放政策的理論探討與實踐研究
國外學者針對這一研究主題的研究成果也比較豐富,如Childs S等(2014)探討了作為實現開放科學數據的機制――科研數據管理(RDM)的作用以及它帶給記錄管理者的機遇,并指出開放科學數據議程的前提是盡可能公開可用的數據,在開放科學數據的背景下仍然存在方法、倫理、政策和實踐等層面的問題[11]。Higman R等(2015)借鑒行動者網絡理論(Actor Network Theory)并結合政策分析過程和案例研究方法,考察了在英國高等教育機構中建立科學數據管理(RDM)政策與實踐的驅動因素,以及科學數據開放共享在科學數據管理過程中的關鍵作用[12]。
2.2 科學數據開放政策利益主體的開放共享行為研究 國外學者針對科研人員的開放共享行為的共享意愿及其影響因素展開了較為系統的實證研究,如Wicherts J M等(2011)對心理學期刊中的統計結果顯著與數據共享意愿的相關性進行了實證研究,發現科研人員不愿意共享數據的主要原因在于:統計結果不構成充分的證據以及更有可能存在明顯的錯誤,并強調了建立科學數據的強制性歸檔政策的重要性[13]。Sayogo D S等(2013)指出科學數據開放共享存在多重障礙與挑戰:①技術上的障礙;②社會、組織和經濟上的障礙;③法律和政策上的障礙,并通過問卷調查得出影響科研人員開放共享意愿的幾個關鍵因素:數據管理技能、組織參與、法律與政策需求、向數據集提供者致謝[14]。
2.3 面向科學數據開放政策利益主體的開放共享服務研究 國外學者針對高校圖書館、研究型圖書館、信息服務機構的科學數據開放共享服務實踐展開了廣泛的研究,國內的相關研究主要是對國外科學數據服務實踐的案例研究及調查分析,如Nielsen H J等(2014)認為科學數據管理(RDM)是圖書館員和信息專業人員的潛在職責,研究型圖書館是選擇、保護、組織與利用科學數據的最佳場所,并應積極參與到其所在學科領域的特定領域的分析研究[15]。Tenopir C等(2014)指出數據密集型科學的出現和數據管理規范的制定,驅動高校圖書館為其教師和學生開展數據管理服務(RDS),并通過調查研究建立了圖書館員、圖書館、信息服務機構參與數據管理服務的評價基準[16]。
2.4 針對專業領域科學數據開放政策的政策分析研究 國外學者針對天文、氣象、地球、生物、醫學等自然科學以及心理學、倫理學等社會科學專業領域的科學數據開放共享政策進行了政策分析研究,如Harris R等(2015)考察了參與開放地球觀測數據的八國集團、歐盟和國際組織的21個政策文本和法律文書――八國集團(G8)開放數據、全球綜合地球觀測系統(GEOSS)數據共享原則、經濟合作與發展組織(OECD)科學數據原則與指南、歐洲環境信息指令等,指出地球觀測領域開放數據政策應更加明確、完整地說明開放獲取的條件,以期充分實現開放地球觀測數據的潛在利益[17]。
2.5 基于政策文本分析的科學數據開放政策實證研究 國外學者進行政策文本分析時除了運用常規的內容分析法以外,還創新性地引入了語義網分析、社會網絡分析等研究方法,如Jung K等(2015)對韓國《開放公共數據指令》(OPDD)的政策文本進行了語義網分析,并指出:利用語義網的概念模型及分析過程有助于確定各類公共政策針對的主要問題及解決視角的一致性[18]。
3 國內外研究現狀的比較分析
對國內外科學數據開放政策的相關研究進行對比,可以發現具有以下幾個特點:①總體來看,我國學者針對科學數據開放政策各研究主題的相關研究,目前大多處于對國外先進政策實踐的案例研究與調查分析階段。②國內外針對科學數據開放政策的相關研究目前主要以英美兩國的政策實踐為主,原因在于英美兩國已經建立起相對完善的科學數據開放政策法規體系,如經濟合作與發展組織(OECD)于2007年頒布了《公共資助科學數據開放獲取的原則和指南》,提倡所有的獲公共資金支持得到的科學數據都應能被公眾獲取、共享。美國、英國等一些重要基金機構也提出了科學數據開放政策指南,如美國國家科學基金會(NSF)、美國國立衛生研究院(NIH)、美國國家航空航天局(NASA)、英國研究理事會(RCUK)等,要求所有獲得資助的項目提交科學數據的開放共享計劃。美國科技政策辦公室(OSTP)于2013年簽署了關于“提高聯邦政府資助的科學研究結果的訪問”的備忘錄,要求由聯邦資金資助所產生的非保密的科學數據,應該存儲并為公眾提供免費的最大化訪問[19]。③國內外對于具體專業領域的科學數據開放政策的研究相對較多,但對于國家統一綜合層面的科學數據開放政策研究十分有限。
對比國內外開放數據政策研究的現狀不難看出,國內相關研究主要存在以下不足:①目前的研究成果主要是針對國外高等院校、信息服務機構和科研資助機構的科學數據開放共享政策的調查研究與比較分析,但從整體來看這類研究成果的研究內容比較分散、系統性不強;②已有研究針對參與科學數據開放的單一利益主體(如研究人員)的開放共享行為進行了演化博弈分析,尚未發現針對參與科學數據開放的多個利益主體之間的演化博弈分析的相關研究;③針對科學數據開放政策的政策文本分析目前主要采用內容分析法,尚未展開借鑒多學科理論與方法的政策文本分析方法的探索性研究;④尚未展開針對科學數據開放政策群的政策協同研究,已有學者針對政府數據的開放數據政策與數據安全政策的協同關系展開研究[20],如黃道麗等(2015)分析了美國政府的開放數據政策與網絡安全政策之間的沖突與協調[21],但尚未發現有針對科學數據展開的類似研究;⑤尚未從政策科學的研究視角展開系統性的科學數據開放政策評估研究。
4 我國未來研究動向評判
通過以上的比較分析,筆者認為,我國圖書情報及相關學科領域研究者應展開協作研究,并從以下5個方面強化和拓展這一重要的跨學科研究領域。
4.1 各類科學數據開放政策的調查與比較分析
針對主要發達國家的政府部門、高等院校與科研機構以及各類國際組織的有關開放科學數據的聲明、指南以及政策法規等各類政策文本展開廣泛的調查分析,比較和分析各類政策文本中有關一般政策、數據標準、數據共享、數據保存、數據安全和數據產權等方面內容的特點與差異,合理借鑒發達國家在政策的系統性、一致性、完善性方面的經驗,為推進我國科學數據開放政策的制定與完善提供必要的參考借鑒。
4.2 科學數據開放政策多個利益主體的博弈分析
現有的研究成果主要是針對參與科學數據開放的單一利益主體(如研究人員)的博弈分析,在后續研究中可針對參與科學數據開放的多個利益主體(研究人員、科研機構、數據中心、資助者、出版者、第三方用戶等)之間的利益訴求關系展開研究,建立參與科學數據開放的多個利益主體之間的演化博弈模型,探索促進多個利益主體開放科學數據的激勵機制,為從微觀層面制定和完善科學數據開放政策提供演化博弈的理論框架。
4.3 基于多學科方法的科學數據開放政策文本分析
值得關注的研究方向包括:①借鑒多學科理論與方法對政策文本進行內容分析,如借鑒扎根理論的“信息提取-歸納-概念化-重組”思想,對各類科學數據開放政策文本進行解構、分類和比較,提取科學數據開放政策的區分要素,確定政策文本結構化編碼體系和分類標準,將政策文本轉化為半結構化數據,建立類定量化的政策文本分析框架。②基于知識單元的政策文本分析方法的探索性研究,如借助于語義網分析和社會網絡分析方法,探索政策文本的詞匯分析單元之間的語義關聯關系,并可通過軟件工具進行網絡結構分析及可視化展示。
4.4 各類科學數據開放政策的政策協同研究
值得關注的研究方向包括:①科學數據開放政策群內部的政策協同研究。通過內容分析法對各類科學數據開放政策進行政策文本分析,從政策連續性、政策互補性、政策交叉性、政策缺失性及政策矛盾性等多個維度考察科學數據開放政策群內部的政策協同。②科學數據開放政策群與數據安全政策群的政策協同研究。借鑒協同論思想和政策協同理論及工具,設計科學數據開放政策群與《中華人民共和國保守國家秘密法》、《中華人民共和國科學技術保密規定》以及其他相關部門頒布的保密規定等數據安全政策群的政策協同機制,制定科學數據開放政策群與數據安全政策群的政策協同策略。
4.5 科學數據開放政策的政策分析與評估研究
將側重于定性分析的政策分析研究與側重于定量分析的政策評估研究相結合,針對科學數據開放政策,從政策科學的學科視角進行多角度的政策分析與評估研究,如針對科學數據開放政策完整的生命周期中的每一環節――政策提案、政策制定、政策實施、政策反饋和政策調整,綜合運用多種政策科學相關理論、方法與工具進行系統性的政策評估研究;運用層次分析法、模糊綜合評判法、數據包絡分析法和灰色關聯度法等政策評估方法,建立科學數據開放政策評估指標體系并進行指標權重分析,采用數學模型及軟件工具構建科學數據開放政策評估模型并進行模擬實驗。
5 結 論
通過CNKI和萬方數據兩大中文數據庫以及Springer、Emerald和Elsevier三大外文數據庫,筆者對國內外現有的科學數據開放政策的相關研究成果進行了比較研究,并在此基礎上探討了國內外相關研究的特點:目前國內的相關研究基本處于對國外先進政策實踐的案例研究與調查分析階段,國內外針對科學數據開放政策的相關研究目前主要以英美兩國的政策實踐為主。結合科學數據開放政策相關領域的學術研究與實踐進展,我國在這一跨學科研究領域未來可能出現五大研究動向:①各類科學數據開放政策的調查與比較分析;②科學數據開放政策多個利益主體的博弈分析;③基于多學科方法的科學數據開放政策文本分析;④各類科學數據開放政策的政策協同研究;⑤科學數據開放政策的政策分析與評估研究。從而推動我國開放科學數據的政策保障與管理機制的建立。
參考文獻
[1]韓纓.歐盟“地平線2020計劃”相關知識產權規則與開放獲取政策研究[J].知識產權,2015,(3):92-96.
[2]劉細文,熊瑞.國外科學數據開放獲取政策特點分析[J].情報理論與實踐,2009,32(9):5-9.
[3]王晴.論科學數據開放共享的運行模式、保障機制及優化策略[J].國家圖書館學刊,2014,(1):3-9.
[4]司莉,邢文明.國外科學數據管理與共享政策調查及對我國的啟示[J].情報資料工作,2013,(1):61-66.
[5]司莉,辛娟娟.英美高校科學數據管理與共享政策的調查分析[J].圖書館論壇,2014,(9):80-85,65.
[6]唐源,吳丹.國外醫學科學數據共享政策調查及對我國的啟示[J].圖書情報工作,2015,59(18):6-13.
[7]張晉朝.我國高校科研人員科學數據共享意愿研究[J].情報理論與實踐,2013,36(10):25-30.
[8]莊倩,何琳.科學數據共享中科研人員共享行為的演化博弈分析[J].情報雜志,2015,34(8):152-157.
[9]司莉,賈歡,邢文明.科學數據著作權保護問題與對策研究[J].圖書與情報,2015,(4):118-122.
[10]裴雷.我國科學數據共享政策概念一致性與政策質量評估[J].情報理論與實踐,2013,36(9):28-31.
[11]Childs S,McLeod J,Lomas E,et al.Opening research data:issues and opportunities[J].Records Management Journal,2014,24(2):142-162.
[12]Higman R,Pinfield S.Research data management and openness:The role of data sharing in developing institutional policies and practices[J].Program:Electronic library and information systems,2015,49(4):364-381.
[13]Wicherts J M,Bakker M,Molenaar D.Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results[J].PLoS ONE,2011,6(11):1-7.
[14]Sayogo D S,Pardo T A.Exploring the determinants of scientific data sharing:Understanding the motivation to publish research data[J].Government Information Quarterly,2013,30(S1):19-31.
[15]Nielsen H J,Hjrland B.Curating research data:the potential roles of libraries and information professionals[J].Journal of Documentation,2014,70(2):221-240.
[16]Tenopir C,Sandusky R J,Allard S,et al.Research data management services in academic research libraries and perceptions of librarians[J].Library & Information Science Research,2014,36:84-90.
[17]Harris R,Baumann I.Open data policies and satellite Earth observation[J].Space Policy,2015,32:44-53.
[18]Jung K,Park H W.A semantic(TRIZ)network analysis of South Koreas“Open Public Data”policy[J].Government Information Quarterly,2015,32(3):353-358.
[19]黃永文,張建勇,黃金霞,等.國外開放科學數據研究綜述[J].現代圖書情報技術,2013,(5):21-27.
根據不完全統計,2016年1D6月,全球大數據領域共計發生157起投融資事件,其中中國發生了97起,超過總量的一半,其次為美國,發生41起,其他國家在大數據領域的投融資事件數量遠遠落后于中國和美國。
2016年1D6月,中國大數據領域投融資金額規模達到503.70億元,排名第二的美國,投融資金額規模為111.38億元。其他上億元投資的國家分別為以色列5.35億元、英國4.32億元、德國2.24億元、加拿大1.06億元。
中美大數據領域投融資對比
從2016年上半年的整體投融資狀況來看,中國和美國的投融資事件占全球絕大多數的比例,中美兩國大數據業務的發展基本代表了大數據在全球的發展狀況。深入對比中美大數據領域的投資,對掌握大數據的應用方向和技術方向具有較大的意義。
從圖3可以看出,在大數據行業應用方面,中美都有涉及的行業有醫療、營銷、物流、娛樂、體育和教育。其中,醫療領域是2016年上半年行業中發生投融資事件最多的領域,中國發生18起,美國發生5起;其次為營銷領域,中國發生6起,美國發生3起。
相比美國,大數據的應用行業在中國更加廣泛和活躍,2016年上半年中國有大數據投資而美國尚未涉及的領域比較多,如媒體、交通、金融、汽車、物聯網、藝術、招聘、旅游、農業和租房等領域。其中媒體行業發生10起投融資事件,交通行業發生6起,金融行業發生6起。
在大數據技術應用方面,2016年上半年涉及的投融資方向有數據分析、數據應用、數據安全和數據工具。其中數據分析方向投融資事件最多,美國15起,中國14起;其次為數據工具方向,美國8起,中國5起;數據應用方向,中國6起,美國3起;數據安全方向,中國5起,美國3起。
從投融資的金額規模上看,2016年上半年,中國和美國的側重點各不相同,中國偏重于大數據行業領域的應用,而美國側重于大數據技術領域的應用。2016年上半年中國在大數據行業應用的投資總規模達到485.1億元,在大數據技術應用領域只有18.6億元;美國在大數據行業應用領域的總投資規模為26.9億元,在大數據技術應用領域達到84.4億元。
中國投融資規模的TOP3均為行業領域,分別為交通、物流和醫療,投融資規模分別為305.4億元、105.0億元和50.7億元。而美國投融資規模的TOP3中有兩個為技術領域,分別為數據工具44.2億元、數據分析31.3億元;有一個為行業領域――醫療16.6億元。在行業應用方面,中美投資事件最多的均為醫療領域。
中美數據分析領域投融資市場對比
可以看出,美國比較側重發展大數據的技術應用,而數據分析是大數據技術應用領域投融資最多的技術方向。2016年上半年,中國在數據分析方向的投融資事件達到14起,美國15起,高于中國。在金額方面美國更是遠遠超過中國,投融資金額高達31.3億元,而中國只有7.3億元。
2016年上半年,數據分析領域的投融資事件主要集中在分析平臺、用戶分析和商業智能方向,分別發生投融資事件12起、10起和3起,各自占比為41%、35%和10%;其他幾個方向的占比都比較小。從金額分布上看,分析平臺占比最大,達到61%,其次為用戶分析16%,可視化分析13%。