• 助力網絡強國建設
  • 引領科研信息化發展
     首頁 >> 動態發布 >> 媒體關注

《中國科學數據》:從根源喚醒沉睡的數據

作者: 2021-01-27 15:03 來源:中國科學報
放大 縮小

  近年來,因“原始數據丟失,工作無法重復”造成的撤稿事件屢見不鮮。例如,2020年1月,2018年諾貝爾化學獎得主Frances H. Arnold撤掉了2019年5月發表于《科學》的一篇論文,原因是缺失了關鍵的原始數據,致使研究成果無法重復。

  “只發表論文不公開研究數據,可能會導致科學研究成果無法復現,不僅降低論文可信度,還可能衍生學術不端等行為。但如何讓科學家自愿分享科研數據是長期以來難解的問題。”《中國科學數據(中英文網絡版)》(以下簡稱《中國科學數據》)常務副主編、中國科學院計算機網絡信息中心(以下簡稱網絡中心)研究員黎建輝在接受《中國科學報》采訪時坦言。

  “科學家科研貢獻和學術聲望評價機制一成不變,是阻礙科學數據開放共享實踐的一個根本問題。”《中國科學數據》主編、中國科學院院士郭華東認為,“數據出版可使數據達到可引用和永久可訪問的狀態,促使數據盡快納入科研評價體系,是科研共同體的試金石、防腐劑。”

  走出“深閨” 

  隨著信息技術發展,數據存儲和傳播所面臨的容量、時間和空間藩籬已被打破,科學數據共享不僅是學術界枯苗望雨之盼,更是影響國家安全和科技進步的重要戰略。

  作為《中國科學數據》的主辦單位,多年來,網絡中心積累了豐富的數據資源,開展了一系列數據共享探索,但效果仍不理想。“一方面科學家不愿意共享數據,另一方面數據共享沒有正式的渠道和規范的標準,而造成科學家將數據‘攥’在手中的根本就是數據權屬和激勵機制問題。”黎建輝表示。

  2012年,國際數據期刊開始呈發展態勢,國內科學數據開放共享領域的研究者們也逐漸意識到,數據出版是我國數據共享發展的必由之路。

  然而,申請刊號成為當時最難的事。“我國對刊號的審批非常嚴格。數據期刊作為新事物,申請刊號更是難上加難,很多人甚至不明白數據出版究竟是什么。”黎建輝說。

  2015年,國家新聞出版廣電總局開展網絡連續型出版物規范管理試點工作。獨具網絡出版特性的《中國科學數據》抓住這一機遇,正式獲批刊號,成為我國首個專門面向多學科領域科學數據出版的在線學術期刊。

  存儲對數據發表工作至關重要。為此,網絡中心還自主研發了一套支持數據出版的工作平臺,由中國科學數據在線工作平臺和科學數據存儲庫系統ScienceDB(科學數據銀行,以下簡稱ScienceDB)共同構成。

  海軍大連艦艇學院教員鄭崇偉長期致力于海洋研究。他發現,當海洋研究人員需要數據時,通常先想到的是NOAA、NASA等機構,我國海洋數據在國際上的認可度還有待提高。“我們希望將團隊制作的海洋數據向國際同行分享,展示我國科研人員在海洋大數據研究方面的積極貢獻,提高國際話語權。”

  然而,分享之路困難重重。“在數據出版之前,國外同行通常會通過郵件等方式向我們索要數據,他們提供的數據上傳網站極難登錄,而且數據沒有編號,我們也無法告知其數據如何引用。”鄭崇偉坦言,“《中國科學數據》及其存儲平臺解決了我們的煩惱,我們的數據集有了‘身份證’,不但引用規范起來,引用率也提高了很多。”

  2015年,中國科學院空天信息創新研究院副研究員邱玉寶結束在地球觀測組織的任職,開始對此前的課題成果數據進行梳理。“一方面,希望數據有存儲之地,節省查找時間,也便于分享;另一方面,我們想緊跟國際數據公開共享的發展趨勢。”

  在了解到網絡中心開展數據出版并籌建了ScienceDB后,邱玉寶便借助這個平臺公開數據。讓他沒想到的是,數據公開后得到多個平臺轉載,《青藏高原MODIS逐日無云積雪面積數據集》(以下簡稱積雪數據集)是目前通過ScienceDB平臺下載量最多的數據集,還被科技部的多個國家級數據中心轉儲。

  “問渠哪得清如許,為有源頭活水來。為喚醒沉睡的數據,《中國科學數據》希望為科研共同體輸送源頭活水,承載數據,問路未來。”郭華東表示。

  不只是“期刊” 

  期刊名字加不加“中國”?辦英文的還是中文的?做專業領域還是多學科領域?……

  在刊號管控嚴格的背景下,如果期刊名稱加上“中國”二字,則意味著刊號批復更加困難。“必須加‘中國’,這是我們的責任和使命。我們要將中國的優質數據推出去,但并不意味著只限于中國的數據。”《中國科學數據》編輯部主任孔麗華擲地有聲地說。

  “中國需要本土的期刊,所以我們摒棄了純英文期刊的想法,創辦了中英文雙語期刊。”黎建輝說,“不僅如此,我們還希望推動多學科的數據共享,不局限于某個領域。”

  為了更好地展現“中國”力量,網絡中心自主研發了ScienceDB和中國科學數據在線工作平臺。“國外也有現成的出版平臺,但中國應該有自己的核心技術,而且國外平臺未必就完全適合國內出版特點。”黎建輝表示,“我們希望建立一個能為多種期刊服務、適用于多種不同審稿流程的平臺,而實現這種靈活性具有很大難度。”

  經過團隊兩年攻堅,數據出版平臺終于搭建成功,解決了眾多數據集的共享之困。“磨刀不誤砍柴工,好的系統可以幫助我們做很多事情,后期可以省很多力。”黎建輝說。

  從2015年完成、公開第一套數據集后,邱玉寶就開始陸續通過此平臺共享科學數據,其中積雪數據集至今已被20多家國內外單位引用,不僅在氣候變化等領域,在工程領域也得到很好的應用,還有學者基于這套數據完成了博士論文的核心章節。“作為一名科研人員和數據生產者,這是我沒有預想到的,也促使我后續發表更多數據。”

  “數據不僅要公開,還要高質量地公開,只有高質量的數據才更具傳播性和應用性。”在榮獲“ScienceDB科學數據獎”個人成就獎后,邱玉寶感慨道,“數據共享讓數據不再停留在硬盤里,而是實實在在被他人在不同領域真正應用,這是數據生命周期的完整價值鏈。”

  在鄭崇偉看來,從體量大、信息密度低的原始數據中提取有用信息,并形成數據集,是高效開展海洋建設、實現我國海洋數據彎道超車的關鍵。“《中國科學數據》一站式解決了論文發表和數據存儲的問題,我們研制的首套《‘海上絲綢之路’·海洋環境與新能源數據集》發表后,得到國際同行的廣泛應用和高度評價。”

  在黎建輝看來,《中國科學數據》不只是一本期刊。“它是一個按照期刊模式推動數據共享的平臺,期刊只是演進的第一步,未來將借助大數據等特點,將數據跟科研活動融合得更加緊密。”

  “兩條腿”走路 

  “論文出版有悠久的歷史,形成了成熟的出版體系,而數據出版不同,作為一個新事物,必須建立一套新的數據出版流程。”黎建輝回憶道。

  為更好地盤活數據、推動數據共享、提高數據出版速度,《中國科學數據》制定了兩個審核階段,第一階段是預出版,第二階段是同行評議。

  “預出版階段屬于技術審核,提交的數據論文和數據集首先由編輯部的數據審核員和論文審核員分別審核,通過初審的會直接在網上公布,通常只需3天左右。”孔麗華說,“預出版不僅可以讓數據集得以快速公布和引用,學者還能對其開放討論,并提出問題和建議。”

  “同行評議階段屬于專家審核,通過初審的數據論文和數據集會送至既有學科背景又了解數據的審稿專家,一般45天左右就能完成審稿。”孔麗華進一步解釋。

  “數據期刊的發展要‘兩條腿’走路。從數據共享的初心角度,不能僅把它看成刊物,要做更多盤活數據的事;從辦刊角度,又要重視刊物載體,努力追求優質的數據和更好的傳播力。”她說。

  因此,編輯部會圍繞國家重大戰略和國際前沿等主題主動組稿和約稿。“對于自由來稿,我們不會只看被引率而輕易拒稿,數據好不好用最終還要用戶說了算。”孔麗華說。

  實際上,創刊初期,為了獲得好稿源,黎建輝時常帶著大家四處“化緣”。“我國有豐富的數據資源,與學術論文緊密關聯的數據集都隱藏在冰山之下,但當時大家對數據出版沒有意識,理念疏通后也就水到渠成了。”

  截至2020年12月底,《中國科學數據》已經正式出版了專題特色數據集17期,期刊出版與論文發布合計約335篇,數據總量達到762.86GB。

  “像戰友一樣” 

  隨著期刊的發展和辦刊理念的進步,投稿體驗成為期刊越來越關注的方面,這也成為期刊擴大稿源、維系作者的“軟實力”。

  數據出版流程不像論文出版那樣被作者所熟知。鄭崇偉回憶說:“第一次向《中國科學數據》投稿時,數據描述、標準格式上傳等都是第一次接觸,編輯非常細心地提供數據論文模板,并分享經驗、主動提供幫助。”

  “整個投稿過程‘如沐春風’。”鄭崇偉評價道,“這支隊伍嚴謹負責,他們就像背靠背作戰的‘戰友’一樣,不但不會加壓,還時常詢問我們的進度,主動為我們解決各種問題。對于已出版的數據集,他們積極幫我們宣傳,本身很苦的活兒一下有了‘溫度’。”

  在作者“如沐春風”的體驗之后,是編輯團隊不知疲倦的付出。“從跟蹤研究項目、策劃主題、跑專題、聯系專家、確認組稿,到收稿審核、同行評議、主編終審,再到編輯排版、最終出版,乃至出刊后宣傳推廣等,實際上,期刊編輯的工作非常繁瑣。”孔麗華說。

  但讓她欣慰的是,這支編輯隊伍雖小但“精”,“所有人都任勞任怨、用心做事,希望能為我國數據共享和數據出版貢獻自己的力量”。

  對于期刊未來發展,黎建輝表示,“一是要繼續擴大稿源,豐富稿源的學科類型;二是站位要更加高遠,圍繞國家重大戰略和國際前沿開展數據共享推動工作;三是推動數據引用的分析和統計工作,這是促進科學家共享數據的有效激勵機制。”(見習記者 田瑞穎

附件:
彩88-首页