開放科學在荷蘭(上):讓科學知識公開化和透明化

荷蘭大學聯盟(VSNU)推行之開放取用文獻計畫。(圖片來源:VSNU
信大家聽過一個名詞:科學普及(Popular Science,簡稱科普),這是由專業科學家,書寫通俗易懂的書藉文章或進行公開演講,也可能參與媒體節目,向大眾傳播科學家們殫心竭慮收集分析資料後產生的知識精華。英語世界的科普活動已有數十年的歷史,至今已出現不少投入科普活動的知名科學家。中文世界最近較知名的例子,當然是謝伯讓老師的《大腦簡史》。而你正在閱讀的本文,則要介紹比科普更進一步,將科學知識透明化與公開化的「開放科學」(Open Science)運動。
開放科學運動之興起
開放科學運動的成因在歐美學術圈之內蘊釀已久,比較為大眾所知的近因可從諾貝爾經濟學獎得主Daniel Kahneman的科普佳作《快思慢想》(Thinking, Fast and Slow)見到端倪。Kahneman在書中引用一系列社會心理學「促發效應」(Priming effect)研究,佐證自己要推銷給讀者的概念:「人類心智能運用環境中的提示,在自動與主控的認知系統間切換。」然而,就在這本書出版當年,統計學家運用剛開發出來偵測出版偏誤(publication bias)的方法,確認當前一系列「促發效應」的研究論文報告的真實效果極低,只是剛好達到統計顯著的指標而已。以常用的統計顯著水準0.05做比喻,只是在二十次失敗實驗之後,剛好出現唯一一次成功實驗的結果。這篇文章要正式定稿前,長期研究心理科學研究再現性的社會心理學家Ulrich Schimmack在個人部落格貼出專業分析文:「Reconstruction of a Train Wreck: How Priming Research Went off the Rails」,分析這一系列促發研究,如何引導社會心理學往無法獲得可靠知識的方向發展,讓這類文獻如同脫軌的火車,衝撞好不容易建立起來的知識體系。雖然《快思慢想》的開頭九章,是Kahneman建立畢生學問精華的基石,卻因為充滿瑕疵證據的第四章,讓整本《快思慢想》的科學知識價值打了折扣(註1) 。
促發效應的案例呈現科學社群內部長久不為人知的一面,但是《快思慢想》」的瑕疵更顯現這類研究案例經歷長久發展之後,對科普造成難以逆轉的傷害,甚至是大眾對專業科學家的信任。
於是,Kahneman在書籍出版隔年寫了一封給學術界的公開信。他在信中建議心理學家如何對實驗結果看起來很美妙的研究,設計可信的再現研究,檢驗真正的知識價值。Kahneman主張的研究模式現在被稱為「註冊再現研究」(Registered Replication Research),而且已有科學家身體力行,現在最知名的註冊再現研究,像是2015年轟動全球科學界的消息「270科學家合作,僅能重複36%心理學實驗結果」。有許多心理學家,更運用這種模式檢驗科普圈中常被介紹的心理學發現。

有瑕疵的科學文獻大量累積之後,將導致一系列看似進步的科學知識,朝向火車出軌般的災難發展。(圖片來源:
Ulrich Schimmack的部落格
開放科學是什麼?
這波註冊再現研究的出現,揭示開放科學的兩個核心理念 :透明(Transparency)與公開(openness)。科學專業的具體實踐是在收集資料前,要為他人能有效檢驗產生的結果,而預先註冊(pre-registered)所有研究資料。凡是有預先註冊的研究,不論是不是再現他人的研究結果,都可稱為「註冊研究」。預先註冊研究正式發表之後,就算是非專業但有能力從事科學研究的人士,都能運用透明公開的資料,重現專業科學家的發現。當前的開放科學,是基礎科學家與支持科學研究的公私機構所推動的運動,運動的目標是面向大眾。那麼,初次得知這個名稱的讀者,要如何認識這波運動的內容呢?
從事實驗心理學研究的筆者,藉著過去這一年在荷蘭訪問的機會,除了學習以註冊研究模式進行個人的研究,也從直接與間接管道瞭解了開放科學運動的現況。筆者發現,在開放科學運動的幾個面向上,都有荷蘭科學家投入的身影,荷蘭政府也正在推動科學文獻的開放取用,並制定明確的政策目標及推動策略。由於筆者本身研究領域的關係,以下說明提到的人物,都是現在活躍的荷蘭心理學者。
根據維基百科,開放科學包括六個方向的運動:開放取用(Open Access)、開放原始碼(Open Source),開放資料(Open Data)、開放的研究流程(Open Methodology)、開放的同儕審查(Open Peer Review),以及開放的教育資源(Open Educational Resource)。
此外,2016年開始的歐盟計畫「提昇歐洲開放科學訓練品質」(Facilitate Open Science Training for European Research,簡稱FOSTER)也提出開放科學運動的相關細項目標,並訂定明確的執行檢核效標。無論是維基百科或FOSTER的分類方式,都表達出一項概念:這項運動的參與者可以是個人、機構、國家、甚至跨國組織。為便於說明,本文根據維基百科的六大方向來和讀者說明什麼是開放科學運動。
1. 開放取用的研究文獻(Open Access)
閱讀及整理過去的研究成果,是所有科學活動的開始。現今的科學文獻是科學家投稿給有同儕審查制度的期刊,經過同儕審查被接受後,才由出版社發行,最後再讓圖書館訂購收藏,提供從事科學研究的人士搜尋。有長久歷史的學術出版社(例如荷蘭的Elsevier),已發展出需要使用者付費,才能檢索文獻的機制。隨著要支付的訂購費用越來越高,學術圈已有集體抗議這種付費出版模式的行動,這種模式也使科學文獻只對有訂購的機構開放,而非向所有人開放。所以開放取用運動的目標,就是達到「凡是有能力上網檢索的人士,都能自由取用科學家的研究論文」。現在實踐開放取用的具體方式有兩種途徑:一種是論文作者個人實踐的綠色途徑(Green Route),另一種是由出版社發行開放取用期刊的黃金途徑(Gold Route)。
綠色途徑是論文作者將被期刊或出版社接受的論文手稿(post-printed manuscript),放在公開的社群網站,讓任何人可經由網路搜尋取得。論文手稿是依既定的論文格式撰寫,提供出版社編輯排版的原始稿件。許多期刊允許作者將這類稿件放在公開的資料庫網站,如果想確定接受稿件的期刊是否允許自由取得,可利用SHERAP/RoMEO這個網站查詢,也可得知投稿的期刊支持開放取用的程度。任何有允許公開論文手稿的研究者,都能運用合法的資料庫平台公開手稿,像是由設在美國維吉尼亞州的開放科學中心(Center for Open Science)所經營的開放科學平台(Open Science Framework, OSF)。除此之外,還有提供科學研究者的社群網站AcademiaResearch Gate
綠色途徑仰賴研究者的個人意願,除非有機構強制推動(註2) ,讀者就算到文獻的書目資料,也只能從出版社的付費管道索取論文。至於黃金途徑的終極目標,就是要出版社提供百分之百的開放取用論文,而荷蘭的教育部與大學聯盟(VSNU)已訂出2024年要讓荷蘭境內公民皆可自由取用所有科學文獻的目標。他們從2014年開始和Elsevier等主要學術出版社談判,已有初步成果。VSNU將階段性成果整理成懶人包,提供世界各國參考。我摘出其中談判的四個要點:(1)由最需要收藏文獻的機構首長擔任主要談判人員,例如大學校長;(2)談判人員有所屬機構的充分授權;(3)堅守底線,例如不妥協於Elsevier所要求的收取額外40%出版費用;(4)政策支持,也就是荷蘭教育部已宣佈的目標。2016年底正好發生台灣與其它國家的科研機構向Elsevier要求談判的行動,荷蘭邁向黃金途徑的經驗值得學習。

Open Science Framework登入頁面。(圖片來源:
網站
2. 開源軟體(Open Source Software)
收集資料是科學研究的重要步驟。要收集有意義的資料,運用設計良好的程序是重要環節。專業科學家的養成過程中,有一部分是熟練操作收集資料程序的軟體,這類軟體通常能編輯符合研究目的程序腳本。開放科學強調科學研究程序的可重製性,開源軟體(註3)以開放原始碼的方式,讓使用者自由使用與修改軟體內容,達成可重製研究的要求  。這段時間我個人收集資料所使用的軟體,都是荷蘭心理學研究者開發的開源軟體,除了為各位介紹這些軟體之外,也在此分享我的個人使用心得。
QRTEngine
我的研究有一部分需要透過網路問卷平台Qualtrics進行實驗,由於需要紀錄填答者的按鍵反應,並且根據註冊研究要求,在正式收集資料前要備份程序腳本。雖然我的合作夥伴以前曾經編寫程序一樣的Qualtrics平台腳本,但是這個版本需要許多道人工操作程序,才能置入新的刺激項目,不利未來的重製研究。準備過程中,我找到了萊頓大學(Leiden University)Henk van Steenbergen領導的團隊開發的QRTEngine,發現符合我的研究需求,因而花了一些時間學習運用這套函式庫編輯程序腳本。
Qualtrics是一套互動式網頁平台,能讓問卷設計者編輯各種網路問卷,也讓設計者可自行撰寫javascript,在問卷網頁呈現自己想要的互動方式。然而,心理學實驗需要的互動方式與問卷項目隨機程序相當複雜,QRTEngine開發團隊將這些要求化為一系列簡單的javascript函式。就算不完全了解javascript的寫作邏輯,甚至不會寫程式,只要依腳本設置對應的函式,使用者就能打造出研究所需要的網路問卷 。收集好的資料可透過團隊提供的程式,轉換成任何資料分析軟體都能處理的格式。
然而遺憾的是,當我完成研究的時候,QRTEngine也停止更新。因為Qualtrics主要用於市場商業調查,2016年系統更新後,為了讓問卷設計能相容於各式上網載具,大幅減低使用者自行編輯javascript的彈性,2017年之後可能無法再使用同一套腳本進行相同的研究。幸好,我常用的另一套開源軟體OpenSesame,在此時有了新的進展。
OpenSesame
OpenSesame是由目前任教於格羅寧根大學(University of Groningen)的Sebastiaan Mathôt,在就讀博士班時期與同事一起開發出來的。OpenSesame的核心程式碼是以python撰寫,所以熟悉python的人能自行改變或增加OpenSesame的功能。開發團隊設計一套簡單易上手的使用者介面,即便是不懂python的使用者,在自行操作幾種範例之後,也能掌握編輯實驗腳本的基本方法。第三版開始的OpenSesame提供連結OSF專案庫的功能,研究者可直接在使用者介面將編輯好的腳本與收集完成的資料,備份到OSF專案庫。如果研究者的OSF專案庫是公開的,有意再製研究的人士,可直接在自己的OpenSesame使用者介面下載腳本,在不同地點直接再現實驗程序。
2016年7月,OpenSesame開發團隊在github公開OpenSesame網頁版WEBOS的原始碼,讓使用者可以安裝於自己管理的伺服器,直接執行單機版OpenSesame的腳本。目前網頁版的功能還不夠完整,只能執行一些程序簡單的腳本。不過,我看好網頁版的未來發展,是取代QRTEngine的潛力工具。

OpenSesame之操作介面圖。(圖片來源:
OpenSesame
3. 開放資料(Open Data)
開放資料的概念,可從資料的保存(data reservation)與資料的取用(data access)兩方面描述。科學文獻報告的結果,都是原始資料的分析精華,保留原始資料則可回溯發現新知識的過程。保存資料的概念雖在科學研究者中人盡皆知,但非所有科學家有相同的共識。VSNU在2012年頒佈的荷蘭科學研究守則(The Netherlands Code of Conduct for Scientific Practice)中,對於有關可核實性(Verifiability)的項目,明訂加盟的大學從事科學研究的教師與學生,均有義務保留研究資料至少十年。
相關守則的依據,是VSNU規劃將近十年的治理方針(Code of Good Governance),這些守則也是近年荷蘭推動高等教育升級方案的依據。查閱這個守則的公開資訊時,我發現研究守則最新版出爐的前一年,正好爆發轟動荷蘭學術界的Diederick Stapel研究造假案。案件爆發前,Diederick Stapel是任教於VSNU的蒂爾堡大學(Tilburg University)的心理學教授,由於長期以來源不明的資料發表論文,被該校師生匿名檢舉之後,調查委員會清查從他攻讀博士時期開始發表的論文,發現有58篇已發表的論文都無法提出可供核實的資料。由於Diederik Stapel從博士班到服務過的三所大學皆是VSNU的會員(阿姆斯特丹大學、格羅寧根大學、蒂爾堡大學),這件案例的教訓,應是促成VSNU將研究人員的責任具體載明於科學研究守則的重要因素。
在最理想的落實狀態下,開放資料的取用,是讓論文讀者能直接取得原始資料,核實獲得論文數據與圖表的過程 。如果能達到這樣的境界,類似Diederik Stapel的案例就不可能發生。到目前為止,至少VSNU師生最近四年發表的論文,讀者都能獲得完整保存的資料,但是其它機構的研究者資料可就不一定了。蒂爾堡大學的博士生Chris Hartgerink為此提出一套折衷方案,將心理學期刊內論文的統計數據轉換成格式化資料,包裝為R套件,讓這些 期刊文獻的讀者可以自行做初步的檢核。
這套方案源起Chris Hartgerink與同校博士生Michèle Nuijten合作開發的R套件statcheck。statcheck的功能是掃瞄及擷取論文中的統計數據,再檢驗統計數據是否符合報告所提計算統計數據的必要參數。現在原作者Michele Nuijten還推出網站版statcheck,使用者可以直接上傳論文pdf或網頁網址,從網站獲得檢查結果。而statcheck也被改造為自動化程式機器人,在知名的期刊論文核實網站pubpeer,張貼最新一期的心理學期刊論文數據核實簡報。有逛pubpeer的讀者會發現在該網站上有關心理學期刊的貼文大多數都是statcheck的作品。《自然》(Nature)期刊曾在2016年11月底以statcheck為例發表一篇評論,倡議pubpeer的核實應更具建設性。數據核實是評價科學論文真正價值的第一步,如何發掘某篇論文的錯誤或待澄清的地方,有賴讀者親自動手。我認為這是開放科學運動真正的目標,刺激那些在論文發現問題的研究者,做出更有意義的研究。

想知道你在讀的論文統計數據有沒有錯誤?先讓statcheck幫忙檢查一下。(圖片來源:
網站

下篇,我將繼續說明開放科學餘下的三個實踐方向。

繼續閱讀開放科學在荷蘭(下):從開放研究流程到開放教育資源

註1:Kahneman本人於2017/2/14親自在Schimmack的該則部落格貼文回應,肯定Schimmack等人的指教,也正面看待促發效應研究會得到正面證據的支持。
註2:荷蘭格羅寧根大學於2017年元旦起,要求校內師生發表論文者,必須公開出版前論文手稿,詳細訊息請見此處
註3:想進一步認識開源軟體的讀者,可參考維基百科條目「開源軟體」。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *