Categories
創造力

無法保存的數據,正在消失的歷史


題圖丨Pixabay題圖丨Pixabay

  歡迎關注“創事記”微信訂閱號:sinachuangshiji

  文/普通醬   編輯/好了你不要再說了

  來源:放大燈(ID:guokr233)

  “洛陽紙貴”。自2016年起,紙類產品,包括全新的紙漿與紙產品,以及廢紙的回收價格都走出了過山車一樣的折線圖。

在“紙”這個傳統知識載體上,折射出的全是新經濟作用於社會所產生的一系列後果:電商等業務催生的包裝需求、現代經濟社會對環境提出的更高要求,清退落後產能與限制廢棄紙張進口,都在無形中推升紙價。

  廢紙是可再生資源,而現代的知識與信息載體——例如硬盤——就沒有這麼好的待遇了。一方面,數據很脆弱,就在本文發布的12月26日下午,微信公眾號後台崩潰,公眾號們曾發布的信息,暫時與讀者斷開連接。

  另一方面,數據還有點貴。數據的存儲與使用都有看得見成本,有務實的公司打起了清空歷史數據的主意。

  今年10月,老牌互聯網公司雅虎曾有一則新聞,標題已經很好地總結了新聞內容,大概是這個畫風[1]:

  《雅虎宣布逐漸關閉“雅虎群組”網站,12月14日後刪除所有上傳內容》

  新聞一出就惹了眾怒。雅虎群組是雅虎公司在2001年推出的一個線上討論社區,也是世界上最大的網絡社區之一。 (其運營者雅虎公司於2017年被美國電信行業巨頭Verizon收購。)

根據NPR(美國公共廣播電台)的報導[2],一些互聯網歷史研究者對刪除數據的行為表示激烈反對,他們認為,雅虎群組保留了包括關於9·11事件在內的諸多歷史討論,是研究互聯網早期歷史的絕佳窗口。

  在NPR的討論者中,有一位致力於保存雅虎群組數據的非盈利組織的工作人員。無獨有偶,在著名論壇Reddit上,也有用戶開始為了保存雅虎群組數據開發各類工具[3]。但雅虎並不允許這樣的事情發生——雅虎宣布封禁了上百個試圖存檔雅虎群組數據的賬號,想保存數據?沒門。

Verizon封禁了試圖備份雅虎群組的賬號 | 圖:ZDNet     Verizon封禁了試圖備份雅虎群組的賬號 | 圖:ZDNet

  這個事件的最新消息是,雅虎為個人數據延長了一個多月的“保質期”,讓個人用戶可以導出數據。想從更高維度審視這些自發形成、群力搭建的網絡遺跡?不好意思,此路依然不通。

  數據遺跡,誰來保護?

  在人類的歷史上,通常是大大小小的圖書館、博物館承擔“保存信息”這個重大任務,它們完成了知識的傳承與文明的記錄。而在過去的信息時代幾十年裡,人類創造了前所未有的信息財富,這些記錄的載體,正是保存著數據的硬盤(當然,還有其它數據載體)。

  但,人類真的在好好記錄這個時代嗎?

  BBC在今年4月發表的一篇評論曾提出這個問題[4]:早期互聯網歷史存檔內容為何如此之少?

他們找到了更多數據丟失的案例:同屬電信巨頭Verizon旗下的互聯網門戶“美國在線”(AOL),曾在2013年關閉旗下所有音樂網站,數百位撰稿人及數十位編輯的多年工作成果幾乎全部消失。最後,作者悲觀地認為,即使用戶將照片發送到Facebook這樣如日中天的平台上,也早晚有一天會像已被關閉的Google+一樣失去所有內容。

早期互聯網歷史存檔為何如此之少? | 圖:BBC早期互聯網歷史存檔為何如此之少? | 圖:BBC

  史學研究者推崇王國維提出的“二重考據法”,追求“紙上之材料”與“地下之材料”的相互參證。在互聯網時代,數據就是這“紙上之材料”。尊重數據的公司也是有的,它們正在致力於建設數據的圖書館。

成立於1996年的互聯網檔案館(Internet Archives)致力於存檔各個網站的網頁,但即使已經成立三十多年,互聯網檔案館依然缺席了互聯網剛剛誕生的那五年,並且也不可能存檔下整個互聯網——更何況隨著移動互聯網誕生,如今的信息更多散落在封閉體系內,而不是可以公開訪問、記錄的網站頁面了。

  數據無法獲取,存儲也是難題。有一些公司正在試圖把更多的數據更長久地保存下去。

在上個月,代碼託管平台Github宣布[5],計劃將包括Linux、Android在內的6000多個流行開源項目的源代碼,以膠片形式存儲並封存在北極地下250米的倉庫裡,預計這些數據可以保留上千年。另一方面,針對長期、低成本保存數據的需求,也有公司在積極開發相應的技術。例如微軟最近宣布了一項在石英玻璃上用激光刻蝕存儲數據的技術[6],聲稱可以在一片杯墊大小的玻璃上刻入一部電影母帶的容量,可以保存數千年。

  百年之後,歷史數據屬於誰?

  保存數據,除了需要用情懷去覆蓋成本以外,還有一個務虛的問題:用戶產生的數據,在更長遠的歷史視角上,數據的所有權將歸於誰?

  對於仍然健在的公司來說,複雜的用戶協議中往往對用戶產生的數據做出了諸多免責規定,甚至將用戶內容的所有權(著作權等)歸於平台,並且不對數據的保存期限做出保證。而對於已經消失的公司,曾經的用戶協議也已經和歷史數據一樣成了“故紙堆”。

在2015年的《紐約時報》的一則報導[7]調查了99 個有英文服務條款或者隱私政策的網站,其中有85 個網站稱,它們可能會在合併、兼併、破產、資產出售或者其他交易發生時轉移用戶的信息。

  我們可能已經對數據的產生與消失變得麻木——各類網盤、博客平台的關停屢見不鮮。而除了關停,還有更多的數據被雪藏,如百度貼吧,這個與雅虎群組類似的產品,同樣記錄著很多關於某些時刻的輿論史料,這些記錄至今已無法追溯。

  另外一個問題是,即使這些信息都可以追溯並保存上千年,但這些由用戶貢獻、顯著帶有個人特色及隱私的內容,能否進入公共領域,成為每個研究者都可以引述的對象?

  在沒有互聯網的時代,傳統的出版業部分解決了這個問題。我們至今還能看到大量的名人日記出版,有些名人,像清末的李慈銘和民國時代的胡適,甚至在生前就開始出版日記。這些內容也得益於公開出版而免於散佚。

但“名人日記”總歸不同於平民百姓的朋友圈日常吐槽,在日益強調“隱私”和“權益”的今天,你在網上的發言,在幾年、幾十年甚至上百年後,被一記“洛陽鏟”挖出來作為史料研究,還需要你來批准、同意與署名嗎?

  新一輪“文獻災難”的罪魁

  中外歷史上曾發生過無數次“文獻災難”。

亞歷山大圖書館,這座可能是世界上最早的圖書館,其館藏的無數古代典籍,數次毀於兵火;十字軍東征期間,開羅、敘利亞圖書館的舊藏也遭統治者變賣充軍餉;而在中國,古人將文獻滅失事件稱為“書厄”,意為“書籍遭遇的劫難”。從隋代的“五厄”到明代的“十厄”,再到近現代的“十五厄”,文獻毀滅事件從未停止。

  總結起來,人類歷史上文獻消失可分為如下幾類因素:

  一來是政治劫難,歷代禁書活動也因內外交困不得不賣書求生的事件,從未停止;

  二來是戰爭因素,每當內外戰爭或改朝換代,因為戰爭導致的圖書被燒毀和劫掠事件不斷。如鴉片戰爭期間,中國最早的私家藏書樓天一閣遭搶;清圓明園藏書樓文源閣,因英法聯軍入侵而遭毀;

三來是自然因素,一些條件良好的藏書樓,因為天火、水災等自然因素而遭毀,如粵雅堂藏書在“十三行大火”中被毀;俄羅斯科學院社會科學信息研究所起火,導致所內圖書館被燒。

  但互聯網卻顯得更特殊:市場經濟條件下,倘若無人願花錢保存這些文獻,我們也無法橫加指責;有人以隱私之名拒絕公開資源,歷史研究者們也只能望洋興嘆。

  時代在進步,互聯網向我們展示了技術是如何輕易打破信息不對稱,但最終,技術也暴露出其難以克服的缺陷:它不能為我們保存更多歷史,甚至給消滅歷史帶來更多便利。

  下一輪“文獻災難”,可能離我們並不遠。

  相關報導:

  [1] 雅虎宣布逐漸關閉群組網站,12月14日後刪除所有上傳內容,澎湃新聞,https://www.thepaper.cn/newsDetail_forward_4697895

[2] Internet Historians Mourn Loss Of Cultural Record As Yahoo Prepares To Delete Groups, NPR, https://www.npr.org/2019/12/09/786469397/internet-historians-mourn-loss-of-cultural-record -as-yahoo-deletes-group-archive

[3] Verizon kills email accounts of archivists trying to save Yahoo Groups history, ZDNet, https://www.zdnet.com/article/verizon-kills-email-accounts-of-archivists-trying-to-save-yahoo- groups-history/

  [4] why there's so little left of the early internet, BBC, https://www.bbc.com/future/article/20190401-why-theres-so-little-left-of-the-early-internet

  [5] GitHub 要把全球開源代碼埋在北極,保存 1000 年,愛範兒,https://www.ifanr.com/1282927

  [6] 微軟將數據保存在玻璃中 可以安全地存儲數千年,cnBeta,https://www.cnbeta.com/articles/tech/906909.htm

[7] When a Company Is Put Up for Sale, in Many Cases,Your Personal Data Is, Too, The New York Times, https://www.nytimes.com/2015/06/29/technology/when-a- company-goes-up-for-sale-in-many-cases-so-does-your-personal-data.html

無法保存的數據,正在消失的歷史 1