每一個(gè)網(wǎng)站都以一個(gè)標(biāo)準(zhǔn)的情勢(shì)全部打包?一個(gè)名為 InternetArchive網(wǎng)站就在做全數(shù)因特網(wǎng)的存檔任務(wù)。但是懷疑這項(xiàng)使命真的那么無(wú)心義嗎?由于我現(xiàn)在根蒂就看不懂兩千年前的數(shù)據(jù),另一個(gè)問(wèn)題是如何存檔存有巨量信息的因特網(wǎng)?現(xiàn)在有人在做這種工作。那兩千年以后的人能看懂現(xiàn)在保留的數(shù)據(jù)嗎?
其統(tǒng)計(jì)了停止2010年8月1號(hào)全世界所有圖書(shū)的數(shù)目,導(dǎo)語(yǔ):谷歌搜索公司谷歌搜索圖書(shū)(GooglBook團(tuán)隊(duì)在其官方博客上發(fā)表博文稱(chēng)。一共約1億2986萬(wàn)4880本??萍疾┛虲runchGear發(fā)表攻訐文章對(duì)谷歌搜索圖書(shū)計(jì)劃做了批評(píng),感到該計(jì)劃實(shí)施難度龐大,但影響將會(huì)不可估量。以下是攻訐全文:
書(shū)的數(shù)量可以或許說(shuō)不計(jì)其數(shù)。谷歌搜索圖書(shū)將使世界上所有的圖書(shū)都可以在線搜索,谷歌搜索的目標(biāo)一向是將地球上所有的數(shù)據(jù)都電子化、分類(lèi)、索引到其巨大的服務(wù)器里。谷歌搜索圖書(shū)生怕是這個(gè)龐大的工程中最有野心的布局之一。但是不要忘了人類(lèi)將文字和聰明記實(shí)入圖書(shū)里已經(jīng)有了五、六千年的汗青。影響將是不可估計(jì)的谷歌搜索為了完成這一浩大的工程,利用了當(dāng)今很多最新的科技手法。
報(bào)告了如何計(jì)算出世界上所有的圖書(shū)有1億2986萬(wàn)4880本這個(gè)他感到相對(duì)正確的數(shù)字的谷歌搜索圖書(shū)團(tuán)隊(duì)剛在其官方博客發(fā)了一篇博客。
但是很樂(lè)意看到主動(dòng)去挑戰(zhàn)海量的數(shù)據(jù)。因?yàn)檫@意味著,實(shí)在我對(duì)他詳細(xì)是如何得出這一數(shù)字并不感興趣。將來(lái)我尚有很多東西可以或許進(jìn)修,尚有很多關(guān)于如何處理數(shù)據(jù)的成就會(huì)被提出。
還要與浩大大學(xué)藏書(shū)樓、公共藏書(shū)樓、私人保藏、博物館等等非常多的機(jī)構(gòu)單干,舉個(gè)例子說(shuō):谷歌搜索要處理非常多類(lèi)似于ISBN海內(nèi)標(biāo)準(zhǔn)書(shū)號(hào))圖書(shū)數(shù)據(jù)。處理這些機(jī)構(gòu)供應(yīng)的類(lèi)似的圖書(shū)記實(shí),并分辯出這些記錄的藐小差別。假想高效的算法來(lái)從這些重疊非常多的圖書(shū)記錄中找到每一本書(shū)的最初版本不是一件容易的事,毫無(wú)疑問(wèn)必要頻仍的人工干涉干與。谷歌搜索必要利用了類(lèi)似于算法的軌范分辨、分類(lèi)、分析大批的圖片。
利用OCR光學(xué)字符識(shí)別)技術(shù)掃描圖書(shū)并非易事。比方:錯(cuò)誤率要控制在幾多?對(duì)于不合印刷技巧的書(shū)是否需要不同的掃描儀?否必要人工清理冊(cè)頁(yè)的褶皺?手動(dòng)翻書(shū)的人的手指擋住了部分內(nèi)容信息怎么辦?如此之類(lèi)的成就數(shù)不勝舉。
書(shū)籍作品自己的規(guī)律必定程度上降低了掃描任務(wù)的難度。大部分圖書(shū)作品都有很清晰的開(kāi)頭和結(jié)尾,固然。期刊和雜志都是定期發(fā)行編號(hào)清晰等等。