對於中文使用者而言,下面的報導無疑是個好消息:

在1月11日和12日這兩天,全球互聯網第一搜索引擎Google和第一中文搜索引擎百度,幾乎是不約而同地把焦點瞄準了中文:Google發佈了其學術搜索的中文版(scholar.google.com),百度則發佈了其國學搜索(guoxue.baidu.com)。

Google學術搜索可以幫助使用者準確搜索到某一領域的學術文獻。據Google全球副總裁、中國區總裁李開復稱,目前全球互聯網上的中文學術文獻的數量僅次於英文,中文已經成為互聯網第二大語言,這也是Google積極推出中文學術搜索的主要動力。


目前,Google 學術捜索可搜索到用西歐語言、中文和巴西葡萄牙語撰寫的文獻。百度國學則主要專注於中國傳統歷史文化領域的資料搜索。目前兩者均免費。


沒有上網,也能找到


記者最近正在研讀《隋書》(中華書局版),就隨便在Google學術搜索上查了一下該書的主編“魏徵”,結果第一條就是唐朝魏徵主編的《隋書》。同一時刻(1月12日9:30),在百度國學上沒有找到任何結果。

不過,Google學術搜索這第一條結果無法點擊進去,該條目最左邊的方括號中寫著“引用”兩字。


據Google資深工程師趙羽可介紹,Google學術搜索除了能否檢索到大部分已經上網的學術文獻外,還可以通過對這些在線文獻進行邏輯分析,找出那些沒有上網的、但也許更加重要的文獻,魏徵主編的《隋書》就是一例。


原來,有許多在線的學術文章中都引用了該書的內容,版本也多為中華書局版,於是,該版就成為“魏徵”詞條下最重要的一條結果。當然,該書是否在線並不是研究者的最大障礙,重要的是,研究者知道了確實還有這麼一本書可以參考。


Google學術搜索涵蓋了各方面文獻(百度目前僅限於國學等幾個領域),包括沒有上網的文獻,比如,愛因斯坦的很多著作並未在線發佈,但卻被眾多學者所引用,通過Google學術搜索,一樣能找到這些被引用文獻的名稱、版本、作者、出版日期、出版社、內容摘要等資訊。通過提供這些引用資訊,使研究者瞭解到許多重要的未上線文獻。


Google傑出工程師Anurag Acharya說:“我們不知道下一個重要的突破會來自哪裡,但我們相信,通過使各地研究者更輕鬆地瞭解在全球範圍內已取得的研究成果,我們可以對他們有所幫助。”


搜索結果的排名順序對研究者而言,可能比普通用戶更為重要。


趙羽可介紹,Google學術搜索的文獻排名是嚴格按照文章的學術價值來進行的,參考因素包括文獻、作者、出版者的權威性,被引用的次數等,與普通 Google網頁排名大有不同。


例如,查詢“Human Genome”(人類基因組),普通 Google搜索結果超過700萬個,排名在前面的都是機構首頁,包括美國能源部、美國國家衛生研究院等,到了20名前後才出現刊登於《自然》、《科學》的相關文章。而Google學術搜索只命中39萬個結果,排名前10位的都是在《自然》、《科學》等著名學術媒體上發表的文章。至於學術搜索的結果排名是否與Pagerank排名相似,趙羽可認為,有類似地方,但也有大不同。


【文稿來源:ChinaByte授權,武陵客代理】


學術搜索 Google是弱者

武陵客 2006/01/18

張翼軫╱北京特稿
百度推出“百度國學”(http://guoxue.baidu.com/)沒幾天,Google就宣佈推出了將Google學術搜索(Google Scholar)擴展至中文學術文獻領域,就時間之拿捏,很明顯是與百度針鋒相對。


學術搜索這個領域,其實是偏門領域。除了搞學問的一小撮人,對大部分互聯網用戶而言使用的機會很小很小。所以無論這個領域百度和Google誰勝誰贏,都不會是“勝負手”,影響它們之間競爭的格局。但作為一個新應用推出,兩家肯定要在這上面較一個高下,即使只是為了面子問題。


作為剛剛在香港寫完碩士論文,脫離學術圈的前學子,對於學術搜索這個東西,我想還是有點發言權,可以說兩句的。我開始準備寫碩士論文的時候,差不多也就是Google Scholar剛推出的時候,那時候還寫過一篇blog簡評了一下(http://www.earlzhang.com/lblog/article.asp?id=82)。雖然很早就關注,不過我在整個論文準備和撰寫的過程中,沒有用過一次Google Scholar檢索學術文獻——原因很簡單,在學術搜索領域,Google實在是一個小弟弟,中看不中用。


和雜亂無章,充斥普通用戶的互聯網不同,學術界有的是聰明人,而且搞學術最注重的就是知識的積累,所以早在還沒有電腦的時候,便已經通過對學術文獻增加關鍵字的方式來便於手工檢索,後來有了電腦,有了互聯網路後,學術電子化的進程更是一日千里。


Google Scholar能做什麼?說穿了不過是對互聯網上公開資訊中的學術部分進行檢索,在附帶了諸如引用統計這樣的附加功能。但任何一個搞過學術的人,都應該知道大多數的學術資訊,尤其是期刊論文都是不會出現在互聯網路的公開資訊中的。大多數的學術期刊並不趕潮流,他們一般都沒有自行製作電子版,不像國內的報刊雜誌那樣一窩蜂的製作電子版,結果只是便宜了新浪、搜狐這樣的門戶網站。當然,自己不製作不等於沒有電子版,有不少學術期刊資料庫網站會專門負責將最新的學術期刊掃描,識別製作成PDF或者HTML格式的電子版,但是這樣的資料庫卻是要收費的,你既可以按照每篇文章支付下載費用,也可以由所在的研究機構事先統一支付費用,然後每個機構成員都可以直接瀏覽這樣的學術資料庫。比如筆者研究社會科學,類似Jstor、Epnet、Proquest這樣的專業學術期刊資料庫網站才是最最常用的。在Google上可以找到的學術文獻,絕大多數都會被這些專業的學術期刊資料庫收入,少數沒有收錄的,也就意味著沒有在上得了台面的學術期刊發表過,即使找到,其實價值不會太高。至於Jstor、Epnet、Proquest上能夠找到的學術期刊上的論文,絕大多數你不可能在Google Scholar上搜索到,雖然隨著電腦普及,越來越多的學術論文作者會在論文發表後,將論文相關的PDF發佈在自己的個人網站上,從而成為Google Scholar全文資料的重要來源,但這樣的情況畢竟還是少數,而且也僅限於近年。你要想在網路上找到10年甚至互聯網誕生之前的學術文獻,這並不是太容易的事情。但是尋找一篇幾十年前的論文進行參考,對於不少搞學術的人卻是家常便飯。


其實,在學術這個領域,尋找文獻的最重要通路根本不是搜索引擎。是的,雖然Jstor、Epnet、Proquest這些學術期刊資料庫一般都有搜索功能,但是筆者很少會使用,大多數時候是需要特定期刊特定年限的某篇文章後,才去資料庫有的放矢地搜尋這篇文章。對於筆者而言,要尋找某個領域的學術文獻,最有用的方法還是先找到一篇相關的論文,然後查看其附錄的參考文獻目錄,從中尋找有價值的文獻,然後才查看這些有價值文獻的參考文獻目錄,從中進一步尋找有價值的文獻,如此反覆通過一個網狀擴大,去尋找有用的文獻資料。雖然這樣的辦法看起來很笨拙,但是需知道每一篇論文的參考文獻都是作者大量閱讀後選取在自己論文中引用到的,也就是說是作者作為此領域的專家判斷下來有用的,這樣得到的文獻,無論是相關度還是有用度,都不是依靠全文檢索機器自動完成的Google所能比擬的。


在學術搜索領域,Google實在是個小弟弟。


要說有點價值,老實說百度的“百度國學”還真是要比Google的Google Scholar高上一籌。首先,所謂“國學”涉及的傳統文獻,幾乎都是沒有版權保護的,這也就決定了“百度國學”可以以全文版的形式將它們全部搬上互聯網——這才是一件功德無量的事情。雖然中文古字太多,要真正完成這個工作絕非容易,但百度願意做總是好的,至少這要比花9000萬蓋大樓要來的有意義的。其實目前不少傳統文獻已經有電子版,只不過仍舊以收費服務的形式存在,為學術界的少數人所享用,要是百度能夠逐步買下這些文獻資料庫的使用權,免費提供給用戶使用,那“百度國學”的建設相信可以一日千里。——在這個領域,比如成人還是大慈善家小比來的有奉獻精神,為了推銷自家的搜索引擎,甚至將原本收費的Encarta百科全書都開放放入搜索引擎讓用戶免費瀏覽。


談及百度和Google在學術搜索上的大戰,我們的李開復博士“認可百度把中國的淵源文化推向全世界的舉動。Google的學術搜索不分語言,不分領域。內容除了國學之外,還有物理、醫學、化學、哲學等,與百度的國學頻道不同,比如搜孫子兵法,我們搜出的不只有原文,還有論文。”——不過我要指出的就是,李開復博士似乎忘記說了Google的學術搜索雖然可以搜索到相關的論文,但可惜大多數只是一個簡單的摘要,全文還是要讀者掏錢才能看到的。以Google的財力,相信買下幾個學術資料庫免費開放亦非難事,要是真有普通用戶使用,那Google不但不做惡,而且還是功德無量的好事——不過筆者懷疑開放之後主要的用戶還是原本付費使用的學術界人士,學術論文絕不如八卦新聞這樣能夠吸引普通用戶的眼球——如果真是這樣,好歹也證明了學術搜索其實真不是個有太大價值的玩意兒。

【文稿來源:ChinaByte授權,武陵客代理】
arrow
arrow
    全站熱搜

    FguHistoryAlumni 發表在 痞客邦 留言(0) 人氣()