第284章谷歌一下
一個搜索引擎,還有比這更bāng的東西么?
凱瑟琳未來自己經(jīng)常登陸的網(wǎng)站,大多都是通過“百度一下”而知道的。凱瑟琳覺得,自己很有必要弄出一個搜索引擎來
如果要追溯的話,搜索引擎的“歷史”比worldwideweb還要長。早在web出現(xiàn)之前,互聯(lián)網(wǎng)上就已經(jīng)存在許多旨在讓人們共享的信息資源了。這些資源當時主要存在于各種允許匿名訪問的ftp站點。
就目前而言,大多數(shù)網(wǎng)站都是大學(xué)的門戶網(wǎng),其他的網(wǎng)站實在是太少了,于是搜索引擎的存在意義就被淡化了。
但是未來肯定不會如此。
且不說自己想要將這網(wǎng)上這些蛋疼的人分開,從另一方面而言,因為和《洛杉磯時報》的合作也快要開始了,綜合類型的網(wǎng)站總是會出現(xiàn)的,于是搜索引擎就會變得必要起來。
“也許這是一個不錯的注意”凱瑟琳撐著下巴,然后在思考著。
而艾爾莎看看時間,已經(jīng)快到下午了,于是就去泡紅茶了。
“什么主意?”
艾爾莎一邊在拿著茶餅,一邊問著。
“一個搜索引擎,一個能夠讓我們知道各種網(wǎng)站的一個好東西。”
“我們可以將自己想要的網(wǎng)頁搜索出來?”
“對,就是這樣。”
“這能辦得到嗎?”
“當然”
雖然是肯定的回答,但是凱瑟琳最后的語氣卻變得有些奇怪。
搜索引擎依靠的是網(wǎng)絡(luò)蜘蛛,即web-spider。
這是一個很形象的比喻,就如同網(wǎng)絡(luò)被人稱為“”一樣(就是“網(wǎng)”的意思)。
準確一點來說,網(wǎng)絡(luò)蜘蛛就是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站首頁開始讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。簡而言之,網(wǎng)絡(luò)蜘蛛就是一個爬行程序,一個抓取網(wǎng)頁的程序。
未來的“百度”、“谷歌”等等網(wǎng)站,都是建立在這樣的一個基礎(chǔ)之上的。
可是凱瑟琳突然想到自己似乎根本就沒有了解過“網(wǎng)絡(luò)蜘蛛”這個東西,雖然知道原理,但是想要弄出來似乎還有些麻煩。
“看來還給成立一個工作組才行。”
開始了抱著雙手站了起來。
“我覺得我們公司的人才已經(jīng)夠緊張的了。”艾爾莎將紅茶和茶餅放在了凱瑟琳的桌上。
“沒關(guān)系,到了五月份,這種情況就能得到緩解。”intel與斯坦福大學(xué)的合作培養(yǎng)的第一批學(xué)生已經(jīng)快要畢業(yè)了,有了他們的加入,公司的人才緊缺的問題必然能夠得到一定程度的緩解。
“至少在未來十年內(nèi),我們公司的人才都有可能是供不應(yīng)求,這是一個急速擴張的產(chǎn)業(yè),和那些傳統(tǒng)行業(yè)是不一樣的。”
直到21世紀,這些行業(yè)對于人才的渴求依然是強烈的。
當然,中國除外因為那里的人實在是太多了,乃至于都有了“it民工”的說法。
凱瑟琳坐了下來,然后喝了一口紅茶。
她一邊喝著茶,一邊在思考著應(yīng)該如何寫一個網(wǎng)絡(luò)蜘蛛的程序出來。
評價一個網(wǎng)絡(luò)蜘蛛的好壞,有三個方式,一個是覆蓋率,網(wǎng)絡(luò)蜘蛛的首要目標是抓取互聯(lián)網(wǎng)上所需的信息。因此,有價值的信息是否都收錄,收錄的比例是網(wǎng)絡(luò)蜘蛛的基本評價指標;第二個則是時效性,即事件發(fā)生并在互聯(lián)網(wǎng)上傳播后(以新聞、論壇、博客等各種形式),用戶需要通過搜索引擎盡快能檢索到相應(yīng)內(nèi)容。而索引的前提是收錄,因此需要網(wǎng)絡(luò)蜘蛛盡快的抓取互聯(lián)網(wǎng)上最新出現(xiàn)的資源;最后則是重復(fù)率,互聯(lián)網(wǎng)上重復(fù)的內(nèi)容很多,如何盡早的發(fā)現(xiàn)頁面重復(fù)并消除之,是網(wǎng)絡(luò)蜘蛛需要解決的問題。除轉(zhuǎn)載導(dǎo)致的重復(fù)外,重復(fù)總能體現(xiàn)為各種不同的模式,站點級重復(fù),目錄級重復(fù),cgi級重復(fù),參數(shù)級重復(fù)等等,及早發(fā)現(xiàn)這些模式并進行處理,能節(jié)省系統(tǒng)的存儲、抓取、建庫和展現(xiàn)資源。,
第一個問題最好解決,因為美國電信的根服務(wù)器就在諾亞。網(wǎng)頁的覆蓋率永遠都是100。
需要解決的是第二和第三個問題。
事實上這也不是個大問題,原理很容易解決,最重要的一環(huán)在于需要一個高效率的程序。
光憑自己一個人的話,可能需要不少的時間。凱瑟琳一直夢想的是當一個甩手掌柜,這事怎么能夠發(fā)生呢?于是,找人就是必須的。
最后,凱瑟琳決定從微軟的phoenix-stargate開發(fā)組chou調(diào)了三個人出來,幫助開發(fā)這個網(wǎng)絡(luò)蜘蛛程序。
反正星門系統(tǒng)的開發(fā)已經(jīng)差不多了,這個時候自己chou調(diào)一些人出來開發(fā)網(wǎng)絡(luò)蜘蛛完全不是問題。
網(wǎng)絡(luò)蜘蛛是搜索引擎的一個最核心的部分。有了這個程序之后,搜索引擎的建立就會非常簡單了。
那自己的這個網(wǎng)站應(yīng)該叫什么名字呢?
百度?
她首先就想到了這個名字。
凱瑟琳搖了搖頭,與其叫百度,還沒有谷歌來得更有味道。畢竟,后者可是全球性的搜索引擎,而前者只能局限在中國大陸地區(qū)嘛而且更重要的一員原因是,凱瑟琳對于百度的某些功能非常的有怨念,而且還不能翻墻。
在這上面,谷歌的搜索就方便多了前提是用國外版,好孩子片什么的,很容易就可以找到。雖然這是上輩子的情感,但是凱瑟琳覺得還是谷歌稍微要好那么一點點。
最后,凱瑟琳決定將自己的這個網(wǎng)站命名為google,也就是谷歌。
不過凱瑟琳并不打算如同歷史上的那個谷歌公司一樣去涉及各種的產(chǎn)業(yè),什么手機、辦公都一網(wǎng)打盡。
自己已經(jīng)有了專門的手機部門,微軟也是自己的,谷歌公司所要做的事情,就是扮演好一個搜索引擎自己的角色。
這方面凱瑟琳覺得還是去參考一下百度,還是一個不錯的選擇。
貼吧、知道、百科,這些都是必須的。
“谷歌貼吧谷歌知道谷歌百科”凱瑟琳在筆記本上將關(guān)鍵詞一一寫下。
“唔維基百科似乎也不錯算了,還是谷歌吧。”
凱瑟琳決定不去占用“維基”的名字,看著阿桑奇如何將這些政fu的丑態(tài)全部挖出來,似乎挺有趣的。
但是如果自己占用了“維基”的名字,萬一以后阿桑奇做出了些什么事情,那城門失火,殃及池魚,自己可就糟了。
“谷歌?那是什么?”
艾爾莎將茶具收走。
“搜索網(wǎng)站的名字。”
“哦。”
有了搜索網(wǎng)站,大家就能夠找到和自己臭味相投的網(wǎng)站了,而那個時候,網(wǎng)絡(luò)上面的火藥味大概也就不會這么濃烈了。
“google”
凱瑟琳在筆記本上寫下了谷歌的幾個字母。
“這就是你說的那個谷歌?”
“是的,不僅僅只有一個搜索引擎而已,這應(yīng)該是一個綜合性的網(wǎng)站當然,這個網(wǎng)站的大部分內(nèi)容以搜索為主。”
貼吧、知道、百科,這些都是必不可少的。
“我的這個谷歌,在除去了搜索功能之外,還應(yīng)該擁有替人們解決問題的功能。例如,大家有問題了,他們就可以到我們的谷歌網(wǎng)站來,然后就可以找到他們的問題的解決方法。”
“聽著可真不錯是為了用戶的依賴度嗎?”
艾爾莎似乎看出了些什么。
“對,對。用戶的粘性很重要。”凱瑟琳擺出了一副“孺子可教”的表情。
“我們可以在谷歌知道讓用戶提問,他們遇到了難以解決的問題,就可以在這邊尋求解決方案當然,我們公司自身并不提供解決方案的辦法,而是讓網(wǎng)友們自己來,從而形成一種互動。而我們的谷歌百科,則是類似于百科全書的存在,大家想要找什么知識,只要到我們的谷歌百科來就好了。”
“那貼吧又是什么呢?”艾爾莎注意到凱瑟琳似乎好像沒有提及貼吧的功能。
“貼吧應(yīng)該是和論壇差不多的功能,但是性質(zhì)有些不太一樣。谷歌將會成為我們未來很重要的一個產(chǎn)品”
貼吧和論壇是存在很大不同的,但是凱瑟琳不知道怎么和艾爾莎說明。
“谷歌這名字越聽越覺得順耳,真不錯。”艾爾莎摸著下巴想了想。
“這是必須的。”
除了谷歌,facebook也是一個不錯的東西,但是開設(shè)一個facebook的網(wǎng)站這根本不可能。現(xiàn)在的計算機根本不可能將人臉給完美的呃弄成圖片,圖像會有巨大的損失。更重要的是,現(xiàn)在根本沒有網(wǎng)絡(luò)攝像頭。
“凱特,你似乎很重視谷歌?”
“當然,我連廣告詞也想好了。”
“廣告詞?”
“谷歌一下,你就知道。”
</br>