少妇被又大又粗又爽毛片久久黑人,国产无遮挡又黄又爽免费视频,18禁男女爽爽爽午夜网站免费,成全动漫影视大全在线观看国语

第四十六章 搜索引擎的研發(fā)

    隋波安撫好了左清泉之后,也答應(yīng)她,等考試周之后,會(huì)讓她負(fù)責(zé)一些相對(duì)輕松的工作。
    比如公司現(xiàn)在還沒有專門的行政部門。
    可以讓她和張軒兩個(gè)人先組成CEO辦公室,兼管公司內(nèi)部行政綜合事務(wù),像法務(wù)、公關(guān)、后勤、文件報(bào)告匯總之類的事情。
    這也是一種鍛煉。
    可以從這些內(nèi)部的職能工作,讓他們?nèi)娴氖煜ず屠斫夤菊?guī)化運(yùn)作的流程和模式。
    等左清泉離開之后,隋波想了想,還是覺得應(yīng)該去看看王川團(tuán)隊(duì)的研發(fā)進(jìn)展。
    隨著這段時(shí)間各項(xiàng)目展開,無論是龐勇還是周楓、王川他們都覺得技術(shù)力量不夠,又各自從學(xué)校里拉了一些同學(xué)進(jìn)入團(tuán)隊(duì),整個(gè)技術(shù)團(tuán)隊(duì)擴(kuò)張的很快。
    當(dāng)時(shí)隋波在外地,就讓左清泉去找了趙寧,把公司隔壁的兩間辦公室也都租了下來。
    周楓、許朝軍帶領(lǐng)的校內(nèi)網(wǎng)開發(fā)團(tuán)隊(duì)和王川帶領(lǐng)的搜索引擎研發(fā)團(tuán)隊(duì),都從原來的辦公室分了出來,易趣那個(gè)辦公室里只留了電商團(tuán)隊(duì)。
    新業(yè)務(wù)的研發(fā)團(tuán)隊(duì)分別在兩個(gè)新辦公室里閉關(guān)。
    一推開門,隋波有些驚訝的看到,不大的房間里,中間是一張長(zhǎng)桌,長(zhǎng)桌上一個(gè)緊挨一個(gè)的擺放著十幾臺(tái)電腦,將長(zhǎng)桌擠得滿滿的。
    一幫少年們頭發(fā)亂糟糟,眼圈發(fā)黑,眼睛發(fā)光的盯著電腦屏幕,渾然忘我的噼里啪啦敲打著鍵盤。
    桌上的電腦之間就算稍微有點(diǎn)空隙,也都擺滿了方便面火腿腸之類的速食品。
    要不是那些電腦屏幕上,顯示的一行行代碼,簡(jiǎn)直就是一個(gè)小型黑網(wǎng)吧的現(xiàn)場(chǎng)!
    王川坐在最靠里的一臺(tái)電腦前,眉頭緊鎖,盯著屏幕,似乎正在思索什么難題。
    別看這個(gè)場(chǎng)面,看起來好像是一群泡吧的頹廢網(wǎng)癮少年。
    隋波可是清楚,這幫少年們都是計(jì)算機(jī)天才!
    王川直接從學(xué)校里拉了不少水木計(jì)算機(jī)國(guó)家集訓(xùn)隊(duì)的隊(duì)友來,組成項(xiàng)目團(tuán)隊(duì)攻關(guān)搜索引擎!
    隋波想了想,回去找左清泉。
    讓她找附近的餐廳預(yù)訂每天的飯菜,送到公司來,再買幾箱飲料、咖啡、面包餅干之類的小食品,放到幾個(gè)研發(fā)團(tuán)隊(duì)的辦公室里。
    估計(jì)不僅王川團(tuán)隊(duì),龐勇、周楓他們那兒也都一樣。
    這幫技術(shù)男們敲起代碼來,都是沒日沒夜的。
    沒有打擾其他人的工作,他悄悄把王川叫出來,在自己辦公室里,和他專門交流研發(fā)情況。
    目前搜索引擎項(xiàng)目最大的困難在于,沒有可供參考的對(duì)象。
    雖然可以參考一些國(guó)外的資料和論文,但因?yàn)樯婕暗揭恍┖诵募夹g(shù),是無法通過網(wǎng)絡(luò)查找到的,都需要自行開發(fā)。
    隋波點(diǎn)頭表示同意。
    這個(gè)時(shí)候Google還不存在呢,要到9月份的時(shí)候,布林和佩奇才會(huì)在加州一個(gè)車庫(kù)里開始創(chuàng)業(yè)。
    百度更是沒影的事兒,老李還在搜信里混呢。
    現(xiàn)階段,無論是國(guó)外的Lycos、AltaVista、Infoseek(搜信),雅虎搜索引擎;還是國(guó)內(nèi)搜狐推出的所謂全中文搜索引擎,都還是以人工分類目錄為主的網(wǎng)站檢索服務(wù)。
    說是搜索引擎,其實(shí)更像是目錄導(dǎo)航網(wǎng)站……
    盡管其中一些搜索引擎已經(jīng)有了網(wǎng)頁關(guān)鍵詞檢索、用戶點(diǎn)擊量排序等一些創(chuàng)新,但本質(zhì)上,還是需要大量的人工編輯的目錄式搜索引擎(DirectorySearchEngine)。
    而隋波希望王川團(tuán)隊(duì)開發(fā)的,則是全新的,通過技術(shù)程序,自動(dòng)在互聯(lián)網(wǎng)上通過超鏈接網(wǎng)頁進(jìn)行全文檢索的機(jī)器人搜索引擎(RobotSearchEngine)。
    這樣的話,就需要從頭做起,開發(fā)一整套完整的技術(shù)體系。
    其中包括網(wǎng)絡(luò)爬蟲(WebCrawler)服務(wù)、索引服務(wù)、緩存服務(wù)、日志服務(wù)等幾大模塊,各模塊之間互相影響,構(gòu)成了整個(gè)搜索引擎體系。
    從開發(fā)量上,技術(shù)難度是遠(yuǎn)遠(yuǎn)大于目錄式檢索技術(shù)的。
    首先說網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛(WebSpider),這項(xiàng)技術(shù)是基于Web的自動(dòng)化瀏覽程序,通過網(wǎng)頁鏈接(URL),爬蟲不斷的通過互聯(lián)網(wǎng)中獲得新的網(wǎng)頁數(shù)據(jù),下載頁面數(shù)據(jù)形成后臺(tái)數(shù)據(jù)庫(kù)。
    可以說,網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)是搜索引擎工作流程的第一步。
    爬蟲的體系架構(gòu)直接關(guān)系到搜索引擎每天數(shù)據(jù)的采集量,而抓取策略則關(guān)系到搜索結(jié)果的數(shù)據(jù)質(zhì)量,數(shù)據(jù)的更新策略則關(guān)系到系統(tǒng)資源的利用率。
    這只是第一步,采集了大量數(shù)據(jù)信息之后,還需要通過自然語言處理(NLP),將文本信息分解為結(jié)構(gòu)化數(shù)據(jù)和價(jià)值性數(shù)據(jù)。
    這里面就又存在一個(gè)問題,目前國(guó)外的搜索引擎都是英文分詞,而中文比較特殊,最小單位是字,但具有語義的最小單位是詞。
    所以,在中文分詞這一部分,就需要技術(shù)團(tuán)隊(duì)單獨(dú)進(jìn)行開發(fā)。
    通過建立詞庫(kù)、采用條件隨機(jī)概率分布模型、詞性標(biāo)注、語義相似度、已存句法分析、情感傾向分析等,通過各種模型判斷,讓程序理解抓取到的關(guān)鍵詞中文的語義,才能提高搜索的準(zhǔn)確性和查全率。
    這還只是其中比較小的開發(fā)困難。
    比如,搜索引擎的核心就是通過海量數(shù)據(jù)抓取后的快速檢索,而抓取的數(shù)據(jù)越多,當(dāng)龐大的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)里,就需要構(gòu)建快速存取數(shù)據(jù)的分布式存儲(chǔ)架構(gòu)。
    再比如,為了讓用戶在最短的時(shí)間內(nèi)獲得想要的搜索結(jié)果,就需要后臺(tái)系統(tǒng)不斷的執(zhí)行數(shù)據(jù)抓取和建立索引等操作。
    這就需要建立分布式實(shí)時(shí)計(jì)算系統(tǒng),以及對(duì)索引結(jié)構(gòu)的構(gòu)建……
    王川估計(jì)也是最近開發(fā)中有些郁悶了,一說起來就滔滔不絕。
    隋波雖然不太懂他說的一些技術(shù)術(shù)語,但畢竟前世作為用戶也使用了20多年的搜索引擎,接觸的多了,也了解一些基本的知識(shí)。
    他安靜的聽著王川不斷的講述團(tuán)隊(duì)面臨的一個(gè)個(gè)困難,又是怎么想辦法克服的。
    不時(shí)提問兩句,顯得聽的很認(rèn)真。
    腦子里卻不斷的在回憶,當(dāng)初Google和百度是有哪些創(chuàng)新的舉措,才一舉成功的?
    印象最深的,就是那句“百度更懂中文”,這應(yīng)該就是剛才王川所提的中文分詞了,這塊王川已經(jīng)考慮到了。
    至于是不是更進(jìn)一步,先弄個(gè)智能輸入法出來?……
    現(xiàn)在團(tuán)隊(duì)的研發(fā)壓力已經(jīng)很大了,暫時(shí)先略過不提。
    還有就是百度快照,不過好像這個(gè)功能雖然對(duì)用戶而言很有價(jià)值,但爭(zhēng)議很大……
    還有就是Google獨(dú)創(chuàng)的PageRank技術(shù)。
    這是一種根據(jù)網(wǎng)頁之間的鏈接結(jié)構(gòu)來評(píng)價(jià)判斷網(wǎng)頁重要性的排序算法。
    想到這里,隋波就提了一下,是否在搜索結(jié)果的排序算法上,可以采用這種模式?
    從網(wǎng)頁的鏈接數(shù)量、權(quán)威性、主題相關(guān)性、網(wǎng)頁內(nèi)容的匹配性等多個(gè)方面,綜合分析,進(jìn)行搜索結(jié)果的排序。
    王川聽了以后若有所思:“這個(gè)算法我回去研究一下,應(yīng)該沒問題。”
    隋波笑道:“技術(shù)上我沒辦法給你太大的幫助,不過我可以從公司激勵(lì)政策和后勤上為團(tuán)隊(duì)鼓勁!
    你回去和大家說一下,搜索引擎項(xiàng)目的團(tuán)隊(duì)項(xiàng)目獎(jiǎng)金定在10萬,而且根據(jù)每個(gè)人的表現(xiàn),到時(shí)候還有個(gè)人獎(jiǎng)勵(lì)。
    我已經(jīng)讓清泉給你們做好后勤,每天會(huì)定時(shí)讓送餐廳送飯菜過來。
    另外給你們弄一個(gè)休息間,里面準(zhǔn)備好啤酒、咖啡、飲料和小吃,保證供應(yīng)。
    嗯……,再讓她給你們辦公室里配一個(gè)沙發(fā),大家累了可以躺下休息一會(huì)。
    王川,這個(gè)項(xiàng)目將會(huì)是公司除了電商平臺(tái),最核心的業(yè)務(wù),還要你多辛苦了!”
    王川點(diǎn)頭,一臉的倔強(qiáng):“波總,你放心,我有信心把這個(gè)搜索引擎搞出來!實(shí)際上每當(dāng)解決一個(gè)技術(shù)難題,大家的那種快樂都是無法言表的,公司又給我這么大的支持力度,我一定全力以赴!”
    隋波拍拍他的肩膀:“我相信你,你也別著急,和團(tuán)隊(duì)成員要?jiǎng)谝萁Y(jié)合,注意休息,別搞壞了身體,我們還有足夠的時(shí)間來成長(zhǎng)!”
    ,

團(tuán)寵綠茶穿成炮灰真少爺 徐歲寧陳律 變成幽靈了如何是好 明帝 厲元朗水婷月正版 被拐后我重生了 美人謀(重生) 林平李蕓汐 無上邪尊 本多孝好系列作品(套裝共2冊(cè))