谷歌和百度的算法究竟有什麼不同? | 知乎問答精選

 

A-A+

谷歌和百度的算法究竟有什麼不同?

2017年08月09日 GOOGLE, 百度, 知乎問答精選 暫無評論 閱讀 28 ℃ 次

從技術上而言,勿噴。

【蘇冉旭的回答(22票)】:

我暈。。。看來大家對百度積怨頗深啊。我從技術上就我所知回答一下這個問題吧(不含主觀色彩),順便糾正幾個廣泛流傳的謠言:

1. 谷歌的算法與百度的算法到底有什麼不同?

其實要完全回答這個問題,必須首先瞭解百度和Google各自的排序算法,據谷歌撤出中國時一位跳槽的谷歌技術專家說,瞭解Google排序算法的全球總人數加起來不超過20人(包括Larry Page在內),而且這些人都在Google總部。從這個角度說,我想LZ在知乎是不可能得到答案了(即使真的有人知道[先膜拜一下這位大神],他也不可能明說的,否則他就等著被起訴吧)。我只能就信息檢索常識的角度來談一談,讓大家有個大概的認識,這裡不涉及任何公司的技術和機密,所有涉及技術均可以從信息檢索文獻中查到。

先明確一個概念。網頁排序算法其實是一個統稱,並不對應一個唯一的具體算法,而是一個包含多種算法的排序邏輯(或稱系統),所以不能簡單地說谷歌在用A算法,而百度在用B算法。信息檢索系統常見流程分兩步:特徵選取,特徵使用。前者選擇/抽取特徵,後者利用特徵進行排位計算。所謂特徵就是反應關鍵字與網頁匹配度的一個指標,比如PageRank,BM25,用戶的個性化傾向,用戶反饋等。匹配度越高的網頁應該排序越靠前。

1) ?特徵選取的不同

除了在信息檢索學術界有很多公認比較好的特徵兩家都會使用外(比如PageRank --這個算法現在之所以不好使很大程度上是現在過度氾濫的SEO所致,算法本身還是好算法),兩個公司會根據自己不同的需要和想法使用不同的特徵。比如Google的用戶分佈在全球各地,肯定要非常重視語言/地域特徵,搜中文給中文網頁更好,搜英文給英文網頁就好,即使同樣搜英文,大陸用戶和美國用戶期望看到的結果也往往不同。而這點百度就基本不用考慮哈~ 百度是不是更懂中文我不做評價,反正百度不怎麼懂英文。

2)使用特徵方法的不同

(本身寫了很多,想了想,這段還是刪了,總之是傳聞,若是假的大家得不到有效知識,若是真的我可能就說了不該說的,真是倍感壓力。。。)

僅科普一下這個概念吧,目前利用特徵主要方法主要有兩個:人工規則、機器學習。兩者最大的區別在於,前者的規則是開發人員拍腦袋想出來的,後者的規則是使用統計學方法由機器學出來的(具體怎麼學請參見《機器學習》相關知識,簡單講就是你先人工標注大量搜索結果(至少1W+),並告訴機器哪些是好結果,哪些是差結果,然後讓機器通過這些例子自己總結規律。之後就可以讓機器利用這些規律自動判斷新的搜索結果好壞了)。這兩種方法其實各有利弊,人工規則過於武斷,機器學習也會有過擬合的問題。嗯,科普到這裡結束。

3)審查

這個我想大家都知道?(注意Google沒有審查,但谷歌是有的,谷歌後來不審查了,然後就只能去香港了)。也許聰明的你已經注意到了,這步不在信息檢索的步驟裡呀!!沒錯,這步的確不在信息檢索的步驟裡。

2. 常見謠言

1) 百度競價排名,Google沒有

這是一條流傳甚廣的過時信息,廣到現在很多學計算機的同學也這麼認為。百度最早的確是競價排名,但那已經是N年前的事情了。

其實2009年百度的鳳巢系統上線之後,百度網頁排名和廣告排名正式分開。網頁排名從此就不涉及競價排名了(網頁排名的大搜索部和廣告競價的商務搜索部被分為兩個部門,網頁和廣告的展現位置也獨立開來,網頁排名沒有錢的因素)。因此目前百度的網頁結果完全是按照系統排序打分排出來的,並不涉及錢的問題。任何公司的排序算法都會不定期升級,因此如果你是靠SEO做到了排名靠前,但網頁內容並不優勝於其它網頁的話,在下次升級之後可能就找不到了,更相關的網頁會排上來。很多流傳說這是因為沒給百度錢,很多人信以為真。。。唉,我只能說只怪百度你積累的名聲太差了。。。

很多知友會說,可是現在百度上還是有很多廣告啊(尤其是虛假的)?!。沒錯,百度的廣告仍然繼續競價排名,給錢多少對廣告排位影響很大。但是注意----百度和Google的廣告都是競價排名!!!這是當今所有主流搜索引擎的盈利模式呀親!!!另外還有很多人說,百度的廣告是在網頁結果上方的,Google是在右側欄的,你去Google搜一下」鮮花「試試。至於廣告虛不虛假,公平的說,這和百度沒太大關係。就像三鹿奶粉是不是毒奶粉,蒙牛是不是添加劑超標和CCAV關係不大一樣。

2) 百度人工干預結果,Google沒有

我不是百度的粉絲,但應該說除了政治審查、色情屏蔽,這個應該真沒有。大家觀察一下就會看到,說百度惡意降低自己網頁排序的都是一些非熱點關鍵詞能搜索到的小網站。光就這類關鍵詞的數量,百度即使想干預也沒這麼多人力。就算干預了賺了那點收入,還不夠填補這個人工干預系統的花銷。

3)搜索排名就是PageRank

PageRank只是其中一個特徵。就像@谷健民所說,這個特徵目前的使用權重已經較低。

【胡寧的回答(3票)】:

"據谷歌撤出中國時一位跳槽的谷歌技術專家說,瞭解Google排序算法的全球總人數加起來不超過20人(包括Larry Page在內),而且這些人都在Google總部。"瞭解Google排序算法的人確實不多,但能接觸到代碼的人也不算太少,我就曾是其中一名。說全部瞭解的人可能不用說20個,連10個人都不到。主要是因為隨著時間的推移,算法已經變得特別複雜。比如我知道主幹算法和一些重要模塊/特徵是怎麼計算的,但另外一些就只知道原理和大概架構。另外Larry Page早就不算在懂Google排序算法的人裡了。搜索排序這塊(Google內部叫Search Quality)的掌舵人是Amit Singhal,Google僅有的三個Fellow之一(另外兩位是赫赫有名的架構大牛Jeff Dean和Sanjay Ghemawat,就不多說了)。

其實Google的排序算法,跟微軟Yahoo的主要區別就在於,Google的主幹算法是經驗模型,許多基礎參數和算式是拍腦子決定的(是的,特別是早期,許多基礎參數是拍Amit的腦子決定的);而微軟、Yahoo是機器學習模型。兩者各有利弊,這裡就不展開了。但在特徵的抽取和選擇上,都採用了大量的機器學習方法。百度的則不清楚。

【岳寶的回答(1票)】:

谷歌以前主要以PageRank算法,網頁引用數計算網頁的權威度。現在chrome使用率越來越高,貌似現在把用戶的點擊量作為另一個標準。google每年算法就變幾十次,估計都是小的改動。

至於百度的就不知道了,沒公開過。

【賴冬林的回答(0票)】:

不懂搜索,參考下

en.wikipedia.org/wiki?

李彥宏的RankDex專利

google.com/patents

【谷健民的回答(2票)】:

百度嘛,也有難處,在天朝這個神奇的國度,也沒法子,g.cn就是先例,google可以撤出中國,百度撤出中國那還有啥,不過baidu那個競價排名 太噁心人,什麼雜七雜八廣告都有,而且和自然排名在一起,google不是沒有競價排名,一般他都會打上廣告便簽,一眼就知道那個是競價排名那個是自然排名。

google以前核心算法是RP(PageRank)值,但現在google更新算法很瀕繁,PR值現在越來越不重要,現在一般的SEO都不看什麼PR值的,因為那東西幾乎沒用。具體核心算法是什麼,除非你是google算法規定人,不然只有猜。網站機構合理,關鍵詞密度正常,有些相關度很高的外鏈,網站內容充實新穎,就基本行了,還有google最近更新算法對新的東西排名會很靠前,所以,親,記得更新網站哦。

標籤:-算法 -谷歌-(Google) -百度 -谷歌中國 -蘇冉旭


相關資源:





給我留言