国产精品18久久久久久麻辣,亚洲av无码乱码国产精品,黄黄污污的视频,后入极品黑丝美女骚逼货

“TF-IDF”算法的的概念與網(wǎng)站運用丨經(jīng)驗分享

分享到:
 序多多 ? 2019-08-28 14:59:32 E1099

TF-IDF是一種核算方法,用以評價一字詞關(guān)于一個文件集或一個語料庫中的其間一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎運用,作為文件與用戶查詢之間相關(guān)程度的衡量或評級。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會運用根據(jù)鏈接剖析的評級方法,以確認(rèn)文件在搜尋效果中出現(xiàn)的次序。

“TF-IDF”算法的原理

TFIDF的首要思維是:假設(shè)某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則以為此詞或許短語具有很好的類別差異才干,適宜用來分類。TFIDF實際上是:TF * IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inverse Document Frequency)。TF表明詞條在文檔d中出現(xiàn)的頻率。IDF的首要思維是:假設(shè)包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區(qū)別能力。

假設(shè)某一類文檔C中包含詞條t的文檔數(shù)為m,而其它類包含t的文檔總數(shù)為k,明顯全部包含t的文檔數(shù)n=m+k,當(dāng)m大的時分,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區(qū)別能力不強。

可是實際上,假設(shè)一個詞條在一個類的文檔中頻繁出現(xiàn),則說明該詞條能夠很好代表這個類的文本的特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來作為該類文本的特征詞以區(qū)別與其它類文檔。這就是IDF的不足之處. 在一份給定的文件里,詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。這個數(shù)字是對詞數(shù)(term count)的歸一化,以避免它傾向長的文件。(同一個詞語在長文件里或許會比短文件有更高的詞數(shù),而不管該詞語重要與否。)

“TF-IDF”算法的的概念與網(wǎng)站運用

一、TF詞頻的概念與建議

TF是指詞頻,查詢的關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)核算。相關(guān)文檔是這樣介紹的,假定查詢關(guān)鍵詞在同一個文檔中出現(xiàn)的次數(shù)越多,代表這個關(guān)鍵詞越重要,越能代表文檔的主題意思,文章主題與關(guān)鍵詞意思越接近,那么做怎樣運用這個知識點呢?

假定有一篇文章的標(biāo)題是:“服務(wù)外包”,從字面上了解,文章首要是以服務(wù)為中心,“外包”為拓展詞。假定文章內(nèi)容里服務(wù)出現(xiàn)20次,服務(wù)出現(xiàn)25次,外包出現(xiàn)10次,按照TF詞頻的規(guī)則,那么服務(wù)是文章主題,這個很好理解。

實際上有些時分寫文章時,在意思很清晰的情況下,會省掉主詞。比如服務(wù)外包價格、服務(wù)外包流程、服務(wù)外包公司介紹,會縮寫成:外包價格、外包流程、外包公司介紹。這樣會導(dǎo)致外包出現(xiàn)的次數(shù)大于服務(wù),TF詞頻則會以為外包是主題,出現(xiàn)錯誤的判別。

那既然是這樣,做關(guān)鍵詞布局的時候,應(yīng)該要恰當(dāng)考慮主關(guān)鍵詞的出現(xiàn)頻率大于副詞。當(dāng)然搜索引擎判別網(wǎng)頁主題有許多維度,這兒只是單從TF詞頻的視點考慮,個人以為這樣做會縮短搜索引擎判別網(wǎng)頁主題的時間,對來說是有利的。

第二、怎樣快速了解“IDF逆文檔頻率”

這個概念假設(shè)看文檔的話有點難了解,最初筆者看百度百科好幾次才了解。涉及到雜亂的公式在這兒就不講,結(jié)合TF一起來了解,TF-IDF的意思是,一篇文章中某關(guān)鍵詞出現(xiàn)的次數(shù)越多,且在搜索引擎的資料庫中包含該關(guān)鍵詞文檔數(shù)越少,則說明這個關(guān)鍵詞越能代表此網(wǎng)頁的主題。

舉個比如來說明,假定有一篇文章,有兩個關(guān)鍵詞:“整站營銷”和“服務(wù)”,在文章中,這兩個關(guān)鍵詞出現(xiàn)的資料都是20次,可是在百度的資料庫中,包含整站營銷的文檔總共有一千萬個,包含服務(wù)的文檔有五百萬個,那么則說明,服務(wù)越能代表這文章的意思?;蛟S搜索引擎資料庫中包含關(guān)鍵詞的文檔數(shù)量相同,文章中出現(xiàn)次數(shù)越多的關(guān)鍵詞越能代表網(wǎng)頁主題。

從的層面講,IDF這個值是客觀存在的

不必去深究,只需了解不同關(guān)鍵詞之間的文檔數(shù)多少就行,以百度為例,搜索任何一個關(guān)鍵詞,在搜索框下面會有一個:“百度為您找到相關(guān)效果約XXX個”的這樣句子,里邊的數(shù)值能夠作為文檔數(shù)參閱。每個搜索引擎的包含關(guān)鍵詞的文檔數(shù)或許不相同,可是整體的相對比例值應(yīng)該是差不多的。并且隨著時間的推移,文檔數(shù)也會不斷發(fā)作改變。

注:內(nèi)容源自網(wǎng)絡(luò),僅供分享交流,侵刪。

p0

分享:
標(biāo)簽:

相關(guān)閱讀RELEVANT

w 最新商家帖子 +更多

日韩 欧美一区二区三区| 五月天成人黄色网站观看| 亚洲91av一区二区三区| 欧美一区二区三区五月天| 欧美日本人体艺术色噜噜| 欧美大片大bbb免费看| 啊啊啊好湿啊啊操我视频| 男人插女人下面才爽视频| 欧美激情在线播放16页| 看视频操极品骚逼逼见操| 在线小视频一区| 国产福利小视频尤物98| 最近免费中文字幕大全高清| 捏胸吻胸添奶头gif动态图| av三级片国产精品自拍| 欧美亚洲国产大片在线看| 小说 亚洲 无码 精品| 91久久澡人妻人人做爽| 亚洲第一大偷拍真实网站| 无码国产精品一二区免费| ww久久综合久久久自慰| 日本高清电影免费一区二区| 在线播放69热精品视频| 男同桌上课用手指进去了好爽| 国产骚视频网站| 黑人子宫入侵网| 99九九有精品久久99| av熟妇人妻一区二区三区| 亚洲无人区男男真人视频| 逼逼要插插网站| 久久天天躁狠狠躁夜夜爽| 国产厨房乱子伦午夜视频| 国产精品伦子一区二区三区| 色橹橹欧美在线观看视频高清| 欧美鸡巴操骚逼| 久久丫亚洲国际精品AⅤ| 中文字幕日韩av在线播放| 欧洲怡红院院院首页免费| 中文字幕一区二区5566| 亚洲国产网曝明星赵丽颖| 供人泄欲玩弄的妓女h|