Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 3|回復: 0

已知语言的其他页

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-5-6 11:41:12 | 顯示全部樓層 |閱讀模式
此外,搜索引擎还可能寻找其他线索来确定页面的语言,例如页面的域是否使用特定的顶级国家/地区代码。例如,具有“.es”域的网站是西班牙语网站,并且假定使用西班牙语。 虽然该专利采用了识别此类特征的方法,但它还使用了一种文本分析方法,将页面上的文本划分为 n 元语法,或者将“n”个单词进行分组,看起来他们正在使用它。在该专利中,提出了三个词。 因此,当该系统检查此页面以确定使用哪种语言时,它首先查看此页面的第一行,然后将其分解为 n 元语法,即 3 个单词的长度。


我们来试试吧。将第一行分为三个单词可以得出: 已经 有 很多 新闻的 新闻 观点 新闻观点文章 观点文章和 将此 n-gram 与面进行比较,以识别我的页面(或至少页面的一部分)为英语。顺便说一句,应该指出的是, Google Books N-Gram Viewer也在与该语言检测方法中使用的数据位置 欧洲手机号码列表 类似的位置中实现。 n-gram 方法已被用于各种应用中,正如Google Research 博客文章“ All your N-grams are yours ”中所述: 在 Google Research,我将 n-gram 模型用于各种研发项目,包括统计机器翻译、温泉识别、拼写纠正、实体检测和信息收集。







使用文档分类器识别网络垃圾邮件 文档级分类器不必使用 n-gram 方法来识别网络垃圾邮件页面,尽管可以使用这种方法。谷歌去年八月获得的专利采用了 n 元语法方法来识别页面。我在Google 如何使用分类和点击数据来打击网络垃圾邮件中讨论了这一点。 搜索引擎如何识别网络垃圾内容包含在Google 关于网络垃圾内容、门页和操纵性文章的专利中。该专利列出了页面如何成为网页的示例。让我们举个例子: 文档的文本看起来像普通语言还是计算机生成的语言?例如,一个案例可能包含大量关键字,但找不到任何句子。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇

GMT+8, 2024-11-29 05:48 , Processed in 0.061481 second(s), 18 queries .

抗攻擊 by GameHost X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |