在 2015 年末,JR Oakes 和他的同事利用机器学习做了一个实验,试图预测某个特定网页的谷歌搜索排名。下面这篇文章是他们的发现,他们希望这些成果能够帮助到 SEO 从业者。
机器学习正在成为许多大公司的重要工具。谷歌的人工智能算法击败围棋冠军和搜索排名算法 RankBrain 的例子都表明,机器学习不再是一个神秘的领域。在数据丰富的行业中,技术总能发挥作用。
机器学习也能够改变传统的网站推广和 SEO。一项实验尝试将机器学习算法应用于预测谷歌对特定网页的排名。实验结果显示,我们成功预测了41%的正确肯定和41%的正确否定。
接下来,我们将介绍实验过程,并讨论对 SEO 很重要的技术问题。
我们的实验
2015 年年末,我们开始关注机器学习及其在处理大数据方面的能力。我们结识了巴西数据科学家 Alejandro Simkievich,他致力于搜索相关性和转化率优化等问题的研究,并准备参加 Kaggle 竞赛。Simkievich是数据科学和机器学习咨询公司 Statec 的创始人,该公司在消费品、汽车、营销和互联网领域拥有众多客户。我们决定合作,尝试使用数据来帮助人们做出 SEO 决策。
我们尝试使用抓取工具、排名追踪、链接工具等数据来预测网页排名。虽然完全准确预测的可能性很低,但我们在机器学习方面取得了一定成功。
数据
机器学习通过采集数据并生成有价值信息来实现。我们收集了大量数据,包括来自 GetStat 和 Majestic 的重要数据集,以及通过网络爬虫获得的其他数据。
机器学习已成为许多大公司不可或缺的工具。每个人都听说过谷歌的人工智能算法击败围棋冠军和类似 RankBrain 的技术,但机器学习不再是神秘的领域。它在处理各种数据的行业中都能发挥作用,给这些行业带来希望。
接下来,我将介绍我们的实验过程,并讨论对于初步理解 SEO 很重要的一些文献和技术。

我们的目标是通过足够的数据成功训练一个模型,因此我们需要大量数据。对于第一个模型,我们有大约20万个观测值和54个属性。
背景知识
大部分机器学习工作都是处理回归、分类和聚类算法。回归算法用于预测数字,而分类算法用于预测类别成员。这两个概念与我们的项目相关。

搞定谷歌排名
我们尝试多种方式来预测每个网页的谷歌排名。最初,我们使用回归算法,但几周后意识到这个任务太困难。我们重新定义问题,尝试预测一个网站在搜索某个词时是否能进前十。
问题转变成了二进制分类问题,我们只有两个分类:网站排在前十或不排在前十。我们决定预测一个网站属于这两类的概率,而不是做出是或否的预测。
为了更明确地做出决策,我们设定了一个阈值来衡量一个网站是否能排在前十。
为了评估算法性能,我们使用混淆矩阵。

理清数据
我们的数据包括大约20万条记录,约2000个关键词/搜索词。这些关键词根据属性分为数字属性、类别变量和文字属性。
- 数字属性表示关键词可以表示任意数字。
- 类别变量表示有限数量的值,每个值代表一个不同的类别。
- 文字属性包括搜索关键词、网站内容、标题、元数据描述等。
特征工程
我们设计了与排名相关的额外属性。
大多数属性是布尔逻辑体系的,但也有一些数值属性。例如,布尔逻辑属性是网站文本中的精确搜索词,而数值属性是被标记的搜索词数量。

运行 TF-IDF算法
我们使用 TF-IDF 算法对文本特征进行预处理。该算法为每个词赋予分数,根据词语在文件中的频率和在语料库中的频率来评估词语重要性。
我们尝试了两种 TF-IDF 方式,得到了略有不同的结果。最后,我们使用降维手段减少属性数量。
模型和集合
在连接所有属性后,我们尝试了多种算法,最有前途的是渐进增长分类器、脊分类器和神经网络。最终,我们使用简单的平均值处理模型结果,因为不同模型有不同的偏差。
优化阈值
最后一步是设定阈值将概率转化为二进制预测。我们通过交叉确认集优化阈值,然后在测试集上使用该阈值。
结果
我们认为混淆矩阵最好地衡量了模型的有效性。在最佳模型中,我们获得了约41%的正确肯定和41%的正确否定。

另一种可视化模型效果的方法是使用特征曲线。XGBoost 是一种非线性模型,对此模型进行了分析,并展示了特征类别对预测的贡献。

我们发现机器学习对 SEO 有着巨大的潜力。在将来,我们希望能够处理更多数据,并改进当前的模型。
机器学习是一个强大的工具,即使你不了解它是如何工作的。对于 SEO,机器学习可能会影响文本生成、用户行为观察和推荐系统等方面。
来自:机器之心
更多阅读:
- 在合适的地方,机器学习带来的将是一场革命
- 亚马逊云服务(AWS)中国宁夏及北京区域正式上线Amazon SageMaker
- Cognizant:聊天机器人在保险业的未来
- BCG:印度食品科技市场报告
- 房地产科技2020:房地产的未来
- 艺术与机器学习
- Kaggle:2017机器学习及数据科学调查
- 关于如何解释机器学习的一些方法
- 从自动驾驶到机器学习:解读2017科技发展的15大趋势
- 从模型选择到超参调整:如何为机器学习项目选择算法
- 机器学习是如何预测《权利的游戏》中的叛徒的
- 福布斯:社交媒体崛起使SEO走向穷途末路
- GP Bullhound:2022年第三季度全球软件报告
- 美国商业专利数据库:2021年美国专利授权量下降7.5%
- PERKINS COIE LLP:2022年新兴科技趋势报告
(adsbygoogle = window.adsbygoogle || []).push({});