本文作者从了解搜索产品经理的目的出发,对搜索引擎的发展进行了梳理分析。希望通过此文能够加深你对搜索产品的认识。
最近和百度大搜的产品同学交流他的工作,交流之后,自我觉察到我对该岗位的工作认知仍不够系统,当然,对一个工作岗位的认知也不是三言两语,1个小时的沟通就能了解透彻的。
我尝试在网络上找一些资料,但发现,网络上很少有系统化讲解这一岗位的文章。本着罗老师在2020年时间的朋友里面讲到的「躬身入局」的精神,我尝试查阅了一些枯燥无味的书籍以及文献,并将其整理如下,与大家分享。
一、互联网的发展
在讨论如何成为搜索产品经理之前,我们需要了解搜索引擎的发展。想要了解搜索引擎的发展,我们先将时间轴拉回20世纪90年代,回顾互联网的发展。
20世纪90年代,技术与产品的发展,为互联网的快速普及和发展做好了准备。
1.1 技术上的发展
1991年,Tim Berners-Lee(蒂姆·伯纳斯-李、万维网的发明者)将超文本的概念引入互联网,同时推出www雏形、配套的HTTP传输协议以及相应的Web服务技术
我来解释一下,蒂姆·伯纳斯-李做出这些发明,意味着什么。
1.1.1 超文本概念
超文本(Hypertext)简单来说是一种可以显示在电脑显示器或其他电子设备的文字,其中的文字包含了可以链接到其他字段或文档的超链接,允许从当前阅读位置直接切换到超链接所指向的文字。
从其技术上来说,超文本是指使用超文本标记语言(HTML, Hyper Text Markup Language)编辑包含标记指令的文本文件,通过资源定位符(URL, United Resource Location )指向其他内容,在不同的文档或同一文档的不同部分质检建立联系。使得使用者可以通过一个网址访问不同网址的文件。
1.1.2 万维网
万维网WWW(World Wide Web)是一个通过互联网访问的,由许多互相链接的超文本组成的系统。是一个大规模的联机式的信息储藏所,英文简称Web。万维网用链接的方法能方便地从互联网的一个站点访问另一个站点,从而主动地按需获取丰富的信息。
5个万维网站点
上图画了5 个万维网的站点,它们可以远隔数千里,但都必需连接在互联网上。每一个万维网站点都保存了许多文档。这些文档之间通过链接(link),有时候也被称为超链接(hyperlink)的方式彼此相连。可以通过这个文档链接到相隔很远的另一个文档,经过一定的时延,我们的屏幕上就可以将远方发送过来的文档显示出来。
万维网的出现使得网站数按指数增长,所以万维网的出现可以说是互联网发展中的一个里程碑。
1.1.3 HTTP传输协议
HTTP协议是Hyper Text Transfer Protocal(超文本传输协议)的缩写,是用于从万维网服务器传输超文本到本地浏览器的传送协议。
1.2 产品上的发展
1993年,第一个图形浏览器mosaic诞生,网页浏览客户端趋于成熟。
Mosaic是第一个可以在同一个窗口显示文本和图片的浏览器。
MOSAIC
由于上述技术与产品的发展,互联网的用户群体也发生了变化,从开始的军队和高等科研院校,普及到了普通个人用户。扩大的用户群,为互联网的商业化奠定了基础。
二、搜索引擎的发展
综合因素,导致互联网上的信息产生爆炸式增长。如何从海量信息中找到满足用户需求的信息,成为重点。
技术与产品的发展,降低了人们发布信息的门槛,同时,由于用户群体的扩增,网络上产生了大量的信息。
为了满足用户从海量信息中找到所需信息的诉求,一系列搜索引擎商业公司开始建立。比如yahoo、InfoSeek、Fast Search等
搜索引擎是对Internet上的信息资源进行搜集整理,然后供用户查询的系统。包含信息采集、信息整理、与用户查询3个部分。
2.1 目录搜索引擎
目录搜索引擎是指搜索引擎的信息采集方式,也是搜索引擎的搜索方法。
目录搜索把搜集到的信息资源按照一定的主题分门别类,建立多级目录结构。大目录下面包含子目录,子目录下面又包含子目录。依次原则建立多层具有包含关系的目录。用户查找信息时,采取逐层浏览打开目录,逐步细化,就可以查到所需信息。
目录搜索引擎中,需要以人工方式采集信息,编辑人员对信息进行查看,形成信息摘要,然后将信息放置在对应的分类结构中。
2.1.1 雅虎
Yahoo是当时著名的搜索和门户网站。yahoo的目录搜索引擎。
例如,中文雅虎网站的目录搜索引擎:
如果我们要在其中查找关于著名作家金庸的网页,可以逐步搜索“艺术与人文” | “人文” | “文学” | “文学类别” | “小说” | “武侠” | “作者” | “金庸”,即可实现目的。
2.1.2 常用的中文目录型搜索引擎
- 搜狐
- 网易
- 新浪
目录搜索引擎的利与弊:
- 利:由于加入了人工的因素,因此信息准确、导航质量高。
- 弊:需要人工介入,维护量大,信息量少,信息更新不够及时。
2.2 搜索引擎技术的发展
随着信息进一步快速发展,信息呈现爆发式增长,目录搜索引擎的弊端显现,不能好地满足用户需求。
在目录型搜索引擎技术发展之后,出现了不同的搜索引擎技术:
- 文本检索
- 链接分析
- 用户中心
在这不做详细阐述。
三、搜索引擎的目标
搜索引擎的应用形式简单:用户输入查询词,搜索引擎返回查询结果。
在这个过程中,只涉及两个主体,用户与搜索引擎。
搜索引擎的目标是提供更全、更准、更快的搜索服务。
在上面的3个目标中,更准是最关键的。
四、搜索引擎的3个核心问题
在我们来分析搜索引擎的3个核心问题之前,我们先来看一下单个搜索的简单流程:
4.1 用户需求
根据上图,当用户输入查询词,搜索引擎需要返回查询结果。这个过程,我们可以将其视作一次人机互动。
人机互动,即人与计算机的互动,第一步是获取用户的意图。
对于搜索引擎来说,这也是非常重要的。只有获取了用户的真正意图,后续的信息-意图匹配才能展开。
用户的意图到底是什么?
- 不同的用户,输入搜索框的同一个查询词,有可能背后的意图是不一样的。
- 同一个用户,输入搜索框同一个查询词,也有可能因为其所处场景不同,其意图也是不一样的。
如何识别上述的差异。这也是搜索系统需要解决的第一个核心问题,即此时此刻,用户的真实搜索意图是什么?
4.2 与用户需求相关的信息
明确了用户查询的真实意图后,搜索系统需要从海量的信息中,找到能够匹配用户需求的内容。
搜索系统为用户搜索意图匹配关键信息方式的指导思想,还是基于关键词的匹配。
当算法系统搜索到包含与用户查询词相同的的网页,这便是搜索到的信息可能是用户想要查找的内容相关的最基本信号。如果是网页或者文本的标题出现了这些关键字,则表示该信息与用户想要查找的内容相关的可能性更大。
4.3 分辨出可信赖的信息
搜索的本质是找到满足用户需求的信息。
相关性是衡量信息是否满足用户需求的一个指标,信息的可靠性,同样也是衡量搜索系统质量的重要指标。
「成为搜索产品经理」我会将其做为一个系列来写,从互联网的发展开始,抽丝剥茧,将我所了解的与大家分享,也期待能与大家讨论,共同进步。
本篇是「成为搜索产品经理」的第一篇,后续我会陆续更新~
#参考资料#
1. Tim Berners-Lee 谈网络的未来
2. ~[https://en.wikipedia.org/wiki/Mosaic_(web_browser)](https://en.wikipedia.org/wiki/Mosaic_(web_browser))~
3. Internet应用基础教程 | 尤晓东
4. 信息检索 | 陈雅芝
5. 这就是搜索引擎核心技术详解
6. 超文本传输协议HTTP https://blog.csdn.net/codejas/article/details/79002339
7. Google 搜索 | 搜索算法的工作方式
本文素材来自互联网