Cathy's blog

  • Home

  • Tags

  • Categories

  • Archives

  • favorite

  • About

magi搜索__一个别样的知识搜索引擎

Posted on 2019-11-07 In AI & 产品 Views: Valine: 2.9k

正文:

今日,给大家推荐款知识图谱的搜索引擎,magi搜索(点击访问magi搜索), 接下来我们会通过以下五个部分进行讲述:

  1. 为什么会向大家推荐这款产品?
  2. magi搜索简介
  3. magi核心技术
  4. 创始人NB!
  5. 从个人角度,提出一些建议和意见。
  6. magi对未来的产品,究竟意味着什么?

1. 为什么会想大家推荐这款产品

这个产品是通过微信公众号看到的,看完全文后,就迫不及待的体验产品,并查看了作者相关的博客、知乎等,哇哦,体验下来很牛的样子。
这款产品,除了讨论一下技术层面的厉害之处,创始人令人敬佩之处外,还想再深入的和大家探讨一下关于AI对未来产品的影响。
我也在AI这个行业做产品经理约5年,但真正的,把AI做到如此纯粹的公司也是少数,它的精彩之处,除了产品以外,还启迪了我们对于未来AI产品形态,AI场景的一些思考(小编的心,鸡冻鸡冻)。话不多说,让我们进入正题。

2. magi搜索简介

2.1. magi搜索首页

下图就是首页的截图(小编很想搞一个GIF,可惜还没有学会相关技术,哭哭o(╥﹏╥)o)

输入

经过试验,我们可以输入以下几种内容

  • 关键词,”知识图谱”
  • 问题,”985的学校有哪些”
  • 表达式,”3+5”
其他

我们还可以看到目前magi正在学习的文章标题、链接,以及学习到的内容。将AI过程可视化,让用户真正的信服你的产品,相信技术,真的是AI产品必修的一门课呀

2.2. magi搜索结果页

从页面上看,结果分为4个模块:

  • 搜索框
  • 结构化数据
  • 主要学习来源
  • 相关报道(普通搜索引擎类似)

搜索框以及相关报道,我们其实已经很熟悉了,在其他产品中较为常见,我们主要就结构化数据以及主要学习来源来做一些。
我们可以从下图看到相关的结构化的数据的含义。

这里的所有带颜色框的标签,都是可点的,点进去后会出来,该数据的来源,以及置信度数值,当然此时hover住右端的主要学习来源还是有连线的。

到这里,magi的搜索产品就介绍完了,很简单,就两个页面。其实很明显,这完全就是一个技术驱动的产品,那么我们接下来介绍一下他的一些技术。

3. magi核心

想看更详细的技术解析,大家可以访问面向硬核用户的问题与解答,知乎CEO官方回答,我们呢,就简单的讲讲。
搜索的过程分为以下几步:

  • 意图识别
  • 检索
  • 排序

但我们这一次不讲这三步相关的内容,是不是很惊喜很意外,如果大家感兴趣的话,可以看小编的另一个篇文章,搜索是怎么样的一回事?。我们本次主要讲的是信息抽取的技术。
大家可以看到,搜索页面的结构化数据,和知识图谱是不是很像呀,数据结构都是三元组的形式。目前通常意义上的知识图谱都是全部人工,或者半机器半人工(人工确认)的方式来获取数据的。但是,magi太棒了,它可以通过文章,自动学习实体,以及实体与实体的关系。大家想详细的了解技术,就看一看上面的链接。能做到自动发现,且准确率较高,这本身就是一件很难的事情。
大家可以想象,如果有一天机器把这个世界各个角度,所有发生的事情都理解了一遍,那么它是不是就是某种程度的”上帝”了呢?如果知识图谱可以自动发现并积累各个领域的知识,那么无论是对于Siri、小爱同学,甚至对现有的模型及应用场景都是一个大幅的提升,远超人类也并非不可能。

正如创始人所说,这样其实也会面临以下几个问题:

  • 消歧义的问题,如何把握这个度量,可以较为显著的区分不同含义的同一词组,比如”tesla”是一个人还是一个汽车品牌
  • 工程上,在速度和成本方面还是有提升空间的

那有些朋友会问了:
万一magi去爬了某些质量不高的网站,或者抽取的信息错误怎么办?

  • magi会评估每个来源的网站。为什么不用白名单来解决,因为白名单虽然可以保证质量,却也失去了很多内容。
  • 由于magi每分钟都在学习新的知识,因此,在大量数据的情况下,被抽取错误的信息会慢慢变得正确。

4. 创始人NB

季逸超是北大毕业,Peak Labs创始人,猛犸浏览器,Magi智能搜索引擎的开发者。在19岁时便登上了《福布斯》杂志的封面。(大神就是从小不凡)
Peak Labs,已经获得红杉中国和徐小平创办的真格基金的天使投资。季逸超在自己的微博上说过,这个实验室“要做最狂最新鲜的事”。  

创始人的知乎介绍:

5. 从个人角度,提出一些建议和意见

小编主要是做AI产品的,大部分会从页面上,小部分从算法结果上,给一些小小的建议,。
整体上来看,这是一个很geek的产品,产品设计页面展示上也是如此。

5.1. 页面上

  • 目前置信度是通过颜色来表示的,如果没有人阅读过相关文章的话,很难第一眼就发现颜色的含义。建议:通过引导页,或者直接不用颜色,用文字的方式进行展示区分;
  • 任何标签都是可点击,点击后才知道,可做引导页提示;
  • 属性后的…是可以同时搜索的,输入框的条件以及目前点击的实体的组合,这个一般用户尝试过后才能知道,产品上可做的稍微明显一些;
  • 标签右上方的小绿点,嗯,小编不知道,这个是啥意思,还没理解;
  • 在描述和属性中,我们可以看到很多相关的内容,是否在展示的时候,可以把相关的展示到一个模块,比如上市公司,那就把公司财报相关的数据放一起,目前看起来是有些乱的。根据一些维度进行区分后,不仅仅能解决乱的问题,还可以解决歧义的问题,比如”tesla”享年会和公司明显分区开来。

5.2. 算法结果上

  • 同义词的结果仅展示一次即可。比如特斯拉的描述,”上海有史以来最大的外资制造业项目”和”上海有史以来最大的外商独资制造业项目”;
  • 同义词的实体,比如搜索”特斯拉”,它是一个品牌,一家公司,但对应的实体就是一个,因此只需要出这个的相关信息即可,目前是有”特斯拉”以及”特斯拉公司”,且”特斯拉公司”的数据几乎没什么内容;另外”tesla”与”特斯拉”出来结构化的内容也是不同的;
  • 某些无意义的词语。比如特斯拉的标签”项目”。

5.3. 展望

  • 数据,关系的可视化,更炫酷的页面
  • 更干净,更有层级的数据

6. magi对未来的产品,究竟意味着什么?

让我们从小入手,就从magi的核心,信息抽取来开始讲起。
信息抽取是NLP重要的一个组成部分,是NLP的基础工程。NLP的基础就是文本,我们从最小组合说起,句子。我们来思考下,句子的构成。将实体、关系通过一些助词、语法结构等,组合在一起,就是一个句子。将诸多句子组合在一起,就是段落,于是可称为文章。由此可看出,一句话的核心,就是实体和关系。我们一般通过NER、依存分析等等相关技术,来试图理解每一句话在讲什么意思,究竟是什么意思,有哪些实体,有哪些词语,有哪些关系,这些技术一般都需要人的帮助,且无法适用所有情景。

信息被结构化后,又有什么样的好处呢?
小编目前的领域是在做候选人与职位的匹配,我深刻的从实践中了解到,匹配精准的基础就是对两方的精准理解,当然,如果你的数据量大到不可思议,且分布较为均匀,嗯,当我没说。

  • 为决策提供准确的基础数据,提高匹配的准确性,适用于推荐、匹配;
  • 提高检索的有效性,直击答案,而不用人再次辨别,适用于搜索、对话系统;
  • 可视化AI决策过程,适用于建立AI与人的信任度。

最后,magi技术的突破是否能像Deepmind的强化学习一样,引起AI领域的一阵海啸,我们拭目以待。

# AI产品 # 有趣有实力的产品系列 # 知识图谱 # 搜索引擎
适合AI产品经理阅读的算法集合之朴素贝叶斯
  • Table of Contents
  • Overview

Cathy

14 posts
3 categories
22 tags
  1. 1. 正文:
    1. 1.1. 1. 为什么会想大家推荐这款产品
    2. 1.2. 2. magi搜索简介
      1. 1.2.1. 2.1. magi搜索首页
        1. 1.2.1.1. 输入
        2. 1.2.1.2. 其他
      2. 1.2.2. 2.2. magi搜索结果页
    3. 1.3. 3. magi核心
    4. 1.4. 4. 创始人NB
    5. 1.5. 5. 从个人角度,提出一些建议和意见
      1. 1.5.1. 5.1. 页面上
      2. 1.5.2. 5.2. 算法结果上
      3. 1.5.3. 5.3. 展望
    6. 1.6. 6. magi对未来的产品,究竟意味着什么?
© 2019 Cathy
Powered by Hexo v3.9.0
|
Theme – NexT.Mist v7.3.0
0%