Cathy's blog

  • Home

  • Tags

  • Categories

  • Archives

  • favorite

  • About

用强化学习的思维设计产品

Posted on 2019-04-20 In AI & 产品 Views: Valine: 1.2k

本文的将简单介绍一下强化学习,然后简单描述强化学习如何应用到产品设计中,欢迎大家一起来讨论。
此文并非是完整的一个方法论中的一部分,只是偶然间与人讨论,脑海中迸发出的一丝灵光。

强化学习

考虑到看到这篇文章的,可能极少有人工智能相关经验的朋友,我们就尽量简单的描述一下强化学习的概念。

强化学习强调如何基于环境而行动,以取得最大化的预期利益。其思想源于行为心理学的研究,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

强化学习的关键点是:environment,reward,action 和 state,强化学习是一个流程的不断循环往复,这个流程简单描述如下:某一个Agent感知到了,在基于某个Environment下的state,于是做出了某个Action,Environment对这个Action有了reward【可正可负】,于是state变了,那么新的Action又会被产生,被奖励,不断循环。

(示例:强化学习流程)

强化学习介绍到这里就可以了,接下来,这种强化学习的思想如何应用到产品当中。

设计产品

作为一个PM,在设计产品的时候,我们不能仅仅停留在设计功能的层面,还需要思考对整体系统的效益。今天主要讲一些思维,不讲功能设计。

不论我们设计一个C端的产品还是B端的产品,我们的用户角色或者说用户分类是有多种的,如我们所知的,不同的用户群的诉求不一样,不同角色的利益点不一样。那么如何通过设计产品的方式,充分的调动他们的积极性,通过用户本身的行为,打造一个高效率的体系呢?

把我们的产品变成一个Environment,根据每一个Agent(用户)的行为,给予他们正负的反馈。在设计中,这里的难点,在于如何设计奖惩体系。这里的关键点是两个,Action 和 Reward。

就奖惩而言,在奖惩体系中,可以有奖有罚,也可以只有奖/罚。奖惩本身也分成两类,一种物质上的(更多的钱、更快的速度、更多的信息量等),一种精神上的(名声、证书等),大家使用的时候可根据本公司本产品的实际情况做一下取舍。
你所奖赏的,需要与产品定位公司定位息息相关,举例假设一下电商平台,主要想卖一些有品质、小而美的商品,但却给销量高的做了奖赏,这是不合理的,销量高的商品,不一定符合产品本身的定位,这个时候,好评率反而比销量更合适。当然这是简化的版本,实际中的设计远比这复杂许多。因此我们在设计时,一定要紧扣产品定位,哪些东西是我们提倡的,哪些东西是触碰到我们的底线的,这些要非常清晰。

当一个用户的行为触发了一个reward,那么在大量的用户大量的操作下,平台上的数据就会积累起来,形成一个正向循环。好的信息(产品/内容等)吸引到了极佳的用户,这群用户吸引到了相关的优秀的B端合作,不断循环,保证信息的高质量。
本篇文章到这里就结束啦,感谢大家的阅读。

# 产品设计 # 强化学习
关于产品模块化的思考
推荐系统简介
  • Table of Contents
  • Overview

Cathy

14 posts
3 categories
22 tags
  1. 1. 强化学习
  2. 2. 设计产品
© 2019 Cathy
Powered by Hexo v3.9.0
|
Theme – NexT.Mist v7.3.0
0%