【猎云网(微信号:ilieyun)】4月13日报道(编译:堆堆)
编者注:本文由Instacart负责数据科学的副总裁Jeremy Stanley以及技术顾问兼LinkedIn前数据主管Daniel Tunkelang合作完成。
很难想象,“数据科学家” 直到2008年才成为了一个真正意义上的职位头衔。为了迎合市场对分析、工程学和产品这种跨学科技能人才的需求,Facebook的Jeff Hammerbacher和LinkedIn的DJ Patil创造了“数据科学”这个概念。如今,市场上企业对于数据科学家的需求不断增加,还有越来越多的公司想要更好地了解打造数据科学团队的方式。
在数据科学领域,我们见到过不同行业里处于不同发展阶段的公司失败或成功的案例。我们意识到,想要成功打造科学团队,不仅仅在于要招募到顶尖的数据科学家,还要充分利用这样的人才优势并在竞争日益激烈的大环境下留住人才。
在本文中,我们将为创始人们总结一些建立数学科学团队的建议。我们会向大家解释为什么数学科学对于许多初创公司而言至关重要?公司该何时开始投资这一领域?又该将数字科学团队置于何种位置?如何打造能让数据科学不断发展的企业文化?
首先,打造数据科学团队,你想要达成什么目的?
数据科学有两个重要却分工明确的功能:改善用户使用的产品以及完善企业决策。
数据产品利用数据科学和工程学来改善产品性能,通常是为企业提供更好的搜索结果、建议或自动化决策。
决策科学是利用数据来分析企业指标——比如说成长率、用户融合度、盈利增长点以及用户反馈——从而制定策略并且提供关键业务的决策。
这两者之间的区别非常明显,在打造数学科学团队的过程中,创始人们必须牢记这一区别。接下来,就让我们具体了解一下这两个领域。
利用数字科学来开发更好的产品
数据产品利用数据科学来改善产品性能。他们依靠的是这样一个良性循环:收集用户使用数据,并将这些数据作为算法素材,再相应地为用户提供更好的使用体验。
那么收集数据之前是怎么样的?产品的第一个版本需要解决数据科学中一个叫做“冷启动”的问题——它需要提供一个“足够好”的使用体验,并以此启动“数据搜集到数据驱动产品改善”这个良性循环,而如何制定这个足够好的解决方案,则取决于产品经理和工程师。
为了提升产品性能,数据科学家必须与工程师保持密切合作。你还要明确的是,数据科学家是需要自己完成还是需要与工程师一起完成产品改进任务。你可以采取任意一种方法,但正式确定任务负责人并在企业内部达成共识这一点非常重要,否则那些才华横溢的数据科学家会因为感到一事无成或是被轻视了而选择离开你的公司。
利用数据科学来做出更好的决策
决策科学利用数据分析和可视化来为业务和产品决策提供支持。决策者可以是企业内任何的一个人。他/她可以是决定产品蓝图优先级的产品经理,也可以是决定公司战略计划的管理团队。
决策科学问题的涉及范围很广,但它们往往有一些共性。它们是公司之前从未需要解决过的新问题。它们的主观性极强,通常需要数据科学家来解决未知变量和背景缺失的问题。它们非常复杂,许多内容都缺少明确的因果关系。与此同时,决策科学的问题却非常显著且具有影响力,因而决策带来的结果对于企业而言非常重要。
在LinkedIn,管理团队就曾利用决策科学做出了一个关键的企业决策,该决策关乎到搜索结果中会员资料的可视性。之前是只有付费用户才可以在他们的三度网络里看到完整的资料内容。可视性的规则非常复杂,而LinkedIn则想要简化这些规则,当然,绝对不会是以牺牲自己收入的方式。此举带来的风险是巨大的。
后来他们提出了一种可视性模型:限制非付费用户每月查看资料的数量,公司将根据使用率来设定限制标准。LinkedIn的数据科学家利用历史行为来预测此次变动对于收入和用户融合度的影响。分析会根据一个模型上推断出过去的行为,并在另一个截然不同的模型上预测行为。最终分析结果证明,此举是明智的。
LinkedIn的规则变动不但对企业有利,还使得数百万用户免去了产品开发过程中规则复杂带来的烦恼。多亏了决策科学带来的分析和预测,此次项目大获成功。
然而,并非所有的决策都需要决策科学。利用决策科学来为小决策服务纯属浪费钱,至于一些比较重要的决策,企业也许缺乏相关数据来完成分析。这种情况下,企业需要依靠自己的直觉和实验。优秀的决策科学家都清楚地知道哪些问题上是自己力所不能及的,哪些问题上是纯属浪费精力的。
尽管决策科学和数据产品需要的是同样的技巧,但鲜有数据科学家两者都精通。决策科学依靠的是业务和产品判断力、系统思考以及出色的沟通能力;数据开发则需要的是机器学习知识以及产品级别的工程学技能。如果你的数据科学团队较小,那么你需要找到那些精通两者的精英。但当你扩大队伍规模的时候,你将因为招募到精通其中一种领域的专业化人才而受益。
你应该投资数据科学吗?
数据科学不一定适合所有人。如果它对你企业的成功至关重要,你才会想要进行投资。否则,那就是浪费时间和精力。
在你决定投资打造一支数据科学团队之前,你应该先问自己以下四个问题:
1.你是致力于利用数据科学来为战略决策或产品开发服务的吗?
如果不是,那就不用雇佣数据科学家了。雇佣合适的人需要花时间,而让数据科学家了解你的业务和数据同样需要花时间。
数据产品可以优化功能、提高产品的实用性,从而为企业创造价值并且满足用户的需求。如果上述功能出现在你的产品蓝图上,那么你应该在早期就开始招募数据科学家,这将为你以后的成功做好铺垫。数据科学家可以做出关于产品设计、数据收集、系统架构方面的决策,而这些决策对于开发出色的产品来说必不可少。
2.你能够收集你需要的数据然后依照数据做出改变吗?
创始人工程师可以根据较少的产品和设计指导创造出最小可行性产品,而数据科学需要大量测试而得的数据。推荐系统靠的是测试产品来追踪用户行为,而优化业务决策则取决于关键活动和输出的细致测量。
但光是收集数据还是不够的。只有当数据驱使企业做出行动时,数据科学的作用才会体现出来。数据需要促进产品的更新换代,还要推动企业的关键绩效指标上升,否则数据就是一堆没用的数字而已。
因此,你需要在全公司范围内明确每一种产品需要收集的数据类型,同时建立起收集和维护数据的基础架构和流程。要想顺利完成这一点,数据科学家、工程师以及产品经理需要通力协作,当然相应的管理层也需要给予支持。
与此类似,数据指导下的决策需要一个自上而下的支持。从首席执行官往下,企业决策必须依靠数据而不是依靠高层个人的观点。
3.数据里有足够的讯号能让你获得有实用的见解吗?
许多人认为大数据就是数据科学,但数量并不代表所有事情。数据科学能让你从数据中分离出有用的讯号。
可获取的讯号不但取决于数据量的大小,还取决于讯号与噪音的比例(这里噪音指的是那些无用的数据)。庞大的数据量只能产生很小一部分真正有用的信息。
4.你需要数据科学成为你的核心竞争力吗?你可以将其外包出去吗?
打造数据科学团队很难且代价很高。如果你可以将数据科学任务外包给别人,那这样也不失为一个明智的选择。你可以选择咨询顾问,当然更好的办法是利用现有的方案通过应用程序编程接口来获取数据、建立模型、自动化处理业务并汇报关键分析结果。也许这不是为你量身定制的解决方案,但这至少可以加速业务流程,保证核心团队专注于为公司带来最多价值的工作上。相对而言,这一点妥协也是值得的。
何时你需要将数据科学成为公司的核心竞争力呢?如果它解决的问题对于公司的成功至关重要,那你就不能将该任务外包出去。此外,现有的解决方案往往非常死板,如果你的公司需要一个独特的方法来解决问题,那现有的解决方案就很难满足你的要求了。
上图为Jeremy Stanley 在位于旧金山的 Instacart 总部
你该从什么时候开始呢?
数据科学需要大量数据进行分析,而大多数公司刚开始并没有足够多的数据。
当你需要数据科学团队执行一项任务的时候,你再着手招募数据主管或者建立团队。与此同时,你需要尽早收集数据,这样当你准备完毕后,团队就可以完成任务了。
如果你还没有数据,那么谁该负责决定搜集什么样的数据以及何时搜集数据呢?这个负责人不一定要是数据科学家,但最好是能理解不同数据组潜力并能够做出数据投资战略决策的人。如果你已经知道自己需要花费很多时间和精力收集数据,那这时你就应该拿出一部分资金去招募一个数据科学家了。
有可能你会立即需要数据,因为你的业务就是提供数据产品。但更有可能你的最小可行化产品是不需要数据来驱动的。这时候你就可以依靠直觉来看市场对此的反馈。在这种情况下,预先投资数据收集和数据科学领域将会耗费你宝贵的资金和时间。你应该将这些资金和时间用于推广你的最小可行化产品。
当你数据充足,并准备好用产品、工程以及业务资源来支持数据科学工作了,这时你就该尽快开始建立团队了。
尽早在企业内营造一种重视数据的文化。业务决策(包括收购以及产品推出)应该以数据为基础而不是个体的观点。
不要匆忙进行人才招募,因为过早建立团队的代价极高,它会消磨人才的动力并且产生负面的文化影响。
如果要提出一个最重要的建议的话,那就是:在你确定了自己的最小可行化产品之后,你就可以考虑投资数据科学了。
数据科学应该被置于公司的什么位置?
将数据科学置于企业结构中哪一个位置,这一点对于团队、对于你的目标达成以及业务的成功至关重要。通常我们有三种方法:独立型团队、嵌入型团队以及整合型团队。每一种方法都各有利弊。
独立型团队
在独立型模式中,你的数据科学团队是和工程团队并列存在的。团队主管也是公司的关键领导之一,通常是向产品主管或工程主管——甚至是向首席执行官直接汇报。
独立型模式的优势之一就是它的自主权。这类型的数据科学可以自主选择他们认为最具价值的问题来解决。它还有一个象征性的优势,那就是:它的存在表明公司将数据作为一级资产,这一理念将帮助团队吸引到世界顶尖的人才。
独立型模式特别适合决策科学团队。虽然决策科学家是与产品团队密切合作的,但是这样的独立性可以帮助他们做出一些艰难的决策。决策科学家们还受益于交叉影响,交叉影响不但能帮助他们更好地理解不同产品的指标是如何相互影响的,还能分享到更多实验与数据分析方面的知识。
自主权的缺点就是被边缘化的风险。随着公司产品团队逐渐扩大,他们更倾向于一种“自给自足”的状态——即不希望依靠他们无法掌控的资源。他们想要靠自己,甚至是以“研究工程师”这样的名义招募自己的数据科学家。如果产品团队拒绝合作,那么数据科学团队就会被边缘化,无法创造价值。
嵌入型团队
在嵌入型模式中,数据团队招募到人才之后会将他们分配到公司不同的部门。他们仍有一个数据科学主管,但他/她大多是招聘经理或是指导员。
嵌入型模式恰好与独立型模式相反:为了确保实用性,该模式舍弃了自主权。最好的情况是数据科学家加入最需要他们服务的产品团队,然后解决企业遇到的一系列问题。
嵌入型模式的缺点是并非所有的数据科学家都欣然同意放弃自主权。事实上,很多人都不愿意这样。数据科学家的职位介绍里强调创造力和主动性,而嵌入型角色则通常需要他们服从团队的领导。
这种模式也存在一类风险,那就是,作为嵌入型团队的成员,数据科学家团队会感觉自己像是二等公民。产品领导者认为自己无需对他们的发展以及工作满意度负责,而数据科学主管也认为他们的工作不归自己管理。许多公司都采用了嵌入型模式,但此方法只适用于拥有庞大数据科学团队的公司。
完全整合型团队
整合型模式中,根本不存在单独的数据科学团队。事实上,产品团队需要自己去招募并管理自己的数据科学家。
整合型模式能优化企业内部合作。将数据科学家当作是产品团队的一等成员,这样可以解决独立型和嵌入型模式带来的弊端。当数据科学家、软件工程师、设计师以及产品经理为了同一个目标努力时,还有利于集体意识的形成。
整合型模式的缺点就是它稀释了数据科学的身份。单个数据科学家只能与所属产品团队联系在一起,而无法形成一个集中的数据科学团队。同时你还失去了嵌入型模式的灵活性。你很难根据每个数据科学家的技能和兴趣来将其置于合适的位置。此外,整合型模式还给数据科学家的职业发展带来了挑战,因为整合型团队的经理无法准确评估他们的价值和成果。
每一个模式都各有利弊。你需要明确哪一种模式最适合你的企业结构,然后根据需求的变化来调整自己的模式。有时候最好的办法不是采用某一种单一的模式,而且混合型模式。
上图为Daniel Tunkelang在家办公
如何打造一个尊重和重视数据科学的公司文化?
当你的企业逐渐扩大,你就不可避免地想要招募更多的数据科学家。尽早建立一个重视数据科学的文化会让你受益匪浅。
很多公司声称自己是数据驱动型企业,他们收集了大量数据并且投资数据工程,然而最后却功亏一篑。
行动胜于雄辩。只有当企业是基于数据来做决策的时候,数据科学才能发挥最大的价值。
数据科学家和其它人一样,也希望自己的工作得到别人的认可和赞扬。做到这一点,数据科学家就能够保持动力去解决一些难题并且保证他们的解决方案是可以衡量的。
评价数据科学家对团队的贡献是很困难的——特别是当团队是整合型模式时。这就需要数据科学团队的主管保持影响力,同时高层主管也要时常去了解数据科学家做出的贡献。
如果数据科学家不和产品经理、工程师和设计师紧密合作的话,他们将无法开发出出色的产品。如果领导和经营者不重视他们的观点,他们的建议将永远不会对产品产生影响。
如果你建立的团队来自不同的背景、拥有不同的技能组合以及不同的观点,那么他们的影响将会更大。
最后,尽早专注于招募那些与企业理念契合的数据科学家。要想保证工作的高效,团队、产品用户以及决策者就必须信任数据科学家。当你构建团队的时候,招募并奖赏那些认同企业价值观的人。他们的影响是巨大的,无论如何,他们的决策都将影响到企业未来的发展。