据中国了解,全球机器智能峰会(GMIS 2017),是全球人工智能产业信息服务平台机器之心举办的首届大会,邀请了来自美国、欧洲、加拿大及国内的众多顶级专家参会演讲。本次大会共计 47 位嘉宾、5 个 Session、32 场演讲、4 场圆桌论坛、1 场人机大战,兼顾学界与产业、科技巨头与创业公司,以专业化、全球化的视角为人工智能从业者和爱好者奉上一场机器智能盛宴。
5 月 27 日,机器之心主办的为期两天的全球机器智能峰会(GMIS 2017)在北京 898 创新空间顺利开幕。中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃为本次大会做了开幕式致辞,他表示:「我个人的看法是再过几年,我们 90% 的工作是人工智能提供的,就像我们今天大部分工作是机器提供的一样。我们知道人工智能会给我们提供一个更美好的未来。」大会第一天重要嘉宾「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与峰会,并在主题演讲、圆桌论坛等互动形式下,从科学家、企业家、技术专家的视角,解读人工智能的未来发展。
上午,第四范式创始人戴文渊发表了主题为《构建 AI 商业大脑》的演讲,他探讨分享了如何使机器学习的过程变得更简单,如何使企业在降低成本的同时,拥有 AI 的能力。以下是该演讲的主要内容:
如今,一些大型企业已经获得 AI 能力,甚至已经享受 AI 带来的红利,但更多的企业在思考:他们如何拥有 AI 的能力。而这么多纷繁复杂的信息,有那么多算法,技术,我应该如何选择?今天我将会在这方面进行分享。
生物智能我们相对容易理解,我们评判一个生物智能的高低,是看它的脑细胞有多少,比如人的脑细胞比狗要多,大家会觉得人比狗聪明,而狗的脑细胞比昆虫多,大家会觉得狗比昆虫聪明。
机器是怎么回事呢?统计学家早就给我们奠定了机器的理论,叫 VC 维理论,为什么叫 VC 维?因为这两个科学家一个姓 V,一个是姓 C,取他们的首字母,就叫 VC 维。
VC 维理论的结论是这样:一个模型的维度越高,能力就越强,我们甚至发现,VC 维可以用来解释生物智能,比如,人的大脑 VC 维大概等于脑细胞的个数,在 VC 维理论下,我们可以把人的智能和机器的智能进行对比,最后达到比较的方式。
在这种情况下,我们发现人和机器可以类比。人最高的智慧在哪儿?在于我们对社会、对自然界经验的提炼,比方牛顿三大定律。如果让机器做牛顿的工作,应该如何做?机器可以去记录大量物理学的自然现象的数据,让机器去读数据,按照不同的速度区间总结不同的规律,甚至总结出可能三千万,乃至更多的定律。如此一来,我们可能并不需要牛顿。
如今,业务专家在设计营销、金融、风控,医疗各个领域的业务规律。但在各行各业,机器都有可能超越人。我 2009 年加入百度,百度的广告是一个利润丰厚的业务,百度的广告不是 AI 做的,而由业务专家制定规则,他们制定了将近一万条规则。我们基于百度的数据,当年写出一千万条规则,比业务专家多出了将近一千倍,当年提升了 40%。后来我们逐渐加码,2013 年把整个规则数写到了一千亿条以上。2009 年-2013 年,百度的广告利润提升了八倍。
我们把这个方法论应用到不同的行业,包括金融的实时反欺诈。过去,比较好的反欺诈系统也能写出一千多条规则,我们能够很轻易的基于目前的交易以及投诉的数据能够写到 25 亿条以上。再比如个性化的内容分发,过去,编辑最多写几十、上百条的规则,用机器人则能写出十亿条以上的规则。
机器比人有更强的精力,能写出更细的规则,因而它能做得更好更精细。如果你能用机器基于数据写出超过一千万条规则,VC 维超过一千万,人基本上没有办法跟机器抗衡了。这就是机器为什么能在各个领域打败人的原因。
但机器超越人,有一定前提条件,这是因为做出好的 AI Model 有前提条件。我们总结五个要素,它们分别是大数据、外部的反馈、算法的能力、计算的能力、商业需求的带动。
第一,大数据。并不是有数据就行,而是有意义的大数据,比如过程数据。举个例子,我们学习围棋,去看围棋手的等级和排名、围棋赛事的报道,是学不会的。只有把别人下的棋一盘一盘看完,才能够每日精进。那么,我们如何去搜集这种过程数据呢?通常我们会对客户提供一个服务,这个服务可能收到正反馈,也可能收到负反馈,我们把这个过程收集下来。具体来说,对于在线广告,我们有一个搜索,搜索以后给他推出广告,用户点击是正反馈,没有点击则是负反馈;对于个性化推荐、访问,我们提供推荐,用户接受是正反馈,不接受是负反馈。对于反欺诈,我们提供授权,用户投诉,是正反馈,没有投诉,说明授权是对的,是负反馈。最后我们要做好的 AI 模型,而这通常需要一千万以上的过程数据。一千万以上,我们就有机会制作比资深的业务专家更好的模型。这不仅是有经验的支撑,也有理论的支撑。通俗地讲,一个模型的规则数,模型的 VC 维,要和数据量匹配,要做到一千万以上的维度才能够打败人,这就需要一千万以上的样本,一千万以上的过程数据。
第二,反馈,反馈非常重要。例如搜索的点击,推荐的接受,反欺诈的投诉,这样的反馈对优化模型是非常重要的。在推荐领域,今日头条、快手这些风头正健的应用,和上一代推荐系统最大的不同是什么?
过去的推荐,是推荐相关内容,强调推荐结果的相关性,但机器不知道什么是相关与不相关。现在,我们把相关数字化了,不再强调一定要解决相关性,而是解决点击率、阅读的时长、转发、收藏、投诉,这些能被数字度量,机器能理解,不断去优化。优化的过程,需要建立一个持续不断的数字化的闭环的反馈,因为世界变化太快,如果不能持续不断地反馈,很快就会落伍。
第三,算法。最直接的办法是雇佣厉害的算法科学家,但这是非常稀缺的人才。
早期我们在 BAT 做 AI 应用,我们需要搭建上百人以上 AI 的科学家团队,因为有太多事情要做,机器学习、算法,几十项,甚至更多。但科学家太稀缺了,因此科学家必须把这些能力封装在平台内。我们希望一个业务人员,再加上有一定数据思维基础,经过平台培养一两个月的数据工程师,就能达到过去算法科学家的效果。
因此,我们需要做很多工作,比如,需要做支持万亿级别特征量的机器模型的学习,但现在主流的深度学习模型是万级别左右的输入,对于多媒体来说,这不是太大问题。因为他们我们面对的是图像,只要考虑像素内的问题。但对于企业经营,我们遇到几百张,上千张表的时候,如果只能支持万级别的变量,首先就会丢数据。我们从 2013 年开始,不断设计更宽的模型。我们 2013 年设计出的模型,Google 在去年也发表了类似的论文。现在我们也在发展更好的算法,比如,Deep Sparse Model。
第四,降门槛,机器学习很大的门槛,在于要做数据清洗,特征变换,归一化,特征组合,离散化这些特征工程,这对科学家来说是基本功,但对 App 的开发人员来说,门槛太高。因此需要使这些事情自动化,所以我们在用不一样的方法,比如线性分型的算法,用分型技术让线性的模型做更好的特征工程。用 TreeNet 算法,数和网络结合的算法,让我们更自动地去做特征工程,希望把门槛降低。
我们内部找公司内的普通员工做测试,比如行政、HR,财务、销售等,让他们用我们新的不需要做特征工程的算法,去解决我们客户的问题。发现他们能接受这样的机器学习,因为这是把数据放到算法里跑一跑,出来一个模型,上线去应用,很多都能理解。但他们不能理解,特征变换、离散化、特征组合是什么。他们只要不做这些,他们就能做机器学习。
测试结果发现,70% 的普通员工都能达到我们公司的算法科学家,用开源工具做出来的效果。这是很大的进步,因为为整个领域增加了大量的 AI 开发者。
第五,Inferential,因为 AI 不是简单问题。在 PB 级大数据情况下,如果超过 20 台机器,不在一个机柜,任意两台机器不能假设他们的传输速度是一样的;如果超过 100 台机器,不能假设跑完所有程序的时候,你的机器每次跑代码的时候,都会宕机,超过一千台机器,甚至任务分配都会非常不均衡,有的机器是空闲的,有的机器会很忙,这些都是需要解决的。
我们也在设计为机器学习设计的算法框架,原来我们认为,分布式框架已经很成熟,但对机器学习来说,分布式框架的差距是很大的。虽然数据量的增加,是平方级性能的开销,但我们一定要降到随着数据量的增加,线性的开销。
最后,我们把它们封装到一个平台,让机器学习变得简单。
现在,我们做不到通用人工智能,我们所有的人工智能只能是解决单一领域的事情,需要有单一的,清晰的目标,有边界的目标。而通用人工智能是在有边界的人工智能应用数量极大丰富时,才会做到的。我们现在要解决的所有问题,是解决一个又一个有边界的单一目标的人工智能的问题。
概括来说,构建商业 AI 的能力,对于将 AI 用来提升业绩的商业公司来说,最重要的就是 VC 维。企业要不断努力,提升企业模型的 VC 维,VC 维越大,企业的竞争力就会越强,AI 的能力就会越强。
支撑企业的 VC 维几大要素是:前提条件,就是大数据外部反馈,算法,计算资源和需求。我们把首字母拼起来,正好就是 BRAIN,很有意思。过去,我们构建 AI 的 BRAIN,需要做很多工作。当我们定义了商业的问题以后,我们需要从收集数据、标定、数据分组、评价标准、特征,进行模型训练,再到最后形成解决方案,需要庞大的团队,至少几十人做大半年才能完成。今天,我们把整个过程变得简单,中间都由平台来解决,今天我们在做的先知平台,希望帮助每一家企业更简单地获得 AI 的能力,不需要招聘大量的科学家和架构师。