【猎云网(微信:ilieyun)北京】1月5日报道(文/马丽)
Tractica预测,2024年人工智能市场规模将增长至111亿美元。但AI要真正发挥作用,数据这个被称为人工智能支柱的之一的“燃料”必不可少,但是我们都知道,不是任何数据都可以随便使用,机器学习使用的数据质量要求比较高。因此,对于数据的加工处理成为了新的机会点,一些数据采集、数据标注的企业应势而起。
恰同学CEO王青春抓住了这个机会,在2016年2月成立AI数据服务公司,致力于为AI及大数据领域公司提供数据采集、数据标注等定制化数据解决方案。
王青春是一位连续创业者,虽然本科毕业不久,但是已经有6年的创业经验。他从大一就开始创业,在校期间参与创立了两家公司,一家电商公司和一家互联网公司。在一次开展项目时发现数据处理行业的商机,转让了之前的公司全力开始运作新事业。
事实上,数据标注并不算一个完全新兴的产业。目前这个赛道上,有成立较久的有“海天瑞声” 、“数据堂”,早期公司有获得明势资本Pre-A轮融资的“爱数智慧”,完成天使轮融资的“泛涵科技”,猎云网此前报道过的BasicFinder等企业。
恰同学的定位是一家AI数据服务平台,目前主要的业务是提供数据采集、数据标注,数据包集合涵盖图像、语音、文本、视频四个方面。数据解决方案可广泛应用于计算机视觉、语音、智能驾驶、智能安防、电商、交通、智能医疗、教育等十多个细分领域。
王青春举例告诉猎云网(微信:ilieyun)数据加工的过程:我们会把数据任务智能化分配到数据车间,比如人脸的数据我们会分发给做过人脸识别项目数据的车间,语音我们就发给专门处理语音的工厂,数据处理操作员在后台进行操作,同时相关质检人员也在后台及时监控这些数据任务,看看数据是否合格,是否要及时返工,最后保证输出一批对机器学习来讲比较干净、有效的数据进行训练。
对于一些涉密性较强的数据,恰同学目前使用的是客户提供的标注平台,数据存储客户的服务器和数据库中。目前公司已于百度、face++、声智科技、飞搜等十多家人工智能和大数据等领域公司已建立长期合作。
王青春告诉猎云网(微信:ilieyun):目前这个行业的主要痛点一是对客户来说,个性化需求强,并且客户的产品/业务研发具有阶段性特点,自行加工处理数据成本较大;二是行业准入门槛低,但是规模化运作技术门槛较高。
恰同学有较为成熟的标注团队,从最前端的任务定义、采集数据,到中间的清洗、加工,以及后端的质量检测、训练迭代等全部环节分开作业,线上线下的总共有两千位标注员。
为了保证数据质量,对于没有任何数据标注经验的大量的兼职员工通过先培训,后上岗的模式。培训完成测试,测试合格后才可以上岗。
王青春认为:数据处理这个行业的准入门槛虽然比较低,但是规模化运作和认知门槛的要求较高,这是一个需要大量人力资源的行业,恰同学是较早一批去做数据处理的团队,目前已经完成两百个种类的项目,数据标注处理的经验比较丰富。
对于数据加工类企业来说,有两个核心必须要把握:一个是数据的质量,一个是标注效率。虽然每天会有大量的数据产生,但处理效率是非常低的,用传统纯人工的方式来做数据会限制整个系统的发展和更新,而对于机器来说,处理一个和处理一百万个是一模一样的动作,机器能帮助人来调整一些明显的错误,提高平台上数据制作人员的技能水平,保证数据质量。
据了解,恰同学团队目前共有40余人,兼职人员有两千多人,全职团队成员承担项目分发、数据质量把控以及精细化标注的工作。关于数据处理后台,恰同学正在组建技术团队用于自主研发数据标注平台,计划2018 年中上线。
目前融资正在开放接洽中,融资主要用于投入技术研发、市场渠道推广以及数据制作方面。
产品:AI数据定制解决方案
公司:天津恰同学科技有限公司
网址:www.qtxdata.com