首页
港粤资本
投研信息
项目介绍
港粤活动
联系我们
加入港粤

港粤观察 | 数据标注赛道研究分析

2019-06-05

  无“師”胜有师

港粤资本

专注新技术应用场景的中早期投资

旗下直投基金、跟投基金、产投基金

布局结合人工智能及大数据的创新性项目

重点关注教育、医疗、金融产业的创新公司

培育行业领军者

极速BP通道:bp@ifsc-gd.com

全文字数:  7010

阅读时间:   22分钟

本文作者:   港粤资本–李川东

摘要:数据标注在人工智能整个产业架构中属于基础层上游,任何的AI算法模型都需要标定的数据样本“喂养”,才能做到真正智能。文章通过溯源数据标注行业的发展历程,分析现有数据标注公司的业务模式、战略规划、融资历史,比较相互之间的不同,以及探讨数据标注公司自建数据库,搭建核心算法的必要性出发,拓展到从投资人的角度观察数据标注行业的未来走向和退出渠道畅想。

随着互联网、大数据、云计算、物联网及深度神经网络的不断向纵深发展,人们对人工智能研究的关注热度也在持续上升,并有不少的公司成功地将人工智能技术在具体的场景中进行商业化落地,由此在安防、无人驾驶、智能音箱、AI教育、AI金融、AI医疗等领域诞生了不少的独角兽。

赛道背景

纵观人工智能的发展,目前,中国已经成为全球人工智能领域的重要一极,在全球人工智能研究领域中,华人已经占到了一半的比重。根据清华大学《中国人工智能发展报告2018》,全球人工智能产业规模在2018年已达2700亿。到2020年,中国的人工智能市场规模将接近1000亿。

随着人工智能的发展,数据标注需求也在与日俱增。因为数据标注在人工智能整个产业架构中属于基础层上游,任何AI算法模型都需要大量的数据“喂养”,数据对于AI公司来说,就像人的一日三餐一样不可缺少,基本可以说“无数据不智能”。

数据来源:中国信通院、中商产业研究院整理

而数据是怎么才能做到像人的思维一样智能呢,那就离不开大量的数据标注,也就是把数据的某些方面的特征框定出来,告诉数据在什么场景下,什么是有效的,怎样可以达到某种目的。

比如一辆车在路上行驶,我们可以通过激光雷达数据进行画框,并分析其特征加以一个定义,然后数据就有了这些标识,下次再遇到同样特征的车辆,机器就可以像人一样自动识别出来,从而做到像人一样智能。

发展历程

追溯数据标注的发展历史,可发现20世纪80年代就出现了像欣博友这样的公司,早期的数据处理公司更像是一个“录入公司”,即将纸质的内容进行电子化,这是一个劳动密集型的工作,需要很大的人力投入。

之后诞生了海天瑞声这样做语音数据标注的公司,它通过自建语音库建立自己在行业的壁垒,并且自研了很多算法模型,在最大程度上地替代人工。同时存在的还有像数据堂这样以数据交易为核心业务的公司。

2015年前后,随着人工智能公司的快速发展,数据标注和采集需求逐渐旺盛起来,数据标注市场也逐渐趋于成熟,产生了不同梯度的公司,他们作为智能的赋能者,进入到日益扩大的数据标注市场,为估值超10亿美金的AI独角兽服务,教能够改变世界的人工智能产品进行学习。

行业现状

在当下算法基本都是开源的情况下,AI建模的门槛就变得很低,而数据则成为了人工智能公司最核心的竞争力。据了解,AI公司每年投入20%-30%的经费用于数据标注,随着AI公司的数量逐日增加,数据标注市场达到了300亿元左右的规模。

其中,有一部分是AI公司内部的标注部门之间消化的,但是公司自建标注团队,将会产生巨大的成本,并且对于较大数量级的数据,公司一般难以全部都自己处理,这时就会外包给专门做数据标注的第三方公司。这类型公司就提供定制化数据采集、数据标注等服务,满足相关的数据需求。

标注流程

数据标注和采集流程大致如下:

当公司接到数据标注订单后,根据具体的数据标注需求调配和研发相应的标注模块,然后进行试标,并尝试总结规则和做相关培训。

做完了这两方面的工作,公司会向需求方报价,报价过程中,数据标注公司回去准备相关应标材料或者应答材料。

中标之后,数据标注公司开始传输数据到平台上,开始配置生产和标注任务。数据标注业务的配置是一个复杂的数学模型,比如,有些任务需要串并联的工作流,并联的工作流是多人协同的工作,串联的工作流是后一个结果是基于前一个结果进行处理的。

串并联的工作流需要平台来实现业务工作流的配置,比如一些NLP型的文本标注作业,需要多个人来标,最后N选一或者投票。

在标注过程中,质量的协同管理和绩效的统计非常关键,平台需及时统计到每个人的准确率、稳定性以及效率。

标注完了之后,客户验收前,采标公司还需要抽检。

最后,公司按照与客户约定的格式进行交付。

赛道标杆

下面我们分析了市场上已经初具规模的数据标注公司,帮助我们理解整个数据标注市场发展到什么阶段,现在各轮融资情况如何,在市场上的战略定位如何。

海天瑞声

海天瑞声是一家人工智能数据资源及相关数据服务提供商,为用户提供大规模工程化的数据资源、以及数据采集制作、数据深度加工、数据分析处理等服务,覆盖语音合成、语音识别、机器翻译、网络搜索、自然语言理解、图像识别等人机交互技术领域。

主要提供数据采集和标注:包括语音数据采集、文本数据采集、多语种词典制作、图形图像数据采集、音频视频数据采集;语音数据转写和标注、文本数据标注、图像数据标注、网页搜索及相关标注、视频数据标注等服务。

公司现已具备全球化的业务支持与交付能力,产品线已包含全球 130 余个主要语种及方言,是我国智能语音产业中市场份额前十名的企业,在行业中处于领导地位。

其产品和服务已获得阿里、腾讯、百度、微软、三星、科大讯飞、 海康威视等客户的认可,广泛应用于其研发的个人助手、语音导航、搜索服务、机器翻译、智能音箱等多种人工智能产品中。

目前公司客户累计数量近 400 家,基本覆盖了主要的大型科技公司、人工智能企业及科研机构。

海天瑞声融资历史:

爱数智慧

爱数智慧致力于为语音识别和人工智能领域的客户提供全方位的数据采集、制作、设计、计算服务。服务主要分为语音数据、文本数据和图像数据3个领域。

Ø  语音数据领域的服务主要为语音标注和各类数据采集等;

Ø  文本数据领域的服务包括内容爬取、清洗、主要句法标注、事件标注和实体标注等;

Ø  图像数据领域主要针对人脸特征标注;

其中语音标注是最核心的业务。并且爱数也在布局储备行业数据库,目前积累的数据库已包含家居命令控制语音数据库、中文电话自然对话语料库、中国成人英语语料库、中国儿童英语语料库和人脸识别数据库。

创始人张晴晴2005年就加入中国科学院声学研究所,专注于研究语音识别领域。曾为百度、腾讯、阿里、360、UCweb、蚂蚁金服等各大互联网公司搭建语音识别的baseline声学建模系统,其在语音识别领域有十几年的研究和工作经验,团队内核心成员也大多语音技术出身。在声学领域深耕多年,现已具有一定的技术优势。

爱数智慧融资历史:

星尘数据

星尘数据通过算法、模型进行机器标注,为人工智能企业提供人工智能数据众包服务,同时提供人脸、无人车、图片边缘、图片识别、图片主题提取和声音转文字等多种模型的标注服务。

旗下打造了一个机器学习训练AI数据的服务平台,通过“准入考核”、“动态测量”、“动态发题”、“人机结合”等标注方法,对各个环节进行严格管控。

技术上,星尘数据有几十类工具模板以满足常见的机器学习的数据标注、收集的工作,包括图像、视频、音频以及数据收集等。

星尘的标注工具易用性更佳,而不是直接用开源或AI公司提供的工具,并且星尘用深度学习的模型辅助标注,已经可以做到对100多种物体识别标注,从而减少人的工作量。

星尘数据目前有涉及到无人车、安防、人脸识别、在线教育、电商、图片收集、音频收集等行业,服务客户已经有几十家了,其中包括百度、小米、京东等头部大厂。

值得一提的是,百度无人车Apollo的外形数据标注就是由星尘数据提供的。星尘创始团队核心成员均来自于硅谷、世界银行、CMU、清华、MIT、百度等公司,长期从事数据分析和建模工作,所以核心算法的技术实力很强。

星尘数据融资历史:

倍赛数据

BasicFinder(倍赛)也是一个人工智能数据供应商,提供包括众包采集数据、清洗数据、结构化标记数据以及模型训练数据服务。

通过服务数百家客户积累了自动驾驶、人脸安防、智能家居等领域近千个标注案例,并以丰富的数据服务经验为基础,打磨了一套高效的数据加工及管理平台,其包括任务分配、人员设置、模板自定义、AI数据预标注处理、数据加工、数据质检、数据修改、接口匹配、任务交付等多个流程模块,以满足AI企业对数据加工泛化性和安全性的需求。

从倍赛BasicFinder的产品基因上来看,倍赛的工具偏向于团队模式的管理工具,而不是众包模式。

2018年12月,倍赛并购了欣博友,欣博友是一家运营了30年的北京数据处理公司。倍赛不断地对技术进行迭代升级,它的每个工具、快捷键、每个设置的优化,都是在具体的数据标注中磨合起来的,所以在工具优化方面做得很扎实。

同时倍赛还在积极拓展产能,目前,倍赛BasicFinder又拓展了将近3000多个人的子工厂。2018年9月,倍赛BasicFinder收购丁火智能100%股权。丁火智能旗下“荟萃APP”已积累数十万活跃众包用户,以此丰富自主数据采集系统,从而完成更具多样性的任务。

倍赛数据融资历史:

Testin云测

Testin云测成立于2011年,以App兼容性测试作为切入点,进入企业服务,后衍生出功能测试、自动化测试、安全测试、性能测试等服务,成为一站式测试平台。

2017年,Testin云测积累了大量客户,一些AI公司找到云测,希望通过云测的众测平台做数据采集标注,这是Testin云测数据标注业务的起点。

Testin云测的数据标注业务做得很重,比如除了众包采集外,还会做定制化场景采集,甚至和横店影视基地合作,利用横店群演资源,搭建专属场景,完成客户的定制化场景采集。

在标注方面,Testin云测又自建标注基地,与房山市政府合作用于数据标注。Testin云测坚持以用户需求为导向,通过工具研发驱动保障标注的效率、精度,以及安全性。并通过项目管理、风控管理等方式,确保标注精度达到客户标准,以满足客户对于准确度的要求。

现已有与招商银行、平安保险、可口可乐、麦当劳等行业巨头合作的案例。

Testin云测融资历史:

龙猫数据

龙猫数据是一家专业的人工智能数据服务提供商,致力于提供人工智能大数据采集、数据标注、数据提取、数据校验、数据清洗、线上众包等服务,服务领域涵盖图像、语音、文本、视频四个方面。
 
可进行文本标注、音频清洗、图片筛选、网页清洗/对比、O2O标注/对比等数据标注。还提供文本提取、图片采集、图片内容提取、音视频采集、O2O信息采集等数据定制化采集服务。
 
龙猫数据平台上现已积累上百万用户数据,可以为各种企业、商家提供数据采集、数据标注及其他各种定制化服务。
 
现有合作伙伴包括:量子互助、翼支付、去哪儿、陆金所、高德地图、百度钱包、依依短租、银联钱包、中国平安、网易游戏、杭州银行、百度众测、海尔等公司。

龙猫数据融资历史:

数据堂

数据堂成立于2011年,专注于人工智能数据采集、标注、私有化定制服务,总部位于北京,在南京、镇江、天津、保定等地设有多个专业数据处理中心,并在北美硅谷设立了美国子公司。

数据堂通过“数加加”平台连接客户,为客户提供数据的采集和标注服务,服务的领域包括生物认证、语音识别、无人驾驶、智能家居、智能制造、新零售、智能交通、智能安防等。

数据堂的数据采集范围遍及全球30多个国家,合作伙伴遍布世界10多个国家,已成功为国内外多家企业提供数据定制服务,包括百度,腾讯,阿里巴巴、奇虎360、联想、科大讯飞等国内顶级互联网和高科技企业,以及Microsoft、NEC、Canon、Intel、Samsung、Fujitsu等企业及在华研发机构。

数据堂融资历史:

核心三问

标注公司核心竞争力是什么?

可见数据标注是一个相对繁琐且具有一定专业性的工作,为了降低标注成本,现在很多新的数据标注公司就用算法模型来替代部分人工标注,然后再由人工进行质检,复核,完成机器所不能完成的部分标注工作。

这类型以算法自动标注为核心竞争力的公司有像海天瑞声、爱数智慧、星尘数据这样的,他们分别擅长于语音、声学、和无人车领域,专做相关领域的数据标注,这样用技术建立行业壁垒,扩宽自己的护城河,可以想象这种以技术驱动的公司将会更加具有市场竞争力。

因为我们有一个共识就是:未来标注公司的核心竞争力是机器替代人工的比例更大,公司有自己核心的标注技术,使得标注更加地精准,这样就能有效地降低人力成本,同时能有效缩短标注时间,做到真正的精准、低成本、高效。

当然还有具有一定的核心标注技术,但是没有深耕某一领域,技术壁垒不会那么高的像Basicfinder倍赛、Testin云测的,它们利用平台工具为需要做数据标注的公司服务。

Testin云测坚持做好“人员+工具”,不做算法,它们只负责完成企业的数据标注需求,在完成了交付之后,就彻底清除客户数据,平台不留痕,注重客户的数据的保密。

倍赛Basic Finder也避免直接建模,而是给客户提供一套底层工具,让客户自己去建模。具体的做法是自主研发了私有化标注系统及主流的深度学习框架,统一封装进倍赛的AI基础系统Basic AI,实现AI数据及模型的整个生命周期管理。客户在倍赛标注数据,数据流到建模平台,客户在Tensorflow里调整部分参数,模型就出来了。

还有像龙猫数据、数据堂这样核心算法不是很强,通过平台工具,完成数据的采集,标注等工作。它们没有自己的标注团队,工具偏向众包模式,模式相对传统,运营起来也会相应地较重,它们需要有大量的数据众包公司来完成数据的采集、标注等各个环节的工作,这种工作具有较大的重复性,就像富士康一样进行流水线式的数据标注,在河南、东南亚国家就有大量的这样的公司。

机器标注可以替代人工吗?

我们不得不承认,机器只能部分替代人工,在基础性、重复性的人工操作部分可能会逐渐被机器取代,所以数据标注不会完全脱离劳动密集型。

一方面,现有的机器不可能完全实现自动化标注,所谓的无监督和弱监督形成的数据标注结果,其性能相对较差,而人工标注的数据,其精准度则可以达到99%以上。

但是在当下AI模型对数据采标的复杂度和精细度要求也越来越高的情况下。比如说,现在做一个人脸拉框,人脸的拉框精度要求在五像素以内,又或是整批数据精确度需在97%或者99%以上。

所以我觉得还是要有足够的技术优势,才能更加具有竞争力,从海天瑞声、爱数智慧、星尘数据等具有代表性的技术为核心驱动的公司这几年的发展可以验证,海天瑞声18年有1.92亿的营收,17年有1.2亿的营收,可见核心算法的搭建,将增强自己的核心竞争力,极大地降低人力成本。

这也是AI数据标注公司未来发展的方向和我们考察项目的价值导向。

所以对于倍赛数据、Testin云测、龙猫数据、数据堂等第二梯队公司来说,他们的战略定位是不研究核心算法,而是以客户需求为第一要义。

但是想要在未来竞争中保持一定的优势,我觉得他们还是需要不断进行技术迭代,需要想清楚在行业竞争加剧的这个过程中如何突破自我,不断创新,走出自己的舒适区。

是否要自建数据库?

通过比较数据标注行业内各个梯度的公司,我们看到有些公司注重自身数据库的建立,有些坚决不做数据留痕。

这也引发了我们的思考,自建数据库有必要吗?

现在比较多的标注公司没有自己的数据库,仅仅是处理别人提供的数据,根据业务要求进行数据标注。而一梯度的公司正在寻求自身数据库的建立,花费了大量的人力物力,觉得数据只有掌握在自己手里才有了核心竞争力。

就跟贸易战中的华为和中兴,一旦美国停止供应芯片给中兴,中兴的全线业务近乎于瘫痪,而华为掌握了核心的技术,有强大的自主研发能力,在中美贸易摩擦中就有自主话语权和足够的市场议价能力。

个人观点觉得自建数据库还是有一定必要的,这样才会形成一个“数据漏斗”,不断地有新数据沉淀进来,这样的公司未来才会更加有价值。就像BAT、  今日头条、网易等互联网公司,掌握了大量的用户数据之后,在市场上就建立了足够高的壁垒,业务也可以延展到很多的行业,发展成一个巨大的生态。

总结

未来必定是属于智能化的时代,更多的人力将会解放出来,届时不光AI公司需要数据标注,传统公司的AI需求也会不断地增大。用人工智能去优化自己的产业发展,减少不必要的人员消耗,提高生产力,这都是传统行业未来必经的发展之路,这也会给数据标注市场带来巨大的发展。

掌握了核心算法模型的公司,用机器替代人工的比例越高,公司的核心竞争力才会更强,像商汤科技、旷视科技做模型研发的AI公司估值不断地被刷新,融资金额也是一轮比一轮更高就是最好的佐证。

在现阶段的AI应用研发,数据标注是一个必不可缺的环节,并且在未来很长的一段时间内,都需要标注数据来实现机器智能。所以数据标注也会变得更加地智能,这就需要标注公司自身算法模型具有足够的优势。

数据标注行业是一个具有很大前景的新兴行业。随着人工智能不断向前发展,数据标注市场将会更加广阔。但从数据服务本身来讲,客户永远希望用最小的成本获得更高质量的数据。

所以怎么做到数据标注成本低、数据标注精度高、所需耗费的时间少将是竞争中胜出的另一关键因素。

同时我们也观察到数据标注公司要想做大做强,具有足够的市场占有率,光有很强的技术,却没有好的市场拓展能力,或将成为数据标注公司的新短板。

现阶段,大多数据标注公司的产品和商业模式已基本经过市场的验证。他们需要通过放大商务杠杆扩大产品的覆盖范围。特别是2B的企业,渠道开发的周期比较长,并且市场上同类产品的可选择性比较多,这就需要创始团队的业务拓展能力。

所以一个项目,其核心团队成员架构比较完整,将会是一个很大的加分项。

数据标注本身的技术壁垒不会特别高,算法模型的搭建也不会特别难,所以在未来市场竞争者越来越多的情况下,这些数据标注公司是否还能保持自己的优势,是否能在激烈的竞争中不断扩大市场份额这是又一个有待考量的问题。

VC投资比较重要的一环是投后退出,投资这类型的数据标注公司我们该怎么退出呢?

4月9日晚间,上海证券交易所披露,新增受理北京海天瑞声科技股份有限公司科创板发行上市申请。现在科创板开通了,这给了人工智能数据标注公司新的想象空间,像第一梯度海天瑞声正在寻求科创板上市。

它的核心技术是否能满足科创板要求,最终是否能上市成功,将会给我们对于这个赛道的判断提供一定的参考价值。并且在语音标注领域已经有一家头部公司了,是否后来者还会有足够的机会,即这个市场是否足够大,能诞生多少家独角兽,或者在其他领域也能跑出几家头部公司,这是我们可以去判断和思考的。

港粤资本秉承以技术驱动产业升级的投资理念,现在及以后都将深耕人工智能领域,持续关注AI+教育、AI+医疗、AI+金融等相关行业。

基于底层的人工智能数据标注也是我们近期较为关注的话题,如果您有好的Idea,或者好的项目,欢迎与我们联系,我们期待与您同行,共同探讨未来行业发展及潜在的机遇。

往期精彩回顾:

1

港粤观察 | 光学字符识别(OCR)在教育领域的应用及其技术原理

2

港粤观察 | 互联网下新型的职业教育分析

3

港粤观察 | NLP在教育行业的应用场景

港粤资本成立于2014年,是一家专注新技术应用场景的中早期投资的投资机构。公司于2015年开始布局STEAM教育赛道,成功投资搭搭乐乐、麦高创想家、盛思科教等创客教育项目,也成功投资阳阳魔法学院、AI音乐学院、凯瑞宝贝等线上线下教育项目。投资项目中已有多个实现退出,并取得可观的投资回报。目前重点关注新技术、尤其人工智能在教育、医疗、金融等领域的应用项目。如果您是人工智能及大数据领域的优秀创业团队,欢迎联系我们港粤资本的投资经理,期待合作,共同成长。

李川东

投资经理

微信号:L966688

港粤资本

无“師”胜有师

 

本篇文章来源于微信公众号:%港粤资本%

相关推荐

港粤活动丨癌症早筛–万亿级风口
2020-06-06
港粤观察 | 政策对医药投资的影响
2019-10-17
港粤观察 | 职业教育之会计行业研究
2019-09-06

深圳市福田保税区桃花路1号创业中心3B1-06

网站备案号:粤ICP备18126401号-1

返回顶部