算法、算力和数据共同构成了AI产业链技术发展的三大核心要素。在人工智能行业发展进程中,有监督的深度学习算法是推动人工智能技术取得突破性发展的关键技术理论,而大量训练数据的支撑则是有监督的深度学习算法实现的基础,高质量、大规模、多样性的AI训练数据集已成为算法模型发展和演进的“燃料”。
算法模型从技术理论到应用实践的落地过程皆依赖于大量的训练数据,2012-2016年期间,人工智能行业不断优化算法增加深度神经网络层级,利用大量的AI训练数据集提高算法精准性,ImageNet数据集的超过1,400万张训练图片和1,000余种分类便在其中起到重要作用。
然而,从自然数据源简单收集取得的原料数据并不能直接用于有监督的深度学习算法训练,必须经过专业化的采集、加工,形成相应的工程化AI训练数据集后才能供深度学习算法等训练使用。目前,应用有监督学习的算法对于AI训练数据集的需求远大于现有的标注效率和投入预算,基础数据服务将持续释放其对于算法模型的基础支撑价值。
AI产业对AI训练数据集的持续性需求一直存在
AI产业对训练数据的需求主要来源于成熟算法模型的拓展性需求和新生算法模型的前瞻性需求。在成熟的拓展性需求方面,MckinseyGlobalInstitute的研究报告表明:
深度学习模型对训练数据的数据量、多样性和更新速度方面提出较高要求。为充分发挥技术潜能,深度学习模型需要海量且涵盖图像、视频及语音在内等多种类型的训练数据进行模型训练。此外,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新,因此,算法模型所使用的训练数据亦需要定期更新。具体而言,约1/3的算法模型每月至少更新一次,约1/4的算法模型每日至少更新一次,算法模型持续更新的特点将进一步拓展各领域AI训练数据集的需求空间。
而在新生的前瞻性需求方面,随着人工智能商业化进程的演进,新兴应用场景如智联网AIoT、AIPaaS、产业互联网等将展现出巨大的发展潜力,并逐步促进AI技术和算法模型的优化和创新。因此,在创新应用场景和新型算法的带动下,具有前瞻性的训练数据产品和高定制化的AI训练数据集服务需求将逐步成为主流。
标贝科技基础数据服务行业深耕多年,始终秉承基础研究与实际应用紧密结合的原则,持续开展基础研发等研究创新工作。https://www.data-baker.com