第八届数字中国建设峰会于4月29日至30日在福建福州举行。本届峰会聚焦突破数据领域堵点难点问题,围绕如何进一步实现数据要素市场化价值化,如何进一步丰富并用好已有工具箱为数据“供得出、流得动、用得好、保安全”架桥、铺路、筑基,如何推动数字化全面赋能经济社会发展等展开。峰会期间,中国电信推出星海·多模态数据智能标注平台和多模态数据治理工具链,推进高质量数据集和数据安全流通利用,助力数据产业发展。
数据产业规模扩展
与生态完善并进
数据是数字经济发展的关键生产要素,是国家基础性战略性资源,是发展新质生产力的重要基础。当前,我国数据产业已进入高速发展的黄金期,政策驱动、技术创新与市场需求共同推动其成为经济增长的新引擎。国家数据局数据显示,2024年,全国数据市场交易规模超1600亿元,同比增长30%以上。其中,场内市场数据交易规模同比实现翻番。
数据标注产业发展也取得了阶段性成果。我国七个基地的数据标注规模达17282TB,形成医疗、工业、教育等行业的高质量数据集335个,赋能星火通用、数字大脑等121个大模型研发,带动数据标注相关产值83亿元。
以中国电信为代表的通信运营商,依托“云网数智安”一体化优势,已建成覆盖全国的7大数据标注基地,形成“算力+平台+场景”的生态闭环。自2024年5月数据标注基地城市名单公布以来,中国电信积极支撑国家数据局及地方数据局开展数据标注产业建设,已同四川成都、辽宁沈阳、河北保定三个数据局签订关于数据标注基地建设的战略合作协议。依托“云网数智安”一体化优势,聚焦数据标注、数据服务、人工智能、可信数据空间等领域,助力打造国家级数据标注试点基地。在四川成都新津区,中国电信联合地方政府打造国家级数据标注基地,双方围绕五大核心领域展开深度合作,包括共建高质量数据集生产基地、开展可信数据空间试点、推动智能标注平台应用、培育标注产业人才队伍以及孵化数据标注上下游产业。这种“政府引导+央企主导+生态协同”的模式,正在沈阳、保定等基地复制推广,形成区域数据要素流通枢纽。
高质量数据集
是技术创新燃料
高质量数据集是人工智能发展的基石,其价值不仅在于技术突破,更在于推动社会经济的全面数字化转型。
中国电信四川公司与成都市国家数据标注基地牧山园区合作,从地方应用痛点出发,利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型。支撑落地政务服务热线、医疗问诊、文化导引、助农直播等场景,真正“听懂”群众需要,提升座席人员工作效率超20%,该项目入选GSMA全球移动通信系统协会运营商实践AI大模型赋能垂直行业标杆案例。
依托方言数据集建设经验,基地将以打造云贵川渝西南语言共同体为目标,深入解析藏、彝等多民族语言的文化特性,为构建民族语音数据集、服务少数民族生活需要继续发力。本次大会,中国电信将升级发布多方言超拟人语音生成大模型和民族语音识别大模型,实现首个支持国内多个地市方言和主要少数民族语言以及维藏精准语音识别。
凭借海量数据资源和自主可控技术优势,中国电信形成了多模态数据智能标注能力,全力推进成都、沈阳、保定等国家数据标注基地建设和人工智能产业发展。在海峡会展中心3号馆,中国电信展区展出了星海·多模态数据智能标注平台,集成了50余种数据标注工具,以大模型自动预标注技术提升标注效率17倍,复杂任务一致性突破95%。支持3D点云、4D时空数据的秒级精度标注,AI辅助效率提升3倍。通过4D全模态标注,实现时序和空间联合标注,可精准捕捉车辆运动轨迹、行人行为、道路环境变化等动态目标,标注精度提高45%,显著提升自动驾驶感知系统的训练效率与可靠性。
同时中国电信在自身数智化转型的基础上,攻克了一大批技术难题,携手华为推出的星海·可信计算一体机,首创后量子隐私计算技术,支持百亿级数据实时处理,通过软硬一体设计实现高性能,兼容高速数据网、安全计算执行器和可信数据空间连接器。
产业协同推进数据标注合规
数据标注作为生成式AI的“第一道安全阀”,其合规性决定着数据要素流通的根基。中国电信构建的实践值得借鉴。
技术合规,构建可信数据空间。
通过融合量子加密、区块链技术,打造“蓉数公园·新津节点”,实现数据标注全流程可追溯。在四川方言数据集建设中,采用隐私计算技术对10万小时通话录音进行脱敏处理,确保原始数据“可用不可见”。
应用合规,筑牢安全防护屏障。
推出的“大模型多方隐私计算训练平台”创新性地融合“弹性调度+隐私安全”技术架构,支持至少3种分布式优化聚合算法,可灵活适配10余方参与的大规模隐私协同训练。目前,已成功应用于卫健医疗模型训练场景,在保障各医疗机构数据“不出域”的前提下,实现跨区域、多中心的医疗诊断数据联合建模,显著提升疾病早期筛查与影像分析的准确率。
生态合作,培育协同发展格局。
中国电信以星海·数据要素服务平台为着力点,支撑全国7省+30地市级公共数据要素运营,联合整数智能、路米科技等10余家中小企业,构建数据标注、人才培训、智能服务等生态合作圈,开放电信技术平台及工具链能力,扶持中小企业发展。联合上海库帕思、中文在线等10余家数商企业,打造语料共建共享生态联盟,促进跨领域跨行业数据集进一步开放。打造星海企业级可信数据空间,即星海数据开源社区,提供一体化数据治理、模型训练等供需,促进上下游企业共建共用。
(图片来源:摄图网)
0 条