半岛彩票3月29日下午,2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会在亦庄举办。北京金控集团董事长、北京国际大数据交易所(以下简称“北数所”)董事长范文仲在发布会上发言指出,当前,我国人工智能的发展需要突破两大瓶颈问题,一是缺乏高质量的训练数据,二是缺乏满足智能运算要求的算力。
他表示,从数据来看,人工智能大模型的训练越来越依赖高质量数据集的提供。企业要发展人工智能技术,往往缺乏数量足够大、合法合规、可用度高、成本适宜的多模态数据集。目前训练数据集涉及的知识产权合规性问题是一大难点。人工智能模型训练所用的部分数据,例如书籍、期刊、论文等,可能存在知识产权争议。范文仲建议政府出台法规,鼓励敏感的大模型数据进场交易,使用避风港原则和发展人工智能训练保险产品,不断降低人工智能模型训练的合规风险。
从算力来看,算力作为数字经济时代的基础支撑和新型生产力,赋能作用日渐凸显。然而,我国算力市场发展面临着高质量算力资源不足且分散、算力资源供需错配时有发生、算力投入远超中小企业承受范围等问题。
对此,范文仲建议,一是大力发展聚合计算先进技术,科学组合不同类型的算力单元,实现计算密度、性能和效率的大幅提升。二是打造统一的算力交易和调度平台,智能统筹调度周边城市各类算力资源,为中小人工智能企业训练大模型提供价格低廉的普惠算力。
据介绍,本次大会发布了第一批人工智能大模型高质量训练数据集。该数据集是北数所联合北京人工智能产业联盟共同征集的,包括中科院大气物理所、北京科学技术研究院、中国知网、中汽智联、北方健康、中文在线、中国搜索、牡丹集团等36家机构及企业提供的大模型语料训练数据,共同为先行区人工智能训练场示范基地建立模型训练语料资源库。
首批发布的数据集覆盖科技创新、金融服务、医疗健康、医药研发、自动驾驶、气象服务、商业航天、影视创作等20多个应用场景,共计100余个语料数据,数据总量逾150PB,涵盖了专业知识问答、古今文化书籍、互联网舆情资讯、多语种音视频、教学资源题库、科研数据、高清图片等多领域、多模态的数据语料。
在算力方面,北数所已建设了算力交易专区,上线了东数西算算力服务平台和北京算力交易统一系统,致力于为全国各行业智算、超算、通用算力等各类算力产品提供算力发现、供需撮合、交易购买、调度使用等于一体的、稳定可信的综合服务平台。北数所还积极争取各级政府财政专项资金支持,通过北数所进场交易的算力,将会获得适度的资金奖励和补贴,进一步降低企业算力和数据的使用成本,涵养和培育持久的数据和算力流通生态,让小公司也能做大模型。
作为运营单位之一,北数所参与了北京数据基础制度先行区人工智能数据训练基地建设工作,发挥数据资源优势和专业优势,结合人工智能、医疗健康、自动驾驶、智能制造、金融、文旅、教育等实际应用场景,汇聚和储备大模型训练所需的高质量语料集,通过在可信数据空间打造集数据托管-数据标注-数据训练-数据交易于一体的数据可信流通体系,为人工智能大模型训练提供合规高效、安全有序的数据支撑。