坐拥数据金矿！马斯克将用 X 数据训练 AI 强调“仅限公开内容”

2023-09-06 23:15 点击：234 来源：踏青网

摘要：《科创板日报》9 月 3 日讯马斯克旗下社交平台 X（前身为推特）最近更新了隐私条款， X 将使用收集到的数据来训练 AI 模型。 X 最新的隐私条款中明确表示，我们可能会使用收集到

《科创板日报》9 月 3 日讯 马斯克旗下社交平台 X（前身为推特）最近更新了隐私条款，X 将使用收集到的数据来训练 AI 模型。

X 最新的隐私条款中明确表示，" 我们可能会使用收集到的信息以及公开信息，来训练我们的机器学习算法、AI 模型等。"

对于此事，马斯克也直接承认，并补充称 " 只会使用公开数据，不会使用用户私信或任何私人数据 "。

值得一提的是，4 月马斯克曾指责微软非法使用推特数据，来训练 AI，并威胁将提起诉讼。同月马斯克提高推特数据访问价格，起价为每月 4.2 万美元，可访问 5000 万条推文。

为了收集数据训练 AI 而更改隐私条款，X 并不是第一家这么做的公司。

谷歌也已在 7 月更新隐私条款，其中明确，谷歌有权收集任何公开可用的数据，并将其用于其 AI 模型训练。

换言之，只要是谷歌能从公开渠道获得的内容，都可以拿来训练自家的 Bard 模型或未来所有 AI 模型。而在这种情况下，用户只要继续使用谷歌服务，便是默认相关信息可以被用来训练谷歌 AI 模型。

本周，百度、商汤、百川智能等多家公司 / 机构的大模型产品上线开放公众服务。

而 AI 三大核心要素包括算力、算法和数据，其中数据是 AI 算法模型的 " 饲料 "，AI 技术的训练需要巨大数据量的大规模数据集投喂。如今，我国生成式 AI 监管，特别是数据使用规则也逐渐清晰。

国家政策层面上，国家网信办等七部委已发布《生成式人工智能服务管理暂行办法》已于 8 月 15 日起施行。该文件对生成式人工智能研发、落地、训练语料使用等提出规范。券商认为，前期研发积累的 AI 应用有望从 Q3 开始进入上线周期，训练语料价值或迎重估。同时，其将训练数据的来源纳入监管，有望加速数据版权在 AI 模型领域的变现。

地方政策层面上，北京的《北京市公共数据专区授权运营管理办法（征求意见稿）》" 鼓励公共数据专区探索市场自主定价模式，探索产业发展及行业发展相关应用场景按需有条件有偿使用 "；《广州市数据条例（征求意见稿）》则 " 推动数据要素纳入国民经济和社会发展的统计核算体系 "，" 鼓励企业将数据资源纳入企业财务报表 "。

兴业证券指出，AI 大模型有望成为数据要素变现第一场景。受制于算力成本、商业模式等原因，国内市场针对 2B 垂直领域、基于大模型精调之后的小模型有望率先商业化落地。只有掌握核心行业数据，才能训练出适用于行业的垂直行业大模型。AI 投资除了算力和算法，更要重视数据。