问题——“数据零工”把生活变成可交易资产——风险与收益并存 近来——围绕人工智能模型训练的数据需求,一条新的“个人数据供给链”正形成。部分平台面向公众发布任务,鼓励用户提交日常生活中的影像、语音、定位或环境噪声等信息,按条计酬或按任务结算。一些参与者将其视作快速获取现金的途径:有人通过拍摄行走视角的视频参与“城市导航”数据采集,有人允许应用调用手机麦克风收集街区环境声,并额外录制个人语音以补充语料。对不少收入有限的年轻人而言,这类报酬能够覆盖一部分生活开支,体现为“低门槛、碎片化、跨地域”的典型零工特征。 此外,“出售生活片段”也将个人置于更复杂的风险之中:数据一旦上传、转售或进入模型训练流程,后续用途、存储期限、再识别可能性等往往不易追踪;用户对自己贡献的数据在何处被使用、是否被二次加工、是否与其他数据拼接形成画像,缺乏足够把控。 原因——高质量“人类级”数据稀缺,平台撮合降低供给成本 “数据零工”扩张的背后,是模型能力提升对真实世界数据的持续渴求。一上,模型训练需要覆盖多场景、多口音、多噪声、多光照与多地理环境的样本,以提高导航、语音识别、环境理解等任务中的泛化能力;仅依赖公开数据或合成数据,容易出现场景不足、偏差明显等问题。另一上,传统数据标注与采集成本高、周期长,企业倾向通过平台化方式把采集环节外包给分散个体,以“按需购买”的方式快速补齐数据缺口。 对个人而言,智能手机与可穿戴设备的普及让数据采集几乎“随手可得”;对平台而言,通过标准化任务、自动质检与统一结算,可全球范围聚合海量“微贡献”,形成新的数据供给网络。供需两端的合力,推动了以“数据换现金”为核心的市场化模式。 影响——机会与隐患并行,涉及隐私、合规与公平多重议题 从积极面看,这类平台为部分群体提供了灵活增收渠道,尤其在青年就业压力较大或最低工资水平较低地区,“小额高频”的报酬具有现实吸引力;同时,多源数据有助于改善模型对不同地区与人群的适配性,减少因数据缺口导致的技术偏差。 但隐患同样突出。其一,隐私与安全风险上升。日常影像、语音、定位与环境信息可能包含面部特征、家庭住址、工作场所、社交关系等敏感线索,即便平台宣称匿名化处理,也难完全排除再识别风险。其二,权益边界模糊。用户往往难以理解复杂条款,难以评估“授权范围、数据归属、撤回机制、收益分配”是否合理,容易陷入“用一次性报酬换长期不可控风险”的不对称交易。其三,劳动保障缺口。平台以“任务制”组织参与者,参与者通常不被视为雇员,缺少最低报酬、工时、职业健康与争议解决等保障;同时不同地区人群在议价能力上的差异,可能强化“低价数据外包”的结构性不公平。其四,数据质量与社会信任问题。若激励机制偏向数量,可能诱发刷量、造假等行为,影响数据可靠性,并削弱公众对有关产业的信任基础。 对策——以透明度、最小必要与可追溯为抓手完善治理 根据上述问题,需从平台责任、行业规范与公共监管三上协同发力。 一是提高透明度与可理解性。平台应以清晰语言告知采集内容、用途范围、保存期限、共享对象及退出与删除机制,避免以冗长条款替代真实告知。对涉及敏感信息的采集,应设置更高标准的明示同意与二次确认。 二是落实“最小必要”原则。采集应围绕具体任务需求,减少与任务无关的定位、通讯录、相册等权限索取;对音视频等高敏感数据,应默认采取脱敏、模糊化与本地预处理,降低泄露与滥用风险。 三是建立可追溯与可撤回机制。推动数据流转可记录、可审计,使贡献者能够查询数据去向、用途类别与是否进入再交易环节;对个人可识别信息应提供撤回与删除通道,并明确响应时限与责任主体。 四是完善收益与权利安排。探索更合理的收益分配方式,例如按数据贡献度与使用范围分级付费、对长期使用设置持续分成或补偿机制;同时健全争议处理渠道,明确平台在数据安全事件中的责任。 五是加强跨境合规与公众教育。面对数据跨境流动现实,应强调合法合规与安全评估,避免因规则差异导致监管真空;同时加强公众数字素养教育,提升对权限授权、隐私风险与合同条款的识别能力。 前景——从“野蛮生长”走向规则化,数据要素市场将更重视权益保护 可以预见,随着模型应用加速落地,对真实世界数据需求仍将增长,“数据零工”在短期内难以消失。但行业发展不应以牺牲个人权益为代价。未来竞争将不仅是“谁拿到更多数据”,更是“谁能在合法合规、公开透明与可持续的框架下获得高质量数据”。当监管框架逐步完善、平台治理能力提升、公众权利意识增强,个人数据的交易逻辑将从“低价买断”向“可控授权、可追溯使用、合理回报”转变,数据要素市场也有望从粗放扩张走向高质量发展。
当个人隐私在数字经济中被视为“新石油”,如何在技术创新与伦理底线之间建立平衡,已成为全球性议题。正如日内瓦国际电信联盟秘书长所言:“数据殖民主义的幽灵正在重现,国际社会需要比技术迭代更快的制度创新。”这场关乎数字主权的博弈,或将影响未来十年全球治理的走向。