来源:DeepTech深科技
(来源:MIT Technology Review)几周前,在参加全球数字权利会议“RightsCon”期间,我亲身感受到国际民间团体正在经历的结构性震荡。
RightsCon 是由非营利组织 Access Now 发起的全球性的数字权利会议,旨在促进人权、隐私保护和自由表达,以及技术创新等核心议题,该会议每年在全球不同城市举办。
在今年的会议上,来自世界各地(包括美国)的民间社会组织,讨论了如何应对全球数字权利工作最大资助方之一“美国政府”撤资后带来的困境。
值得关注的是,当前美国政治生态正在发生范式转变。正如此前在报道中所指出,特朗普政府对美国联邦机构职能的大幅削弱令人震惊,并推动美国政治体制向一些政治学家口中的“竞争性威权主义”演进。
这种转变不仅重塑了华盛顿的权力图谱,也对硅谷科技巨头的全球战略产生深远影响,波及大量美国科技公司的运营与政策。要知道,这些美国科技公司的用户遍布全球,远超美国本土市场。
RightsCon 会上有不少与会者向我透露:他们已经察觉到这些科技公司在参与和支持用户基础较小的社区(尤其是非英语用户群体)方面的意愿和投资正在减少。
正因如此,不少政策制定者和商业领袖(特别是在欧洲)已经开始重新审视对美国科技的依赖,并思考是否能够快速开发出更好、本土化的替代方案。在人工智能领域,这一趋势尤为明显。
就拿社交媒体来说,这种现象表现得最为突出。研究巴西国内科技政策的法学教授 Yasmin Curzi 告诉我:“自特朗普再次上任以来,我们已经无法再指望美国的社交媒体平台去做哪怕最基本的事情了。”
如今,社交媒体的内容审查已经大量采用自动化技术,并尝试利用先进的人工智能模型来识别有问题的帖子。
然而,在印度、南非、巴西等地,这些系统根本识别不出那些暴力内容。显然,人工智能在适应不同文化和语言环境等方面还有很长的路要走。
欧洲非营利法律中心专门研究人工智能治理的人权律师 Marlena Wisniak 指出,当前社交平台若过度依赖大语言模型进行内容审核,可能引发更严重的系统性风险,情况将变得更糟。
她向我透露:“大语言模型本身的审核就漏洞百出,而这些审核不佳的大语言模型又被用来审核其他内容,这简直就是一个恶性循环,错误不断重复、不断放大。”
造成这种情况的部分原因在于主流人工智能系统的“语言偏食症”:它们主要是依靠英语国家的数据进行训练的,而且大多还是美式英语,所以一旦碰上当地语言和语境,比如印度的方言俚语,就会显得“水土不服”,表现欠佳。
哪怕是那些标榜能同时处理多种语言的多语言模型,在应对非西方语言时同样也会力不从心。
例如,有人对 ChatGPT 在医疗保健相关问题上的回复做了评估,发现由于中文和印地语在北美数据集中占比不高,它在这两种语言上的回复质量远不如英语和西班牙语。
对于许多 RightsCon 的与会者来说,这恰恰证明了他们一直呼吁的观点:不管是在社交媒体领域,还是在更广泛的其他领域,都需要更多以社区为导向的人工智能开发模式。
换句话说,想要打破这种技术霸权,必须推动人工智能研发模式的“本土化转型”,其中可能包括小语言模型、聊天机器人,以及针对特定用途、特定语言和文化背景设计的数据集。
比如,能识别俚语和诋毁性词汇,理解混合多种语言甚至字母书写的词句,还能辨别“重新赋予意义的词汇”(也就是曾经的诋毁性词汇,但如今被目标群体接纳并赋予新意义)。
这些人工智能经过训练后,可能会出现一些细分的创新形态,比如具备文化感知能力的人工智能助手,或是轻量化的区域语言模型。
毕竟,这些往往是科技巨头所忽视的“语言边缘地带”:基于英语训练的语言模型和自动化系统所忽略或误分类的内容。
对此,初创公司 Shhor AI 的创始人在 RightsCon 会议上主持了一场小组讨论,介绍了公司新推出的、专注于印度本土方言的内容审核应用程序编程接口(API)。
实际上,许多类似的解决方案已经发展了好多年,我们也曾报道过不少相关项目。比如,Mozilla 曾发起一个志愿者项目,专门收集非英语语言的训练数据;还有一家名为 Lelapa AI 的初创公司,专注于为非洲语言开发人工智能技术。
甚至今年早些时候,我们还把“小语言模型”列入 2025 年“十大突破性技术”榜单。
尽管如此,现在的情况和以往有些不同。特朗普政府对美国科技公司的政策和行为产生了不小的影响,这显然是一个重要原因,但背后还有其他因素在起作用。
一方面,近期关于语言模型的研究和开发已经达到了一个临界点,以往数据集的规模被认为是决定模型性能的关键,但现在这一点已经不再那么重要了,这种变化意味着更多人有机会参与到语言模型的开发中来。
“毫不夸张地说,在一些资源较少的语言环境下,小语言模型完全有可能成为多语言模型的有力竞争者。”民主与技术中心访问学者、专注于自动化内容审核的研究员 Aliya Bhatia 指出。
另一方面,全球局势也在悄然发生变化。就在 RightsCon 会议召开的前一周,巴黎刚刚举办了一场人工智能峰会,会上人工智能领域的国际竞争成为焦点议题。
从那以后,“主权人工智能”的概念开始受到广泛关注,其核心是让某个国家或组织能够全面掌控人工智能开发的各个环节。
实际上,人工智能主权只是更广泛“技术主权”的一部分,现如今,大家对“技术主权”的关注度越来越高,主要原因是人们对数据传到美国后可能面临的隐私和安全问题越来越担忧。
去年 11 月,欧盟任命了首位负责技术主权、安全和民主事务的专员,并推进一项名为“欧洲堆栈(Euro Stack)”的计划,简单来说,这个计划的目标是打造一套属于欧洲自己的数字公共基础设施。
虽然这个概念的定义还不太明确,但它可能涵盖能源、水资源、云服务、芯片、软件、数据和人工智能等多个领域,这些技术和资源对于现代社会的发展以及未来的创新都至关重要,然而目前,它们大多由美国的科技公司掌控。
欧洲的这个计划在一定程度上借鉴了印度的经验,印度早在几年前就推出了“印度堆栈(India Stack)”计划,建立了一套颇为完善的数字公共基础设施,其中还包括一个名为“Aadhaar”的生物识别信息管理系统。
除此之外,就在不久前,荷兰的议员们通过了几项新议案,旨在降低该国对美国科技公司的依赖。
这让我想起了在 RightsCon 会议上与瑞士数字隐私公司 Proton 首席执行官 Andy Yen 的对话。他提到,特朗普上任后的一系列举动实际上“推动了欧洲采取行动,并让欧洲意识到必须重新掌握技术自主权”。
“一方面,这是因为总统能够影响科技公司的高层;另一方面,科技是关乎任何一个国家未来经济增长的关键因素。”他解释说。
不过,仅靠政府的介入并不意味着语言模型中的包容性问题就能迎刃而解。
“我认为需要明确政府在这个过程中的角色和界限。如果政府开始指定哪些语言应该得到优先发展,或者试图控制数据集中呈现的观点,那可能会引发一系列问题。毕竟,用于训练模型的数据,在很大程度上塑造了模型的认知和理解方式,并决定它的‘世界观’。”Aliya Bhatia 指出。
目前,谁也说不准这一系列变化最终会走向何方,又有多少只是一时的炒作。但无论如何,这都是我们将持续关注的领域。
原文链接:
2025/03/25/1113696/why-the-world-is-looking-to-ditch-us-ai-models/
0 条