剔除人工智能中的偏见

数据派THU
如今,人工智能(AI)系统越来越多地决定某人能否获得职位或贷款,薪水多少,医生和医院对他们采用哪种治疗方式,以及政府、执法机关和司法体系对待他们的公平程度。

1.png

如今,人工智能(AI)系统越来越多地决定某人能否获得职位或贷款,薪水多少,医生和医院对他们采用哪种治疗方式,以及政府、执法机关和司法体系对待他们的公平程度。

如果这些自动化决策系统背后的人工智能带有深刻的偏见,可能依据种族、宗教信仰、性别或其他标准歧视某些人,这些问题会非常难以解决。

维也纳合成数据创业公司Mostly AI的首席信任官亚历山德拉•艾伯特(Alexandra Ebert)说:“但这也是一个机会。”这是商业界、数据科学家和工程师从人工智能数据集和算法中剔除偏见的一个机会,虽然困难,但十分重要。

从人工智能中剔除偏见并非易事,因为不知偏见的起因。偏见可能会从多个节点进入机器学习周期。艾伯特说,不过从逻辑上最可能的起点是进入机器学习周期的数据。人工智能系统赖于深度神经网络,深度神经网络解析大量的训练数据集来确定模型。这些深度学习方法大体上以大脑结构为基础,许多代码层像神经元一样连接,并按照网络所选的模型改变链接的权重。

问题在于,训练数据集可能缺乏来自少数群体的数据,会反映出历史的不公平待遇,例如女性薪资较低,或注入社会偏见,例如将亚裔美国人标记为外国人。学习有偏见的训练数据的模型将传播同样的偏见,但收集高质量的、广泛的、平衡的数据成本很高。

工具包中的某些算法会以复杂的方式修改训练数据。例如,这些算法会改变某些输入与输出的配对(如贷款审批中带有“yes”的邮政编码),或者特定组合的给定权重。例如,一种名为“重新衡量”(Reweighing)的技术为了给予贫穷群体积极结果,会对某些输入输出组合赋予更高权重。

尽管如此,在真实世界中模型表现如何还是很难确定。因此,对人工智能系统进行外部审核至关重要。奥尼尔风险咨询及算法审计公司的创始人凯西•奥尼尔(Cathy O’Neil)是一名数据科学家,她说,某些人工智能算法看似完美,但它针对某些利益相关者的执行结果却非常糟糕。“我对代码进行黑盒子测试,想了解其表现如何。”她说,“我提出一个广泛的问题:你的算法对谁不利?刚一提问,各种问题就涌现出来了。”

投入时间和精力来让人工智能模型更公平是需要付出代价的。因此,如果没有监管压力,各公司会简单地仅关注其系统反映原始数据的准确性。但是,高德纳咨询公司的一项研究预测,到2022年,85%的人工智能项目会因为数据、算法或管理团队的偏见而得出错误结果。Mostly AI的艾伯特说,准确且公平的人工智能决策工具,不仅对于广大的潜在客户群体有益,也能防止专用人工智能出现偏见所导致的名誉受损和客户抵制。她说:“我们要确保人工智能对我们有益,去除人工智能中的偏见能带来更高的商业收益。”

因此,Mostly AI公司正在使用人工智能创建训练人工智能的合成数据集。简单地移除种族等敏感特征或对其进行修改(例如提高女性薪资会影响核准信用额度)并不可行,因为它会对其他相关信息产生干扰。相反,该创业公司使用了一种深度神经网络,它学习数据集的模式和关系,并自动生成一个全新的个体,例如,一个“行为与高收入女性行为一致的人,这个人的所有数据点就能匹配并有意义”,艾伯特说。相比原始数据的准确度,这种合成数据的准确度会略低,但其数据在统计上仍然具有高度代表性。

伦敦的Synthesized等创业公司也涉足了合成数据项目。艾伯特补充道,最近,Mostly AI和一些其他公司正在发起组建一个IEEE合成数据标准组织。

此外,研究人员也开发了几种减少人工智能偏见的工具。Aequitas等工具包可以估量加载数据集的偏见,Themis-ml也使用偏见减轻算法,提供几种减少偏见的方法。

在IBM研究中心,一个由库什•瓦尔什尼(Kush Varshney)带领的团队将这些工作结合到了一起,创建了一个综合性的开源工具包,名为AI Fairness 360。该工具包能够帮助检测并减少数据集和机器学习模型中无益的偏见(参见插图)。该工具集成了过去10年里计算机科学家开发的14种不同的偏见减轻算法,其使用也很直观。瓦尔什尼说:“我们的想法是建立一个公共接口,让专业人士可以使用这些工具。”

2.png

工具包中的某些算法会以复杂的方式修改训练数据。例如,这些算法会改变某些输入与输出的配对(如贷款审批中带有“yes”的邮政编码),或者特定组合的给定权重。例如,一种名为“重新衡量”(Reweighing)的技术为了给予贫穷群体积极结果,会对某些输入输出组合赋予更高权重。

尽管如此,在真实世界中模型表现如何还是很难确定。因此,对人工智能系统进行外部审核至关重要。奥尼尔风险咨询及算法审计公司的创始人凯西•奥尼尔(Cathy O’Neil)是一名数据科学家,她说,某些人工智能算法看似完美,但它针对某些利益相关者的执行结果却非常糟糕。“我对代码进行黑盒子测试,想了解其表现如何。”她说,“我提出一个广泛的问题:你的算法对谁不利?刚一提问,各种问题就涌现出来了。”

投入时间和精力来让人工智能模型更公平是需要付出代价的。因此,如果没有监管压力,各公司会简单地仅关注其系统反映原始数据的准确性。但是,高德纳咨询公司的一项研究预测,到2022年,85%的人工智能项目会因为数据、算法或管理团队的偏见而得出错误结果。Mostly AI的艾伯特说,准确且公平的人工智能决策工具,不仅对于广大的潜在客户群体有益,也能防止专用人工智能出现偏见所导致的名誉受损和客户抵制。她说:“我们要确保人工智能对我们有益,去除人工智能中的偏见能带来更高的商业收益。”

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论