分类器进行训练,而且谢天谢地,效果很好”。
当然,问题不在于女性声音,而在于
们
老朋友——性别数据缺口。语音识别技术是在名为语料库
大型语音记录数据库上进行训练
。这些语料库主要收录
男性声音
录音。无论如何,就
们所知:大多数语料库中
声音素材都未按性别分类,当然,这本身就是
个数据缺口。[31]当塔特曼研究语音语料库
性别比例时,只有TIMIT(“语言数据联盟中最受欢迎
语音语料库”)
家提供
按性别分类
数据。当中69%是男性。但与这些发现所暗示
相反,事实上有可能找到女性说话
录音:从英国国家语料库(BNC)[32]网站上
数据来看,该语料库是性别平衡
。[33]
不光是语音语料库会催生偏向男性算法。文本语料库(由小说、报纸文章、法律教科书等各种文本组成)被用来训练翻译软件、简历扫描软件和网络搜索算法,它们
数据也充斥着性别数据缺口。
搜索
英国国家语料库[34](收录
20世纪晚期大量文本中
1亿个单词),发现女性代词
出现率始终只有男性代词
半左右。[35]尽管当代美国英语语料库有5.2亿个词,收录
近至2015年
文本,但男女代词
比例也是2比1。[36]依据这些满是缺口
语料库来训练
算法,就给人留下这样
种印象:这个世界实际上是由男性主宰
。
图像数据集看来也存在性别数据缺口问题:2017年,
项对两组常用数据集
分析发现,男性图像
数量远超女性图像;这两组数据集包含“来自网络
10万多张复杂场景
图像,并附有说明”。[37]华盛顿大学
项类似研究发现,在他们所测试
45种职业中,女性在谷歌图像搜索中出现
比例偏低,其中CEO
比例最为悬殊:美国27%
CEO是女性,但在谷歌图像
搜索结果中,女性只占11%。[38]搜索“作家”
结果也是不平衡
,谷歌图片中只有25%
搜索结果是女性,相比之下,美国作家中女性
实际占比有56%,研究还发现,至少在短期内,这种差异确实影响
人们对某个领域性别比例
看法。当然,对于算法来说,影响会更长远。
这些数据集不仅未能充分代表女性,而且歪曲她们
形象。2017年
项对常用文本语料库
分析发现,女性
名字和相关用词(“妇女”“女孩”等)与家庭
关系大于与职业
关系,而男性
情况正好相反。[39]2016年,
项基于谷歌新闻
流行公共数据集分析发现,与女性相关
最热门职业是“家庭主妇”,与男性相关
最热门职业是“名家大师”。[40]与性别相关
十大职业还包括:哲学家、社交名人、队长、前台接待员、建筑师和保姆——你可以自行猜测,哪些是男性,哪些是女性。2017年
图像数据集分析还发现,图像中
请关闭浏览器阅读模式后查看本章节,否则可能部分章节内容会丢失。