看不见的女性第8章适合所有人的尺寸-书本网

分类器进行训练，而且谢天谢地，效果很好”。

当然，问题不在于女性声音，而在于们老朋友——性别数据缺口。语音识别技术是在名为语料库大型语音记录数据库上进行训练。这些语料库主要收录男性声音录音。无论如何，就们所知：大多数语料库中声音素材都未按性别分类，当然，这本身就是个数据缺口。[31]当塔特曼研究语音语料库性别比例时，只有TIMIT（“语言数据联盟中最受欢迎语音语料库”）家提供按性别分类数据。当中69%是男性。但与这些发现所暗示相反，事实上有可能找到女性说话录音：从英国国家语料库（BNC）[32]网站上数据来看，该语料库是性别平衡。[33]

不光是语音语料库会催生偏向男性算法。文本语料库（由小说、报纸文章、法律教科书等各种文本组成）被用来训练翻译软件、简历扫描软件和网络搜索算法，它们数据也充斥着性别数据缺口。搜索英国国家语料库[34]（收录20世纪晚期大量文本中1亿个单词），发现女性代词出现率始终只有男性代词半左右。[35]尽管当代美国英语语料库有5.2亿个词，收录近至2015年文本，但男女代词比例也是2比1。[36]依据这些满是缺口语料库来训练算法，就给人留下这样种印象：这个世界实际上是由男性主宰。

图像数据集看来也存在性别数据缺口问题：2017年，项对两组常用数据集分析发现，男性图像数量远超女性图像；这两组数据集包含“来自网络10万多张复杂场景图像，并附有说明”。[37]华盛顿大学项类似研究发现，在他们所测试45种职业中，女性在谷歌图像搜索中出现比例偏低，其中CEO比例最为悬殊：美国27%CEO是女性，但在谷歌图像搜索结果中，女性只占11%。[38]搜索“作家”结果也是不平衡，谷歌图片中只有25%搜索结果是女性，相比之下，美国作家中女性实际占比有56%，研究还发现，至少在短期内，这种差异确实影响人们对某个领域性别比例看法。当然，对于算法来说，影响会更长远。

这些数据集不仅未能充分代表女性，而且歪曲她们形象。2017年项对常用文本语料库分析发现，女性名字和相关用词（“妇女”“女孩”等）与家庭关系大于与职业关系，而男性情况正好相反。[39]2016年，项基于谷歌新闻流行公共数据集分析发现，与女性相关最热门职业是“家庭主妇”，与男性相关最热门职业是“名家大师”。[40]与性别相关十大职业还包括：哲学家、社交名人、队长、前台接待员、建筑师和保姆——你可以自行猜测，哪些是男性，哪些是女性。2017年图像数据集分析还发现，图像中

第8章适合所有人的尺寸（5 / 7）

苍白爱情

你却爱着一个烧饼

牧神记

你比北京美丽

相爱未遂

顶级掠食者