开放数据:谷腾堡小说数据

| September 1, 2021

It is our great pleasure to open the Gutenberg Fiction Dataset. You can get the dataset by participating the 2021 Chinese Contest of Digital Humanities. Learn more about this dataset from its Github repository.

识别故事中隐藏的社会偏见

一、题目描述

赛题题目

识别故事中隐藏的社会偏见

赛题背景

社会偏见在现实社会当中根深蒂固,文化产品的创作和传播不断强化这这些社会偏见。社会偏见的表现形式多种多样,涉及人类生活的各个方面。如果故事当中嵌入了结构化的社会偏见,基于这些文化产品作为语料训练机器学习模型就会学习到这些偏见,并通过推荐系统等各种方式对社会现实产生影响。从文化产品当中识别出具体的社会偏见,揭示这些文化创作是如何以一种不易察觉但是强有力的方式来加深对性别、种族、社会阶层等方面的刻板印象,刻画其所带来的的潜在危险,有助于人们设计更好地机器学习模型和智能产品。

赛题任务

以平台数据为主要数据源,选手可自行增加其它来源数据(需在报告中注明数据来源,数据规模,来源归属等)。 本次任务提供来自谷腾堡网站(www.gutenberg.org) 的小说文本数据,参赛者需要合理运用文本处理技术与自然语言处理技术,对于提供的信息进行分析。通过分析小说的文本,总结叙事中的社会偏见的变化趋势,结合叙事相关的信息,讨论包括但不限于如下问题(一个或多个):

  • 叙事中的性别偏见
  • 叙事中的文化偏见
  • 叙事中的社会阶层偏见
  • 叙事中的国家偏见
  • 叙事中的种族偏见

探究此类问题鼓励参赛队伍深入了解小说的特点与社会偏见,获取其他公开数据进行综合分析,利用数据做观点支持,对于识别文本中的社会偏见提出建设性方案。本次任务原则上鼓励参赛队伍大胆创新,采纳新的方法、视角、理论,敢于对相关的数据与信息在相关性和因果性上进行大胆的假设和严谨的探究与论证。)

二、数据说明

竞赛数据来自谷腾堡网站 (www.gutenberg.org) 当中小说类型文本。数据提取由南京大学新闻传播学院计算传播学实验中心完成。数据包括两部分:1.小说的元数据;2. 小说文本数据。