本数据集全面收录了社交媒体平台用户对生成式人工智能技术(尤其是ChatGPT)的真实用户生成内容,聚焦用户的认知、情绪反应与接受意愿等多个维度。数据集来源包括Reddit平台ChatGPT子版块和Twitter平台,时间跨度广泛,数据规模庞大,为研究人工智能社会感知与用户接受度提供了宝贵的数据资源。
This dataset comprehensively collects authentic user-generated content from social media platforms regarding generative artificial intelligence technologies (especially ChatGPT), focusing on multiple dimensions such as user cognition, emotional reactions, and acceptance willingness. The dataset sources include the ChatGPT subreddit and the Twitter platform, covering an extensive time span with a massive data scale, providing valuable data resources for researching social perception and user acceptance of artificial intelligence.
数据价值 | Data Value: 这些数据完整记录了从早期AI技术讨论到ChatGPT等大型语言模型崛起的全过程中,普通用户的真实反应、情感变化与接受程度。数据具有时间连续性、来源多样性和规模全面性,为研究AI技术的社会接受度提供了独特视角。
Reddit数据:所有Reddit数据已直接上传至OSF平台,研究者可通过下方链接直接免费下载使用。
Twitter数据:由于Twitter数据规模庞大(超过10TB),无法直接上传至OSF平台。目前数据通过AWS Athena托管,以SQL格式提供查询访问。需联系数据集维护人申请数据访问权限。
⚠️ OSF.io平台访问说明 | OSF.io Access Note
请注意:访问OSF.io平台上的数据需要使用ORCID账号进行登录,这是OSF平台本身的要求,并非数据提供者的设置。如果您没有ORCID账号,请先在orcid.org上注册一个账号,然后再访问数据链接。
Please note: Accessing data on the OSF.io platform requires login with an ORCID account. This is a requirement of the OSF platform itself, not a setting by the data provider. If you don't have an ORCID account, please register one at orcid.org before accessing the data link.
由于Twitter数据规模超大,研究者需根据所在地区通过以下方式联系申请访问:
申请说明:请简要说明研究用途、所在单位、研究计划等基本信息。
本数据集采用 CC BY 4.0 国际共享协议(Creative Commons Attribution 4.0 International)。研究人员在使用本数据集时应遵循以下原则:
在学术论文、报告或其他研究成果中使用本数据集时,请使用以下标准引用格式:
Ma, Y. (2025). Large-scale Social Media User-Generated Content Dataset on Perception and Emotional Reactions toward Generative Artificial Intelligence. Open Science Framework (OSF). https://osf.io/nbk36
本数据集由华中科技大学马永超博士维护。数据获取背景包括与学界、业界专家的长期合作关系、高性能计算平台(HPC)的技术支持,以及在大模型部署实践中积累的经验。
The dataset is maintained by Dr. Yongchao Ma from Huazhong University of Science and Technology. The data acquisition background includes long-term cooperative relationships with experts in academia and industry, technical support from high-performance computing platforms (HPC), and experience accumulated in the practice of large-scale model deployment.
本数据集支持探索消费者对生成式人工智能的使用意愿,揭示其影响因素、心理机制及宏观边界条件。
This dataset supports to explore consumers' willingness to use generative artificial intelligence and reveals its influencing factors, psychological mechanisms, and macro-level boundary conditions.