社会研究和调查中的-AI

社会研究和调查中的 AI

towardsdatascience.com/ai-in-social-research-and-polling/

本月，我将讨论一个我在马里兰大学 M. R. Sauter 教授最近的一份草稿论文中遇到的非常有趣的话题。在论文中，他们讨论了（包括其他方面）社会科学家和调查员试图使用 AI 工具来帮助克服进行社会科学人类主体研究和调查的一些挑战，并指出这些方法的一些主要缺陷。我对这个话题还有一些额外的想法，所以让我们来谈谈吧！

嗨，我可以问你一系列简短的问题吗？

让我们先快速讨论一下为什么这最初是必要的。在现代社会进行社会科学研究和调查是非常困难的。这其中的一个巨大原因是由于人们连接和沟通方式的变化——即手机——这使得获取将参与你研究的随机抽样个体变得极其困难。

为了使这个问题具体化，当我在大约 25 年前作为社会学本科生时，在研究方法课上我们被教导，为大型研究随机抽样人群的一个好方法是只取一个地区的区号和 3 位电话号码前缀，然后随机生成 4 位数字来补充它们，并拨打这些号码。在那些日子里，在电话诈骗成为我们生活中的一大祸害之前，人们会接听电话，你可以提出你的研究问题。另一方面，如今，这种试图获取公众代表性样本的方法几乎令人捧腹。在日常生活中，几乎没有人会接听来自未知号码的电话，除非在非常特殊的情况下（比如你正在等待面试官的电话）。

那么，研究人员现在都在做什么呢？如今，你有时可以支付零工劳动者参与调查，尽管亚马逊 MTurk 工作者或 Upworkers 并不一定代表整个社会群体。你所能获得的样本将存在一些偏差，这需要通过抽样和统计方法来考虑。更大的障碍是，这些人的时间和精力成本是金钱，调查员和学者们都不愿意轻易放弃（在学者的情况下，他们越来越没有这样的资源）。

还有什么？如果你像我一样，你可能也收到过一些未经请求的民意调查短信——这些很有趣，因为它们可能是合法的，也可能是骗子试图获取你的数据或金钱，而且区分它们极其困难。作为一名社会学家，我乐于进行民意调查和回答调查，以帮助其他社会科学家，而且我通常不会点击这些链接，很多时候。它们也是对你时间的占用，即使人们信任来源，很多人也忙得不可开交。

整个民意调查行业依赖于能够从各行各业获取多样化的样本人群，并说服他们就某事表达自己的观点。

无论尝试的解决方案及其缺陷如何，这个问题都很重要。整个民意调查行业依赖于能够从各行各业获取多样化的样本人群，并说服他们就某事表达自己的观点。这不仅是一个针对从事学术工作的社会科学家的问题，因为民意调查本身就是一个庞大的行业，涉及大量资金。

我们真的需要人类吗？

人工智能能否以某种方式帮助解决这个问题？如果我们让生成式人工智能参与这项任务，那会是什么样子？在我们讨论解决这个问题的实际方法之前，我想讨论一下Sauter提出的一个概念，称为“人工智能想象”——本质上，是我们对人工智能真正是什么、它能做什么以及它能创造什么价值的叙述和社会信念。这很难界定，部分原因是对人工智能整个概念的“策略模糊性”。长期读者会知道，我一直在努力弄清楚是否以及如何引用“人工智能”这个术语，因为它是一个如此充满重叠和冲突的术语。

然而，我们都可以想到在社会中隐含或明确遇到的关于人工智能可能存在问题的信念和期望，例如，人工智能本质上是社会进步的渠道这一观点，或者使用人工智能而不是雇佣人类来完成任务是本质上是好的，因为“效率”的原因。我在我的其他专栏中讨论了许多这些概念，因为我认为挑战我们假设的准确性对于帮助我们弄清楚人工智能对我们世界的真正贡献至关重要。错误的假设可能导致我们陷入不应得的炒作或过度承诺，而科技行业不幸地容易陷入这种状况。

在将人工智能应用于社会科学研究的过程中，Sauter的一些人工智能想象成分包括：

期望人工智能可以作为真理来源的依据
认为所有有意义的东西都可以被衡量或量化，
（可能最具问题性的是）断言人类智能或创造力的输出与 AI 模型的输出之间存在某种等价性

错误的假设可能导致我们陷入不应得的炒作或过度承诺，而科技行业不幸地容易陷入这种情况。

他们尝试了什么？

带着这种思考框架，让我们看看人们为解决使用 AI 进行研究的困难而采取的一些具体方法。许多这些技术有一个共同点，那就是他们放弃尝试真正获取个人进行研究，而是仅仅让 LLM 来回答这些问题。

在一个案例中，一家 AI 初创公司提出使用 LLM 为您运行民意调查，而不是真正询问任何人员。他们尽可能地模仿选举人口统计，并构建几乎像“数字孪生”实体的样本。（值得注意的是，他们在 2024 年 9 月的一篇文章中错误地预测了最终的美国总统大选结果。）（ https://www.semafor.com/article/09/20/2024/ai-startup-aaru-uses-chatbots-instead-of-humans-for-political-polls ）

Sauter引用了其他一些应用类似技术的科研方法，包括测试 LLM 在接触到具有特定倾向或观点的媒体时是否会改变其对观点问题的答案（例如，复制新闻对公众观点的影响），尝试使用 LLM 具体模拟人类子群体，相信这可以克服算法偏差，以及测试 LLM 的民意调查回应是否与普通人的人类答案可区分。

这有效吗？

一些人为这些策略辩护，认为他们的 LLM 可以产生与真实人类民意调查结果大致匹配的答案，但同时又认为人类民意调查不再准确到足以使用。这提出了一个明显的问题：如果人类民意调查不可靠，那么它如何足够可靠地成为 LLM 的基准标准？

此外，如果今天的大型语言模型（LLM）的输出能够与我们关于人类观点的认识相匹配，这并不意味着其输出将能够持续匹配人类的信念或公众的观点。LLM 们不断被重新训练和开发，公众观点和视角是流动和变化的。今天的验证，即使成功，也不能保证关于另一组问题、另一个话题、另一个时间或另一个背景的任何承诺。关于这种未来可靠性的假设是错误的期望的结果，即 LLM 可以作为真理来源被信任和依赖，而实际上现在和从来都不是这些模型的目的。

我们应该总是退一步想想 LLM 是为了什么而构建的，以及它们的实际目标是什么。正如Sanders 等人指出，“LLM 根据强化学习等训练过程生成一个预测用户最可接受的响应”。它们试图根据你提供的提示来估计下一个对你有吸引力的词——我们不应该开始陷入神话化的说法，认为 LLM 正在做其他任何事情。

当一个大型语言模型（LLM）产生意外响应时，这本质上是因为模型中内置了一定程度的随机性——为了听起来更加“人性化”和动态，它有时不会选择概率最高的下一个词，而是会选择排名更靠后的不同词。这种随机性并非基于某种潜在信念或观点，而仅仅是为了避免文本听起来像机器人或乏味。然而，当你使用 LLM 来复制人类观点时，这些观点就变成了数据中的异常值。这种方法论如何解释这样的响应？在真实的人类民意调查中，这些异常值可能包含有关少数派观点或信仰边缘的有用信息——虽然不是主流，但仍然是人口的一部分。这引发了许多关于如何进行这种人工数据的解释以及我们可以实际得出哪些推论的问题。

关于合成数据

这个话题与人工智能领域更广泛的概念——合成数据——重叠。随着可用于训练 LLM 的未见过、有机生成的人类内容的数量减少，研究试图看看是否可以通过自举的方式获得更好的模型，即通过让 LLM 生成新数据，然后使用这些数据来训练。这失败了，导致模型崩溃，以Jathan Sadowski所命名的“哈布斯堡 AI”的形式。

这教会我们的是，LLM 产生的内容与有机生成的人类内容之间的差异可能比我们能够检测到的更多。合成内容中有些东西是不同的，即使我们无法完全识别或衡量它是什么，我们也可以通过最终结果如此剧烈的不同来判断这一点。我之前已经谈到了围绕人类检测合成内容所带来的复杂性和挑战，而且很明显，即使人类可能无法轻易明显地区分，这并不意味着没有差异。

[J]即使人类可能无法轻易明显地区分，这并不意味着没有差异。

我们可能还会被这样的论点所吸引，即，毕竟，民意调查越来越不可靠和不准确，因为我们已经没有更多容易、免费的方式来接触到我们想要调查的人，所以这种由 AI 介导的版本可能就是我们能做的最好的了。如果它比现状更好，尝试有什么错呢？

这是一个好主意吗？

无论是否有效，这是否是正确的事情去做？这是大多数此类技术的用户和开发者不太注意的问题。整个科技行业常常犯这样的错误——我们询问某件事是否有效，针对我们心中所想的直接目标，但我们可能忽略了是否应该去做的问题。

最近我花了很多时间思考为什么这些民意调查和研究方法让我感到担忧。Sauter提出了这样的论点，认为这本质上是有害于社会参与的，我总体上倾向于同意。确定因为人们难以或昂贵而将他们抛弃，并使用技术模仿来替代他们，这让人感到不安。这种有效性在很大程度上取决于任务是什么，以及它对人们和社会的更广泛影响会是什么。效率并不是我们有时可能认为的无条件的善。

首先，人们越来越意识到我们的数据（包括我们的观点）具有货币和社会价值，我们想要获得其中一部分价值并不夸张。我们长期以来一直在免费提供我们的观点，但我感觉到这种状况正在演变。如今，零售商经常提供折扣和优惠以换取产品评论，正如我之前提到的，MTurkers 和其他零工工作者可以出租他们的时间，并因参与民意调查和研究项目而获得报酬。在商业民意调查的情况下，这是合成民意调查的大部分能量来源，用 LLM 来替代有时感觉像是一种绕过那些不愿意免费为他人利润做出贡献的讨厌的人类的方法。

如果我们假设 LLM 可以生成准确的民意调查，我们就是在假设一种与民主项目背道而驰的决定论状态。

但抛开这一点，这些努力背后有一个社会信息，我认为我们不应该轻视。让人们相信他们的信念和观点可以被技术取代，这设定了一个先例，可能会无意中传播开来。如果我们假设 LLM 可以生成准确的民意调查，我们就是在假设一种决定论状态，这与民主项目背道而驰，并期望民主选择是可以预测的。我们可能认为我们知道我们的同伴相信什么，也许甚至只是通过观察他们或阅读他们的个人资料，但在美国，至少我们仍然在一种投票模式下运作，允许那个人有秘密投票权来选举他们的代表。他们有自由根据自己的任何理由或没有任何理由来做出选择。如果我们接受 LLM 而不是真正的民意调查，那么这种做法是否可以传播到投票过程本身，这让人感到危险。如果我们接受 LLM 而不是真正的民意调查，那么这种做法是否可以传播到投票过程本身，这让人感到危险。

我甚至还没有触及到信任问题，这个问题让人们无法诚实地回应民意调查或研究调查，这是一个额外的难题。我们不是去源头真正质问是什么让我们不愿意向同伴诚实地表达我们真诚持有的信念，我们再次看到的是只是举手投降，完全排除人们的过程。

将社会问题扫进 LLM 的地毯下

我们考虑使用 LLM 来掩盖挡在我们道路上的社会问题，这真的让人感到非常不安。这让我想起了我写过的另一个领域，即 LLM 的输出复制和模仿了它在训练数据中找到的偏见和有害内容。我们不是更深入地审视自己，质疑为什么这会出现在有机人类创造的内容中，有些人提出审查和严格过滤 LLM 的输出，试图隐藏我们真实社会世界的一部分。

我想这归结于这一点：我不赞成依赖 LLM 来避免尝试解决真正的社会问题。在某些情况下，我并不确信我们真的尝试过，在其他情况下，比如在民意调查中，我深感担忧，我们可能会通过这种策略创造出更多社会问题。我们有责任超越我们此刻关心的狭窄问题范围，并预测可能产生的连锁外部效应。

在www.stephaniekirmer.com阅读我的更多作品。