前言-2

前言-2

00:00
14:40

然而《为了人民》的报告显示,和黑人被告相比,这个软件有两倍的概率会将白人被告误标为“低风险”;同时和白人被告相比,又有几乎两倍的概率预测黑人被告将再次犯罪。导致的结果就是,在一名没有历史犯罪记录且仅是盗窃二手自行车和踏板车未遂的18岁黑人女性,与一名曾因持械抢劫未遂被判入狱五年却再次因入店行窃被捕的41岁白人男性之间,这个软件给前者打了更高的风险值。这个本来设计为司法系统消除人类无意识偏见的软件恰恰表现出了自己的无意识,或者更准确地说,非意识的偏见。

带有种族歧视的风险评估绝对不是证明算法不可靠的唯一证据。最近媒体报道了众多案例,包括社交媒体推送关于关键性选举的虚假新闻、招聘广告中的性别偏见、搜索引擎自动补全算法中的反犹太主义倾向等。这不禁让人思考,为何看起来本应是理性和不带感情的实体,会表现出如此类人的特征。

近来,大量算法失效的案例频现,批评家开始质疑在各行各业的众多关键决策中引入算法的是否正确。数据科学家和政治活动家凯茜·奥尼尔认为大数据的现代算法不透明,可能产生许多因未知的偏见,反而加深了歧视。她称之为“数学型杀伤性武器”[注],要求建模人员在创建算法时必须负起更大的责任,并要求政策制定者们约束算法的使用。哲学家尼克·博斯特伦和其他评论者们则想得更远。他们认为,人工智能的不可预测性与生俱来,这将会对人类的生存造成威胁。



尽管有着种种顾虑,基于人工智能的现代算法还是被普遍接受了。放弃这些算法,就好比石器时代的人类仅仅因为难以控制,就放弃使用火种。医疗诊断领域的先进算法可以拯救性命,无人驾驶汽车的先进算法可以减少事故和伤亡数量,金融领域的先进算法可以降低我们投资积蓄的花费。这些以及更多的益处似乎可以抵消算法时不时变得不可靠的代价。但与此同时,我们也不能无视有能力代表我们做出决策的自主算法带来的众多冲突和挑战。我们忽视这些问题的时间越长,算法决策的不良副作用就可能越顽固越难以消除。另外,人类用户或许也无法信任以不可预测的方式运行的算法。举例而言,研究表明人工智能算法能显著提高对于许多疾病的诊断效率,但如果医生对这些可能会出岔子的系统并无信心,那这些算法也就丧失了潜在价值。

很多评论者都提出,人工智能的算法代表着当前人类发展最为伟大的机遇。这种说法也许没错,但这些算法的不可预测性也代表着最为严重的威胁,而且我们作为终端用户究竟可以采取些什么措施也不甚明了。本书将就此问题展开讨论。具体而言,我将深究算法的“内心”,回答三个相关的问题:1.算法以不可预测、带有偏见、可能有害的方式运行的原因是什么?2.如果算法可能是非理性不可预测的,那我们如何决定何时使用这些算法?3.我们作为在日常生活和工作中使用算法的个人以及社会群体,如何编导算法影响我们的故事?

当我开始动笔写这本书时,我并未察觉这些问题中的微妙之处,但之后我逐渐意识到这些问题的答案可以在人类的行为研究中找到。在心理学和遗传学领域,行为经常被归因到我们的基因和环境因素的影响,这就是经典的先天与后天的论点。基因可能对嗜酒倾向或精神分裂症等精神疾病负责,但单凭基因并不能完全解释我们的行为。环境因素,例如父母朋友的习惯可能对酗酒的形成有影响,而诸如病毒感染和营养不良的环境因素可能对精神分裂的发作有影响。

类似的,我们也可以将算法的异常行为归因为先天和后天的诸多因素。在后面的章节中,我将介绍这种看待算法的新方式,并在文中澄清我对“先天”和“后天”的具体定义。这套框架能够帮助解释微软的小冰和Tay的迥异行为,更重要的是,将加深我们对于算法的理解,给我们指明驯服算法的道路。

***

2010年5月6日,纽约市迎来了不合时令的温暖天气,华尔街则进入了不同寻常的紧张一天。没有人能确定希腊政府是否会拖欠其数千亿美元债务,投资人以不同寻常的速度交易着,尽力保护自己不受违约可能造成的影响。午餐时间前,某些公司的股价波动过于激烈,以至于纽约证券交易所不得不频繁暂停电子交易系统以平定股价。但这些波动和下午约两点半发生的事情比起来简直就是小巫见大巫。根据美国监管机构的一份报告数据以及一些研究员进行的交易活动分析结果显示,一家大型共同基金集团决定在一家名为Emini的跟踪标普500指数的交易工具上出售75000份合约。

这家基金之前也曾大量出售过此等规模的合约,但都是通过人类交易员和算法共同进行,会综合考虑到价格、时间和数量的因素,此时出售75000份合约大概需要5小时。而5月6日那天,那家基金使用了单一的算法来交易,仅仅花了20分钟。Emini和另一家跟踪标普500指数的交易工具上的价格崩盘,大量买家消失了。随后,交易算法间发生了多米诺效应,因为算法注意到了彼此的行为,于是都企图通过抛售更多股票退出市场。这一举动导致了更大的市场失控。仅仅16分钟后,道琼斯工业平均指数产生了超过三倍的当日损失。下午3点,一些蓝筹股或是以仅仅1美分的价格交易(例如咨询公司埃森哲),或是以100000美金的价格交易(苹果公司)。根据一些估算,仅仅34分钟内,几乎1万亿的市值蒸发了。

那些最极端的股票交易随后被撤销,收盘时市场恢复至约3.2%的跌幅。但这一次被称为“闪电崩盘”的事件吓坏了监管人员。2015年,美国商品期货交易委员会通过了一项规则,赋予了自己和美国司法部无须传唤即可访问交易公司算法源代码的权力。其逻辑是对源代码的访问有助于监管部门理解某些交易背后的原理,从而允许监管者更好地诊断有问题的交易并且监管交易算法。

这一决定引起了金融业的公愤。源代码是他们交易策略的独门绝技,他们完全不愿意和无法充分保守秘密的机构共享自己特有的软件。面对这一骚动,美国政府在一年后退让了,对自己何时可以要求访问代码设定了更高的门槛。然而,面对这项权宜之计,批评家们仍未满足。“这一条规则提案是在滑向深渊的道路上迈出了鲁莽的一步。”美国商品期货交易委员会(CFTC, Commodity Futures TradingCommission)的委员J.克里斯托弗·吉安卡洛为金融业辩护道,“今天联邦政府向交易公司索要似乎没有个人隐私的算法的源代码,明天全球政府就能来索要全体美国人个人信息管理和匹配的源代码,他们的Snapchats[注]、他们的推特、他们的Instagrams[注]、他们的网购数据、他们的读物选择以及他们的政治和社交偏好。”



吉安卡洛的观点是否正确另说,但我觉得这场讨论中缺失了重要的一点:即使将来监管者们确实拿到了源代码的权限,也许他们从中也看不出什么名堂来。对于美国监管部门伸手过长的批评声没有考虑到一个重要的事实:即使2010年的源代码确实能给商品期货交易委员会或竞争对手们提供大量算法策略的信息,今天能从源代码中读出的信息也少了很多。这一趋势无疑只会继续下去,原因就在于华尔街和很多行业正在稳步地用机器学习代码替换只会亦步亦趋遵循煎蛋食谱(或股票出售指令)的老式算法。其中应用最广泛的就是完全不透明的基于神经网络的机器学习技术,它们对策略和行为的学习就算是编制算法的程序员自己都无法预测、无法解释,有时甚至无法理解。

以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!