数据测算知多少?美国大选和累犯预测、难民调查算法一览
无论是打车计价、节庆秒杀,还是大选预测、犯罪防控,算法都无处不在。算法是如何揭示问题本源的?它们精确的秘诀是什么?它们会有怎样的潜在问题?我们精选了全球深度报道网每周数据精选(Top ddj)中三个工具及报道涉及的算法,为你揭晓答案。
1. 谁将赢得2016美国大选?PollyVote稳定预测有妙招
2016年美国大选谁会胜出?是主张“建墙防墨西哥人偷渡”、坚决反对医保法案的纽约地产大亨川普?还是强调移民改革、捍卫医保法案前国务卿希拉里?是共和党候选人还是民主党候选人的选情更胜一筹?想求靠谱预测,不妨试试PollyVote。
众所周知,预测的计算一般是基于民意调查或预测市场、专家判断等,由政治学者和预测专家于2004年开发的专业工具PollyVote.com则是综合考察民意调查、预测,预估结果更稳定、出错更少。其结果主要用于学术研究,没有商业利益干扰。所有人都可使用API获取每小时更新的数据(2016大选和往届大选的数据),任意分享、嵌入网站。此外,该项目还供用户免费浏览图表、自动生成解释文本,便于读者理解数据。看下图的自动文本,简洁易懂,深感自动生成新闻的前途无量啊…
进入网站,可看到两党支持率变化的曲线图(目前民主党以52%领先于共和党的48%),两党数据相对而列,便于看出差距和趋势,可只查看最近30天的数据对比。
PollyVote在地图上标注出了两党在各州的选情:以红蓝分别代表共和党和民主党,深浅表示支持程度,可以看出支持民主党的选民大多分布于西海岸和东北部地区,而共和党的选民则聚居于中南部。
该工具对以往三届美国大选的预测误差率均小于1%,表现不俗。要想持续关注预测结果,可以订阅汇总自动解释文本的新闻简报。
表现如此稳健的预测工具用了什么神奇的算法呢?答案是:综合预测方法所得结果。计算分为两步,一是求出同种成分分析法计算结果的平均值,二是求出不同成分分析法计算结果的平均值。其道理是均衡每种分析方法的影响,比较不同方法求得的预测结果。这一点不难理解:例如,现在仅有一种预测市场能预测全国支持率,却有多个计量经济的模型作了预测。如果我们仅计算它们的平均值、记入预测结果,就会多算了模型而少算了预测市场的影响,准确度就大打折扣。
点击此处即可查看PollyVote的预测。
2. 罪犯预测软件内含种族歧视?ProPublica揭开算法真面目
在美国,越来越多的法官和其他司法官员用算法预测罪犯成为累犯的可能性。COMPAS是美国最受青睐的算法工具之一,在庭审和判决前的使用率与日俱增。它到底靠不靠谱呢?ProPublica的分析发现,在其预测结果中,黑人罪犯被视为累犯的几率更高。
他们是如何得出该结论的呢? ProPublica的团队申请公开记录,从州长办公室获得了佛罗里达州布劳沃德县2013、2014年18610名被告罪犯在COMPAS上测得的分数,为每名罪犯建立了犯罪记录表。为了查验分数,他们将这两年间COMPAS计算的累犯率(包含累犯率和严重累犯率)和实际作案率比较,排除了姓名、出生日期不符的情况。
结果发现,COMPAS的准确率达61%,但“严重累犯率”准确率仅为20%,且黑人罪犯的“严重累犯率”是白人罪犯的两倍。即使控制过往犯罪、未来累犯率、年龄、性别指标的影响,黑人累犯率比白人仍高出77%。
由此,他们做出了报道“机器背后的歧视”(Machine Bias),通过误判的罪犯案例透视算法为何产生歧视效应。
3. 难民缘何频遭暴力?《时代周报》解剖官方弊病
不少人认为难民潮会带来混乱,但忽略了难民遭受的暴力事件猛增、司法部门惩办不力的事实。德国《时代周报》的记者从阿马迪乌·安东尼奥基金会、德国联邦刑事警察局、德国联邦政府等权威机构获取数据,分析了747起构成犯罪的难民居所袭击事件,意在检视难民营所遭暴力的全貌。他们由一系列问题指引,细化特点、追踪原因:暴力事件的类型有何不同?袭击是否造成伤亡?案件是否指认了犯罪嫌疑人?他们是否受到起诉?定罪情况如何?
研究表明,2015年1月至11月间,德国共发生了222起难民营袭击案件,多达169起案件仍未确认罪犯,已确认的案件仅有41起。但起诉的仅8起,定罪的仅4起,占全部案件的5%,其他案件中的罪犯均逍遥法外。
在所有案件中,纵火案发生率高、破坏力强。2015年1月至11月间,纵火案数量猛增——从1月至6月的5起以下,增至8、9月的16起,甚至在10月蹿升至20起。近半数纵火案针对的是有人居住的房屋,无人居住的房屋遭遇纵火案的次数也骤增。
纵火案类型不同,得到解决的程度也不同。多达76%的纵火袭击案未得到解决,而这一比例在预谋纵火案和加重纵火案中则分别降为64.3%和47.5%。在莱比锡、汉诺威等城市所在的萨克森自由州,同期就发生了64起纵火案,平均每10万居民就遭遇1.58起纵火案。
为何这些案件的处理如此不力?记者发现,部分原因在于案件本身侦破大,多数案件发生在夜间,肇事者逃离迅速,常用燃烧瓶、抛射弹等远距离投射。而且,这些难民营远离市区,目击证人少。如果被袭房屋无人居住,鲜有人问责,调查也就悬而未决了。
更关键的原因是,德国很多地区缺乏警力和犯罪专家。特别是在东德地区,近来警察的数量持续下降,同时暴力事件发生率也日渐上升。下图显示的是,德国各州受联邦预算支持的警察机构中全职警察的比例,巴伐利亚州、北莱茵-威斯特法伦州和巴登-符腾堡州等德国南部、西部地区的警力充足,而在萨克森-安哈尔特州、梅克伦堡-前波美拉尼亚州和勃兰登堡州等德国东北部地区则情况堪忧。
如果想详查每个案件的情况,查看他们的可视化地图便知,按照犯罪类型、调查现状查看,或者点击“播放”按钮自动查阅案件。