仅用 3.8 元!身份信息、通话记录、消费账单、人脉关系、门牌号全买到 记者向探知数据购买到自己信息,报告多达 33 页,并有详细的量化评分;他们通过打擦边球获得用户授权,大量爬取、搜集个人隐私 来源:南方都市报作者:李玲 南都记者从探知数据公司花了 3.8 元买到自己的详细运营商报告。报告把记者常用的 30 位联系人单独拎出,统计了近 24 小时、1-7 天、7-30 天、30-90 天、90-180 天 5 个通话时段的联系次数。 在南都记者获取的支付宝报告里,更是将花呗的历月账单,还款金额和时间都显示出来。不仅如此,还罗列出支付宝的历史消费统计,甚至连南都记者 8 月 25 日在家缴了一次 110 元水费都有记录。 被爬取的淘宝账户信息里,有关联的支付宝信息,记录了账户和余额宝金额,和花呗总额度、可消费额度等。 你的通话记录里,最常用的 30 个联系人是谁,你家住何处,经常在哪儿活动,余额宝里还有多少钱,在什么时候买过几件内衣……这些你以为的私密信息,其实都可以被轻易查到。 南都调查发现,一个隐藏在现金贷平台背后的数据产业链正在悄然活动,其危害较之于一些开房记录查询服务更甚。 具体做法是,现金贷平台向数据公司购买所谓的“数据产品”,由后者通过爬虫技术,爬取用户在移动通信运营商高防服务器、淘宝等知名电商网站、微信支付宝等社交网络上的行为轨迹,以及包括央行征信报告、水电煤使用等在内的生活信息,作为平台放贷前评估用户风险的“风控奇招”。此举在维护现金贷企业一己之利的同时,将用户的个人隐私置于极大的风险当中。 更惊悚的是,数据公司在采集了这些数据后一般会“深度开发”,将其分割成千百个维度来进行分析,然后一张关于你的完整用户画像就此诞生。而被多维度分析的你,却并不知道自己是如何授权他人获取到这些信息的。 “你孩子那么可爱,不想他出啥事吧?” “我上岸了。”这是每个深陷网贷漩涡的人共同的心愿。 两个月前,32 岁的阿伦跑路了。因为迷上游戏厅的赌博机,阿伦几乎赔上了所有积蓄,曾两天内输光了一个月的工资 3000 多元。在身无分文的情况下,他注意到了一则“2 分钟注册,5 分钟审核,极速放款”的现金贷广告。 一开始能向平台贷多少钱?这往往需要用个人隐私来交换。上传本人持身份证照片,填写详细住址,读取手机通讯录,认证运营商和电商信息等,用阿伦的话来说,“交出的个人信息越多,可借款的额度也就越高。” 初尝来钱快的甜头后,阿伦一连借了十几个平台,直到“拆东墙补西墙”都难以填补漏洞。在被威胁爆“通讯录”,群发欠钱不还短信前,他逃走了,怕在亲朋好友前“失了面子”。不过这四五万元的欠款,一天天利滚利,他想甩都甩不开,只能靠拼命打工苦苦支撑着。“小贷吸血,慢慢熬吧。再也不赌的话,也许就上岸了。”阿伦对南都记者表示。 11 月 12 日,四川内江市 36 岁的孕妇叶某喝下一瓶农药自杀身亡。临走前,她只留下一句话,“我在外欠了七八万元债。”叶某的丈夫李先生告诉南都记者,在妻子的笔记本里记着 12 家网贷公司的名字。 第二天,他们一家人先后接到了多家网贷平台的催收电话和短信。有的直言如不还款,将以恶意骗贷,涉嫌经济欺诈起诉,还有的威胁,直接微信转钱不然上门催收,“你孩子那么可爱,不想他出什么事吧?”“他在哪个幼儿园我们也知道”。 遭遇过如此催收的人并不少。在“2017 互联网金融合规与创新论坛”上,国家互联网金融安全专家委员会秘书长吴震指出,今年 6 月以来,发现违规催收 1000 万余次,施害人达 79 万,受害人 92 万,已致 20 余人死亡。 不难理解,催收人员为何能掌握叶某这么多个人隐私。除了网贷平台自行收集的用户信息外,有业内人士表示,一些数据公司还可通过技术手段,为平台提供借款人的更多信息。 定位到经纬度,还有所谓风险信息扫描 日前,南都记者通过随机检索,在一家名为探知数据的科技公司,仅花了 3.8 元就买到了自己的详细运营商报告。 报告达 33 页,内容涉及南都记者的基本身份信息,近半年的通话记录详情、账单消费、出行信息和人脉关系等,并有详细的量化评分。 数据显示,这半年时间里,南都记者共煲了 3 次超过一小时的“电话粥”,累计通话时长达 214 分钟。该报告还量化了夜间活动情况占比,为3%。其中,记者通信最频繁的是今年 6 月。 在消费记录方面,南都记者每月的手机话费在 200 元左右,半年充了 6 次话费,最大单笔充值金额达 500 元。 此外,报告还记录了出行信息。比如今年国庆期间,南都记者曾往返惠州、广州和深圳三地。过去半年有过一次出境旅游,在日本呆了 10 天。 更令人惊讶的是,这份运营商报告里还根据联系次数,将与南都记者进行过通话的 1000 个手机号码罗列出来,包括完整号码、归属地、通话时长、最早和最后通话时间等。 其中常用的 30 位联系人更是被单独拎出,统计了近 24 小时、1-7 天、7-30 天、30-90 天、90-180 天 5 个通话时段的联系次数。也就是说最近一天,被查询人给谁打过或者接到过几次电话,均可从报告中得知。 此外,报告中还能看到借款人的身份信息,定位到经纬度、门牌号的居住地址等,还有所谓的风险信息扫描。比如入网时长,黑名单通信记录,民间借贷、银行、P 2P 平台与互联网小贷等通信记录,甚至还有公检法和澳门通信记录等。 上海琥珀科技公司创始人李永庆告诉南都记者,运营商报告并不是简单罗列一个通话详单,需要很多数据进行交叉分析,据此可判断借款人是不是欺诈团队,最近有没有被其他网贷平台催收。 在网贷行业工作多年的王兰进一步指出,通过通话记录,甚至能大概判断出这是个怎样的人。王兰说,例如正常人的通话记录一般有来有往,而打出的电话较多,且都是几秒钟(快递送餐员例外),那这个用户的逾期率风险可能会高一些。 淘宝 25 页、京东 3 年数据仅需 1 元 除了运营商报告,南都记者从探知数据的一名产品经理处获悉,该公司可提供的服务产品还包括电商、社保、公积金、央行和学信网,查询结果五花八门。 其中,探知数据称可抓取的淘宝数据量最多为 25 页订单数据,而京东的抓取时长则包括用户近 3 年的数据,这样的电商报告价格并不贵,仅需 1 元。 对比两份电商报告,内容都非常详细。一年内,南都记者使用过哪些地址网购,使用的频率,消费类型和购买金额等均被一一标出。关于商品类型包括教育、演出商务、面部护肤、内衣等数十项,根据用户的不同消费占比,最后形成了一张消费价格区间和消费兴趣和行为分布图。 除了消费记录以外,用户的金融支付信息也有涉及。在探知数据提供给客户的京东报告中,标出了该账号绑定的银行卡信息,以及京东白条使用情况。而淘宝则关联支付宝信息,记录了账户和余额宝金额,和花呗总额度、可消费额度等。 在南都记者获取的支付宝报告里,更是将花呗的历月账单,还款金额和时间都显示出来。不仅如此,还罗列出支付宝的历史消费统计,甚至连南都记者 8 月 25 日在家缴了一次 110 元水费都有记录。 事实上,数据公司所能提供的数据还远不止这些。 该行业知名企业聚信立对外称,其数据源还包括社交网站,网上银行,水电煤,航空公司网站等,能从 5000 多个维度整合数据,已为 4000 多万独立借款人提供服务,日均撮合 7 亿多元贷款。 换句话说,在某个时刻,从个人的衣食住行到生活工作社交,你所产生的任何互联网数据都有可能被“人肉”出来,并进行多达 5000 个维度的解读。 预充值越高价格越低,甚至到几角钱 那么,这些细致无比的数据从何而来? 11 月 10 日,南都记者实地走访这家公司,相关工作人员以负责人出差为由拒绝采访,只是强调数据是经过爬虫技术获取而来的,并经过用户授权。 据南都记者了解,爬虫技术是一项被广泛应用于互联网行业的技术。 在现金贷领域的应用,爬虫技术常见于抓取用户相关的运营商数据、电商数据等信息,作为人工智能风控技术的数据补充。以往为了反欺诈和确定放款额,现金贷平台通常需要几天时间对借款人进行信审工作。现在依托爬虫技术所爬取的大数据,则可能实现秒贷。有业内人士称,如果借款人有借呗、京东白条、微粒贷额度,平台就直接放贷了。 此外,一些数据公司还专门面向现金贷领域推出同业爬虫产品,可以爬取到借款人在其他平台的贷款情况,如放款额、放款时间等结果数据。 这对发愁数据源和风控系统的现金贷公司来说,无疑是一项贴心的服务,可在风控环节省去不少力气,甚至直接使用别人的风控成果。李永庆对南都记者表示,这在一定程度上也降低了用户的实际借款利息。因为借助机器,从申请、审核到放贷的效率提高了,花在风控上的人工成本也就减少了。 一家刚起步的数据公司产品经理向南都记者透露,使用自家产品预充值越高,每份报告的价格就越低。如果预充值是 1 万元的话,运营商和电商报告售价不足两元,预充值达 10 万元的话,包括简单的多头黑名单等报告,几角钱即可买到。并且一提交申请即可秒出。 基于如此强大的数据分析和低廉的价格,这些爬虫产品受到市场的欢迎。但是通过爬虫技术获取各大网络平台的数据也存在不小争议。 今年 3 月,58 同城被爆出简历信息泄露。有卖家在淘宝上出售该平台的个人信息爬虫服务。只要支付 700 元就能购买一款爬虫软件,在登录卖家提供的账号后,每小时可采集全国 430 多个城市,以及 464 个职业的简历数据上千份。 除了自行爬取外,卖家还可出售经过简单清洗的信息数据,将姓名、手机号、求职方向、年龄等简历信息自动录入到 excel 表格中,具体价格 1000 条 50 元。58 集团对外回应称,这属于恶意抓取,将追查并加固信息安全系统,提升防爬虫技术手段。 对于互联网企业来说,最重要的资产是价值堪比石油的数据。谁也不愿自家积累的数据就这样被白白爬取,因此也都纷纷推出相应的反爬虫措施。 “主动把自家的钥匙给了一个路人” 尽管如此,爬虫有时仍防不胜防。因为一句用户授权,似乎让其有了合理的说辞。 支付宝相关负责人对南都记者表示,探知数据并非其开放平台的合作伙伴,也没有对其开放数据接口。对方平台通过用户给他们的授权,以用户的名义登录支付宝后,就可以看到该用户的信息。“简单来说,这相当于你主动把自家的钥匙给了一个路人,然后这个路人用这把钥匙开了你的家门。” 据南都记者了解,现金贷平台要求借款人进行电商和运营商等认证时,通常由借款人提供账号和密码,审核员人工登录运营商和电商网站,然后截图打印。 “这样问题更多,因为密码泄露了。”李永庆告诉南都记者。一名网贷行业资深人士表示,“过后我们会要求借款人修改密码。” 现在借助爬虫,道理其实相似。网贷公司先接入数据公司的A P I接口,出现数据公司的一个授权页面,让用户通过扫描二维码等方式,输入账号和密码。然后数据公司在自家服务器上通过爬虫模拟用户行为,登录相关网站获取数据。 针对爬虫问题,上述支付宝相关负责人表示,其公司已开发并在不断完善人机识别系统,以此判断是否有平台以用户的名义登录,并用脚本机器的爬取请求。一经发现,便会进行拦截或者需要用户校验通过才能继续操作。同时,对用户的敏感信息进行脱敏处理,比如把身份证和绑定的银行卡号作打星处理等。 “我们一直在做安全教育。从根本上讲,希望用户不要把自己的支付宝账号密码告诉其他平台。” 有业内人士透露,其实爬虫已经算是很合规的渠道了,毕竟还是要用户授权的。还有些公司会通过各种渠道花钱买数据,“想买的话都买得到”。 不管是为了更好地做风控评估,防止“黑户”欺诈,还是用于后期催收,借助爬虫工具,现金贷平台所能获取的个人信息超乎想象。 一个撸小贷的人告诉南都记者,“注册的平台多了,也就毫无隐私可言了。” “借款人要是知道了,肯定不愿授权” 爬虫引导用户去访问自己的账户系统,然后偷偷爬取信息 虽然数据公司宣称有用户授权,但专家对其中的授权方式也提出了质疑。 有爬虫行业的从业者表示,“我们爬虫业务几乎不跟P 2P 平台合作,因为国家打得严。而其中的灰色地带在于签约环节。”而且,在个人隐私保护和数据买卖等问题上,可能触及红线。 自己打开门但不知被爬取多少信息 根据网安法规定,企业收集个人信息应当经过被收集者的同意。也就是说,只有经过用户同意,企业收集个人信息才算合法。 在华东政法大学教授高富平看来,用户同意的前提是知情。“平台要访问获取我哪些信息,用于什么目的首先应该明确告知,超出这个范围则不能再用。在明确主体、信息范围、使用目的三个条件后,只有用户发自内心自愿同意后,才算真正的知情同意。” 很显然,用户并不知道自己会被爬取出这么多具体的信息。“所以这里的用户授权实际上存有瑕疵。”高富平对南都记者表示。“借款人要是知道了这些,肯定会不愿意的,尤其是因为这些数据借不到钱的人。”李永庆说。 据网贷行业数据安全专家韩洪慧介绍,爬虫爬取数据做了一个取巧的行为,即引导用户去访问自己的账户系统,比如手机营业厅、淘宝等,用户自己输入账户密码后,爬虫就进入账户系统爬取信息。用户自己打开了门,但其实不知道爬虫爬取了多少信息,也控制不了爬取的信息以后还会被用在哪里。 南都记者注意到,2016 年 8 月,银监会出台的《网络借贷信息中介机构业务活动管理暂行办法》指出,网贷平台应妥善保管出借人与借款人的资料和交易信息,不得删除、篡改,不得非法买卖、泄露出借人与借款人的基本信息和交易信息。 网贷公司有泄露个人信息嫌疑 韩洪慧认为,网贷平台采用外包模式,让第三方公司去爬取用户信息,有泄露用户个人信息的嫌疑。一方面,网贷平台无法保证第三方技术公司不留存数据,不将数据用作其他用途。另一方面,用户以为是网贷平台获得信息,但实际上不仅网贷平台获得信息,第三方技术公司也获得了,而且可能是全部信息。 他说,“这犹如我求你办事,你说要到我家看看情况。我给你打开了门,结果你让另外一个人进去检查,然后把检查报告给你,问题是你对那个人并没有太多约束力,他只是来临时帮忙的,于是我的家被一个完全不认识的人检查了个遍。” 更糟糕的是,网贷平台可能只要求技术公司获取三个内容,但技术公司获取了 30 个内容,最后只给了网贷平台 3 个内容,其他的都留给自己用了。 值得一提的是,所谓的授权还体现在数据公司和网贷平台的用户协议上。以探知数据为例,在其查询页面有相关的授权协议称,“您确认获得有效的转授权我们查看您拟查询的第三人(电商网站、运营商、学信网等)信息。” 南都记者查阅发现,不少网贷平台在用户协议里也提及,用户同意其公司有权将用户个人资料和信息,提供给依法设立的征信机构和个人信用数据库和关联方、合作伙伴,以及给第三方进行逾期账款催收。并且有权与任何第三方进行数据共享。 有数据公司相关负责人表示,原则上借款人要借哪家网贷公司的钱,就授权把个人信息交给哪家。“当中的数据公司都是工具,拿了数据别悄悄卖就好了”。 大数据公司私自保存他人信息违规 不过,韩洪慧对南都记者表示,大数据公司在帮助金融机构了解和分析客户的同时,也保存了数据。这样私自保存是违规的。数据积累越多,风险也越大。“毕竟数据不是自己业务产生的自然数据,再加上万一保存不好泄露了,好比定时炸弹”。 今年 6 月 1 日,网安法和“两高”个人信息司法解释开始生效实施,法规提及,“非法获取、出售或提供行踪轨迹信息、通信内容、征信信息、财产信息 50 条以上的即入罪。”整个大数据行业因此面临极大的挑战,大量数据接口被切断。 不仅如此,一个更现实的问题是,将来会不会出现手机联系的人越来越少,人们都用微信了。如此基于运营商的风控逻辑,将不再那么有效了。南都记者注意到,有数据公司已悄悄推出微信爬虫产品。不过,每家公司都有反爬虫技术,能否不间断稳定爬取数据,也是一大挑战。 李永庆告诉南都记者,“怎么在合规的情况下找到有效的数据,是不少公司需要考虑的问题。” (应采访对象要求阿伦和王兰为化名) 被爬取的个人信息武汉高防服务器 基本身份信息,近半年的通话记录详情、消费账单、出行信息、人脉关系、详细量化评分情况 联系次数,通话过的 1000 个手机号码罗列出来,包括完整号码、归属地、通话时长、最早和最后通话时间等。 其中常用的 30 位联系人更是被单独拎出,统计了近 24 小时、1-7 天、7-30 天、30-90 天、90-180 天 5 个通话时段的联系次数。 定位到经纬度、门牌号的居住地、入网时长,黑名单通信记录,民间借贷、银行、P2P 平台与互联网小贷等通信记录、公检法和澳门通信记录 淘宝 25 页订单数据、京东近 3 年数据 电商、社保、公积金、央行征信报告和学信网