草 稿

《大数据时代》读书笔记(四)

价值:“取之不尽,用之不竭”的数据创新

  1. 1、路易斯·冯·安(Luis Von Ahn)的两次创新价值(特别是第二次)

    第一次:验证码(全自动区分计算机和人类的图灵测试),判断用户是人,杜绝或减少垃圾软件恶意注册或发送垃圾邮件等。

     

    第二次:ReCaptcha系统,有效利用人的计算能力。从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入,其中一个单词用来确认其他用户已输入的结果,从而判断用户是人;另一单词是有待辩识和解疑的新词。为保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单词是对的。

     

    在这里,数据的主要用途是证明用户是人。同时,破译数字化文本中不清梦的单词。

     

    价值:每天完成的ReCaptcha超2亿,按平均每10秒输入一次,一天加起来共50万小时,而2012年美国最低工资是每小时7.25美元。从市场角度看,解疑计算机不能识别的单词每天需花费约350万(每年约10亿多)美元。冯·安的这个系统实现了同样的目标,没有花一分钱。

  2. 2、数据可重复使用并不断产生价值(”数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分隐藏在海平面之下”)

    数据为信息收集和处理提供依据。

     

    不同于物质性的东西,数据的价值不会随着使用而减少,而是可以不断被处理。(可以不断有新发现,产生新价值。)

     

  3. 3、数据的价值是其所有可能用途的总和。

    实现哪一种用途,在于如何选择。(换言之,对同一批数据,目标、方式、角度等等不同,均能产生不同的作用和价值,本书归纳为数据的选择价值)

  4. (1)数据创新1:数据的再利用

    如果得到正确使用,即使是最平凡的信息也可以具有特殊的价值。如移动运营商记录的人们的手机在何时何地连接基站的信息。(即位置定位)

     

    单个数据、数据汇总皆可再利用(实质是只要需要,想得到,都有可能不断在数据中挖掘新东西)

  5. (2)数据创新2:重组数据

    用新方式混合不同的数据集。

    数据的总和比部分更有价值。

    多个数据集的总和重组在一起,重组总和本身的价值比单个总和更大。

  6. (3)数据创新3:可扩展数据

    数据的可扩展性,即二次用途或同一个数据集的多种用途。

  7. (4)数据创新4:数据的折旧值

    数据并非永远有效。

  8. (5)数据创新5:数据废气

    是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。

    通过分析用户的动作,完善相关系统的算法,不断训练完善该系统。

  9. (6)数据创新6:开放数据

    大部分的数据价值是潜在的,需要通过创新的分析来释放。

    提取政府所采集的数据的价值最好的办法是允许私营部门和社会大众访问。

    美国联邦政府的公开信息资料库——data.gov

  10. 4、给数据估值

    数据是新产品和新商业模式的基石。

率先点赞

评论(0