《大数据》一书对美国大数据的应用进行了十分详细的介绍与分析,我印象最深的为两点。
第一,以海量数据的处理作为政策制定的依据。看这本书的时候,我想到了这两年很火的一个美国人——斯诺登。在其曝光的“棱镜”计划中美政府直接从包括微软、谷歌、雅虎、Facebook、AOL、Skype以及苹果在内的国际公司服务器收集信息。美国政府从这些海量数据中寻找自己需要的数据,并以此作为所谓安全政策制定的依据之一。姑且不论媒体对此计划的口诛笔伐及相应的道德风险,仅从政策制定方面来说,依据于海量数据的政策制定科学性肯定比一般计划要高得多。
2007年,雅虎 首席执行沃兹博士在《自然》上发表的《21世纪的科学》中提到,得益于计算机技术和海量数据库的发展,我们每个人在现实世界中的活动得到前所未有的记录, 这种记录也更为细致,为社会科学的定量分析提供了极为丰富的数据。打个比方,从你的QQ空间、微博、微信中一个普通朋友都能了解到你在哪儿、做了哪些事 情、现在的状态是什么,而新闻的跟帖、网站的下载记录、社交平台的互动记录等等都为社会行为的研究提供了大量的数据。我想到最近比较火爆的穿戴设备,如果 该技术得到普及过后,拥有穿戴设备的人群的生活轨迹、生理各项指标都能轻而易举地得到,相信这些大量的原始数据如能安全有效利用定能为卫生政策的制定提供 科学依据。
第二,万事万物, 凡存在,皆联网,凡联网,皆计算。2005年起,美国食品与药品管理局开始在药品上推行配备RFID做法即每个食品包装上安装一个薄如纸张或小如豆粒的无 线传感器。通过这个移动传感器,对食品进行连续跟踪,一旦相应的安全事故爆发,就能通过数据库追踪溯源,快速确定传染源与影响范围。这一技术相对于国内尚 在起步阶段的食品追溯具有极强的借鉴性。上面提到的穿戴设备其实就可以视为一个穿戴在人身上的RFID。
2010年的时 候,美国国家气象局在全国2000两客运大巴上装备了传感器,随着大巴的移动,沿途手机所有地点的温度、湿度、露水、光照度等数据,并立即传给国家气象局 数据中心。数据的采集是每10秒中一次,每天采集10万次以上的数据,这些实时的、高精度的数据意味着天气预报将不再仅仅是”预“,将逐渐走向“实”报、 “精”报。
传统的古代文学教学模式在讲授具体作家时,对其生平事迹往往按照时间顺序进行串讲,何年中举、何年入仕、何年升降,以及这一时期的文学思想与诗文创作等,这种平直的简介往往不能给学生留下深刻印象。关于作品的讲解,由于课堂时间有限,教师不能对作品做详细的解读,只能走马观花粗略鉴赏;学生大体疏通文意,虽了诗文字面的含义,但常常是不求甚解,至于诗境、文心,因为缺乏对诗文创作背景、时代环境等的了解,难以有情感的体验,没有情感的浸润,也就难以有审美的体验。王兆鹏教授《唐宋文学编年系地信息平台》的建设,为古代文学教学中有关作家作品的讲解提供了一个新的思路。
王兆鹏教授与搜韵诗词共同打造的《唐宋文学编年系地信息平台》,通过将现有的唐宋作家作品编年信息录入数据库进行数字化处理后,与当代、历史地图进行整合,利用GIS技术开发了以地图为平台的信息系统。进入平台后,随意点击地图中的某一地名,就可以看到唐宋哪些文人曾在此停留并留下了哪些篇章;从平台的诗人列表中点击某一诗人的名字,其一生行迹路线图清晰可见。路线图和文字说明相结合,更便于人们直观地了解一个文人的生平轨迹和具体创作。这一信息平台很好地实现了时空维度的交融,而这正是我们在教学中经常忽视的问题。
以苏轼为例,按照现有古代文学史的教材来讲解,大多是先讲苏轼的生平、人生观、创作道路、创作思想,然后以分体的形式讲解其文、诗、词创作等。这样就把作家、作品一分为二地进行讲解,学生所接收的信息是颇为概念化的。由于模糊了时空的问题,给学生的印象就是苏轼其人很旷达、苏轼诗文风格豪迈,而忽视了苏轼文学创作中兼收并蓄的特点。鉴于大数据的丰富资料,在讲解苏轼时我们不妨换个思路,将其人生轨迹与文学创作历程同时进行考察。首先,借助于北宋行政区划图大致拟定其人生轨迹,嘉祐元年(1056年三月苏轼兄弟随父亲离家赶赴汴京参加进士考试,及第同年即丁忧家居。到嘉祐四年(1059年十月,父子三人再度赴京,三人一路唱和编成《南行集》,这是现存苏轼中最早的一批作品,可以看作是他诗歌创作的起点。其次,从嘉祐六年(1061年至嘉祐八年(1063年,以组诗《凤翔八观》为代表的古体诗,关心国事、反映民生疾苦,艺术上也渐趋成熟。熙宁四年(1071年苏轼到达杭州,任通判(知州的助理官,杭州的秀丽山水给诗人带来了极大的创作热情,苏轼描写西湖的诗作已经成为家喻户晓的名句。从苏轼词集来看,他也是从这一时期才开始填词的。再次,熙宁七年(1074年至熙宁九年(1076年,任密州知州,这一时期词的创作有重大发展,初步形成了豪放词风,代表作有《江城子密州出猎》《水调歌头明月几时有》……。在时空的交汇中梳理苏轼的文学创作,黄州、惠州、儋州时期的创作高峰,在京为官时的创作低潮,都清晰地展现了其诗文创作的动态变化。而通过这一变化,更利于学生深入认识、体会苏轼文学风格的特点及形成过程,这较之单纯地讲解、总结,学生的学习热情和学习效果肯定会有所提升。在大数据背景下,借助众多数据和新媒体,这一教学方式得以轻松实现。
上周把黄伟豪写的《数据分析思维:产品经理的成长笔记》一书看完了,虽然讲的是不同领域的数据分析思维,但也算是小有收获。
作者从事的是金融行业,具体来说是在四大行中的一家工作,从技术岗位到产品岗位,跨度较大,书中讲述了作者在工作中遇到的一些数据分析案例,通过数据指导业务发展。其实很多时候并不需要用到很高大上的算法、模型,即使是使用最基础的分析方法,只要能解决问题,提供不同的思路,同样是可行的`。除了提到工作中的案例,作者还介绍了他是如何走上数据分析之路,他的工作方法,对数据分析在工作中的应用,面面俱到。同时,作者也展望了,从IT时代到DT时代,银行业从业者该如何去迎接挑战,提出了自己的想法,是否切实可行,那就不是我这个外行人能评述的。
对我来说,感触最深的就是作者提到他自己也在运营一个公众号—萌大叔的数据哲学,因为要写文章,每天除了本职工作外,业务时间用来看书、思考、总结,最后写成文章,作者曾连续三个月每天更新一篇文章,提到这些,我是深有同感,当然我的产量、质量肯定是不如人家,在做这件事的过程中,感觉就是有一只隐形的手在指引着我,促使我必须不断去思考这段我在工作中有没有新的收获,比如是否使用到新的工具,又或者说对工具中的某些功能的掌握是否更扎实,工作中是否有用到某种分析方法、工作思路又是如何形成的,把前述思考记录下来,一是对自我工作的总结,就是从一件件小事中摸索出来的。除了对现有工作的思考、总结外,必须把眼光放得更远,近期或远期有可能会用到的工具,现在是不是可以开始学习,学习的也可以记录下来,更能加深学习的效果,将来如果要用到,一时想不起来该如何操作,也有备份,这些事情都是当下及之后一段时间可以去做的。
习惯的养成是非常重要的,即使刚开始写的质量不高,但必须坚持下来,不断改进,从量变到质变肯定是有一个过程,而且这也要求自己必须不断去学习,只有不断的输入,才会有更多的输出。读书也是,不必只限于与工作相关的书籍,或者是自己感兴趣的书籍,涉猎不同类型的书,视野才会更开阔,多了解些东西,至少不是件坏事吧。
不过有意外收获,作者在文章后部主要讲了,大数据带来的消极影响,例如政府会通过大数据判断一个人将要出现的违法行为,提前对他进行拘捕,或者监视(这个已经在纽约警察局使用)但这样带来严重的后果,现在的法律是基于人已经发生的行为进行处罚,如果我们今后使用这套系统来作为法官的判决依据的话,这样就违背降低我们作为人的重要组成部分---自由选择的能力,行为责任自负。这便成了集体选择的结果,不是个人自由意志了。这样在否认个人为其行为承担责任,实际上就是在摧毁人们自由选择的权利。而且现在的预测不能达到很准确的答案。分析的数据质量不佳就会加剧问题的不良后果。
作者最后说了这么一段话“大数据不是一个充斥算法和冰冷机器的世界,人类的作用依然无法替代,大数据为我们提供的不是最终答案们只是一个参考答案,暂时的,只是问了等待更害的解决办法,在不久的未来。”
另外一个随之而来的问题就是数据授权使用,泄露问题,数据会有二次利用发现潜在价值,但这又产生更严重的问题,二次利用如何授权管理,是否涉及违法。解决办法是通过会计行业,可以有一个充当审计工作的外部算法师,作为第三方公证机构在出现问题时,可以进行审核算法和数据的使用情况,在公司内部也可以设立内部算法师,很类似公司自己的律师一样,一方面参加产品研发,另一方面在公司使用数据出现问题时也可以及时阻止,提醒。
大数据确实在某种程度上可以降低风险,保护国家安全,但信用卡,保险业就会通过大数据分析拒绝一部分人(因为他们还不起账),但我们想想,人类进步,就是通过反抗,妥协,权衡,再平衡。有了一切大数据的`预测,就少了很多的可能性,在某种程度会降低我们的社会进步。
说实话之前听到大数据的概念觉得很有前景,很神奇,很向往,这本书给我带来的更多的是对大数据会给我们带来不亚于克隆人的糟糕影响。让我有了对技术给人类社会带来的负面影响有了一个全面的思考认识。读到后半部分的时候,我很沮丧啊,觉得这么好的技术,竟然负面影响超过了正面的,我很失落,也不再看好大数据。不过后来作者的一席话让我重振信心,他举例,曾经印刷术出现之前大部分的书全部在修道院,教皇手里,有了印刷术之后人们有了书,有了更开阔的思路,更多的想法,有了言论等等,这个的影响力要比大数据大很多,人类还是一步一步建立起来相应的制度,法律,直到今天我们已经有了对应的很完善稳定的法律体系。
我们还是应该对科技充满信心,科技依然是那个推动社会进步的原动力,只是我们需要及时完善相对应的管理措施。
最后说说对作者写的书的评价吧,其实我觉得写的一般,不过很符合外国人的写书风格,简单明了,很容易看懂,理解都不需动脑子,举例很少(可能因为本身合适的例子就很少吧)来来回回就那几个例子,有点像我们高考,来来回回那几个例子,什么场景都能用,哈哈。总的来说还是不错的,评级6分吧。
最后说一句,美国确实在大数据上走在了前面,不是单纯技术上,技术科技学的很快,但是实际运用起来出现的问题,不是其他人能立即学会处理应对的,这又燃起了让我去美帝的***。
高校图书馆已全面启动特色数据库建设,在局部、个别馆取得了一定的进展,各高校能从多方面、多角度开发本馆的特色资源,建立形式多样的数据库,但是,据表一和表二统计数据看出存在的问题也比很多,特色不突出、很少把自己的突出的学科特色和地域特色作为建库的重点,70%以上学校自建的特色库还是处于自建自用的状态,不能被外网访问,没有实现资源共享,纸质文献的数字化没有深入加工,数据更新、维护停滞表现出特色库发展并不是沿着可持续发展势头进步,整体上建设还处于初级阶段,没有形成较为完善的建设体系、共享体系和服务体系。
© 2022 xuexicn.net,All Rights Reserved.