关于大数据与人工智能的未来

-回复 -浏览
楼主 2020-05-15 18:06:32
举报 只看此人 收藏本贴 楼主
数据分析师考试

关于大数据与人工智能的未来

看过几本大数据的书,吴博士这本,思路清晰,可读性强,于是,我不辞辛劳,从23万余字的著述中,摘要5千余字,试图厘清和记忆,并以此为基础拓展阅读。比如,李彦宏的《智能革命》,读起来,就有点“打脑壳”。

科学发展进程:实验科学,理论科学,计算机科学,数据密集型科学。 机器智能可以通过深度学习得到,从而将大数据挖掘问题转化为可计算问题来处理。 这是一个计算无处不在、软件定义一切、数据驱动发展的新时代。 以蒸汽机发明为标志以机械化为特征的第一次工业革命,以电的发明为标志以电气化为特征的第二次工业革命,以计算机和半导体芯片为标志的信息革命,以大数据应用为标志之一以智能化为特征的新一轮产业革命到来。 用不确定的眼光看待世界,再用信息来消除这种不确定性(是宇宙的特性),是大数据解决智能问题的本质。信息熵是基石。 机器智能革命的发生来自大数据量的积累达到质变的奇点。 计算机之所以能战胜人类,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。下围棋看似智能型问题,从本质上讲,是一个大数据和算法问题。 开发一种机器学习的工具,让计算机能够解决智能型问题。Google所做的工作是让这些算法能够在上万台甚至上百万台服务器上并行运行,这就使得计算机解决智能问题的能力有了本质的提高。AlphaGo的获胜,宣告了机器智能时代的到来。 AlphaGo的灵魂是计算机科学家为它编写的程序。机器不会控制人类,但是制造智能机器的人可以。 未来的社会,属于那些具有创意的人,包括计算机科学家,而不属于掌握某种技能做重复性工作的人。 数据:文字、图片、视频、影像、设计图纸、文物文字图示尺寸材料、宇宙中的基本粒子等等。范畴很大。 数据与信息,有相通之处,但是不同。信息是关于世界、人和事的描述,比数据抽象。可以是人类创造的,也可以是天然存在的客观事实,比如地球的面积和质量。有些信息藏在事物背后,需要挖掘和测量。西方物理学家看来,上帝在创造这个宇宙时,将很多信息埋藏在了黑暗之中,他们的工作就是找到这些信息,并且用数据描述清楚。数据的最大作用在于承载信息,但不是所有数据都承载了有意义的信息。那些有用的数据、毫无意义的数据和伪造的数据常常混在一起,后两种数据会干扰信息获取,如何处理数据,过滤掉没有用的噪声和删除有害的数据,从而获得数据背后的信息,成为一种技术甚至是艺术。 数据是文明的基石;相关性是使用数据的钥匙;统计学是点石成金的魔棒;数学模型是数据驱动方法的基础:什么样的模型及模型参数是多少。数据量要大,样本必须非常具有代表性。可以最大程度上得益于计算机技术的进步。数据成为下一次技术革命和社会变革的核心动力。
核心是变智能问题为数据问题。智能革命。 机器智能:图灵测试。语音识别,机器翻译,文本的自动摘要或者写作,战胜人类的国际象棋冠军,自动回答问题。 鸟飞派:人工智能1.0。机器像人一样思考,按照人的思路去做。仿生学。飞机,空气动力学。 传统人工智能与现代(比如数据驱动、知识发现、机器学习)的区分。工业界另辟蹊径:统计+数据。数据驱动+超级计算。贾里尼克,通信专家,认为语音识别不是一个人工智能问题,而是一个通信问题,编码,传播,解码过程。数据创造奇迹:量变到质变,Google翻译。用上万倍数据,训练出六元模型,可以构造整个从句和复杂的句子成分之间的搭配,直接对译。互联网出现,各个数据领域不断向外扩展,开始交叉,各个维度的数据从点和线逐渐连成了网,数据之间关联性极大增强,这样就出现了大数据。 大数据的特征:体量大,多样性(多维度),及时性(全面性、完备性)。Big Data.一种思维方式的改变。变智能问题为数据问题。对大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。决定今后20年经济发展的是大数据和由之而来的智能革命。 在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。 机械思维。思维方式决定科学成就。世界变化的规律是确定的,规律可以被认识,而且可以用简单的公式或者语言描述清楚,放之四海皆准,可以应用到各种未知领域指导实践。工业革命,机械思维的结果。 世界的不确定性。影响世界的变量非常多;客观世界本身是不确定的。
熵——一种新的世界观。克劳迪.香农。在信息论中借用了热力学里熵的概念,用熵来描述一个信息系统的不确定性。信息量与不确定性有关。香农第一定律:信源编码定律,对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。比如汉字编码,把最短的编码分配给最常见的汉字。香农第二定律:信息的传播速率不可能超过信道容量。扩展带宽。最大熵原理:当我们要对未知事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。被广泛应用于机器学习。
大数据的本质:体量大,多维度(互信息;交叉验证),完备性(交叉熵,对两种概率模型代表性或者一致性的一种精确的量化度量。小概率事件,是数据驱动方法的死穴,黑天鹅效应。) 从因果关系到强相关关系。 数据公司Google.当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。各公司的商业策略和产品策略都围绕着获取数据、建立相关性开展。在Google内,点击模型的使用标志着工作方法从传统的“遵循因果关系”,逐步变成了“寻找相关性”。Google的广告系统每次播放什么广告,不是由任何规则决定的,而完全是利用数据、挖掘相关性的结果。大数据思维和机械思维并非完全对立,更多是对后者的补充,新时代的新方法论。 大数据与商业。巨大的商业利好:相关性、时效性和个性化的重要性。 大数据商业的共同点——尽在数据流中,把控每一个细节。2001年,普拉达的衣服价牌里藏着一个RFID芯片,智能试衣间,看到穿的效果,看到是由于设计、制作、还是销售环节的问题。金风公司,风力发电机,利用互联网,将发电价的各种数据(地点、发电量、运行情况)全部收集到公司,进行大数据分析,可以了解各种宏观信息,也可以有针对性进行市场推广;同时了解每一台发电机运行细节,有问题及时解决,也有改进依据。经营策略从依赖市场预测、打价格战,提升为高质量的服务商。 重新认识穷举法——完备性带来的结果。商业上,大数据不仅便于掌握大局和每一个具体细节,而且改变了人们开发产品和解决问题的思路,这些做事方法的变化很大程度上是大数据的完备性带来的。Google的自动驾驶汽车,把自动驾驶汽车这个看似机器人的问题变成了一个大数据问题。街景项目的延伸,只能去“扫过街”收集到非常完备信息的地方,直接调用数据进行参考。十多个传感器,每秒钟进行几十次各种扫描,同时大量的数据要在短时间内处理完,计算压力很大,与Google超级数据中心相连,整体数据量及计算能力远超其他公司。Google拥有最好的全球地图数据。交通事故的发生是因为数据的缺失,一个小沙袋,没见过,试图绕道,但没有方向盘,无法人为控制。大数据多维度的优势,让Google赶超很多全球著名的汽车公司。 大数据的作用:新技术+原有产业=新产业。现有产业+大数据=新产业;现有产业+机器智能=新产业。 技术改变商业模式,导致社会生活方式的变化。加(+)大数据缔造新产业。智能冰箱。小米与格力。小米是以互联网公司方式来经营手机业务。手机只是获得用户的手段,获得后,需要通过其他方式挣钱,配件,可穿戴设备,其他产品线。以家电为主的垂直电商,注重对用户行为分析及数据作用,有可能在一些垂直领域做得比传统电商更有效。格力,传统家电企业典型代表,如果不利用大数据转型,非常危险,可以通过一些产品跟踪技术,采集用户数据,不再受经销商控制。未来,商家将在数据层面和智能化方面展开竞争。 技术挑战:数据量爆炸式增长。产生、存储、传输、处理。产生:电脑、传感器(射频识别芯片,跟踪物品)、过去信息数字化,网络用户个人数据。存储:邮箱、日志、半导体的固态存储器(SSD)容量增加成本下降。传输:第四代LTE有效传输率达到2-10MB/s,WIFI、蓝牙标配,数据可以迅速传输到服务器。处理:多维度、并行化处理,交换机及网络速度必须非常快。云计算兴起。互联网、廉价服务器、比较成熟的并行计算工具,实现了大规模并行运算,大数据处理成为可能。 数据收集:看似简单的难题。没有前提与假设。没有目的性,全面的数据。间接收集,利用相关性导出自己想要的信息。 数据存储的压力和数据表示的难题:数据量增长的速度高过存储设备的发展速度,并且差距拉大。需要技术解决方案提高存储效率。存储同样的信息占用空间小,非简单数据压缩。数据安全,不丢失、不损坏。3+1份拷贝。怎样存储便于使用。重新设计通用、有效、便捷的数据表示方式和存储方式。数据建立索引,医疗、半导体设计、飞机制造等数据量大且复杂,随机访问较难。还有如何标准化数据格式,便于共享。要先解决数据的表示、检索和随机访问等问
我要推荐
转发到