
瑞乐普(Red loop)媒体公司的董事长哈雷尔·柯戴(Harel Kodesh)表示,大数据已经被应用在我们身边很多角落,我们甚至已经被大数据包围。
哈雷尔·柯戴指出,未来大数据处理肯定是基于模块化的,并且人们在不断开发新的工具,未来处理大数据不仅会越来越简单,而且会给小企业使用大数据、发挥它们长处的机会。这些能发挥优势的企业将不一定是谷歌、微软或者雅虎。因为每个人都能够使用大数据。
对于大数据现在发展趋势时,哈雷尔·柯戴认为,第一,大数据与大运算结合不可或缺,尤其是云计算使用,为大数据带来更多机会。第二,人们开始依赖大数据。第三,就是数据安全,要保证数据安全,是未来重要课题。哈雷尔?柯戴也同时提醒道,人们开始用大数据保护大数据,但不幸的是,现在不安全因素来自多个方面,但是总体来说大数据更加安全,“人们总不能因为害怕车祸而放弃开车吧!”
当下已经出现了一些匿名的社交网络,很多喜欢在不告知身份的情况下谈天说地。哈雷尔·柯戴认为,这种趋势会越来越普遍,因为人们交流和讨论的欲望很强烈。他们唯一不想做的就是将他们透露的信息与他们的身份相联系。我们要看一看这事情会怎么样发展。但我相信你会看到一种新的平衡:就像15年前被视为隐私的东西现在已经不再是不可告人的秘密了。但你会看到新的东西被视为隐私。而这仅仅是在社会层面。
Harel Kodesh(哈雷尔·柯戴)个人简历:
哈雷尔·柯戴(Harel Kodesh)什此前担任瑞乐普(Red loop)媒体公司的董事长,他目前是纽瑞哥(Nurego)股份有限公司的首席执行官。纽瑞哥股份有限公司致力于创造一种新型的云商务管理系统。
此前柯戴什先生是EMC公司云基础设施业务的总裁和执行副总裁,他还曾担任威睿(VMWare)的执行副总裁,并在莫兹(Mozy动态备份空间)公司担任首席执行官。莫兹公司完全归易安信所有,是易安信致力于备份服务的一块分支。
在2003年至2008年之间,柯戴在朗新(Amdocs)公司工作,担任团队总管和首席产品官。在这期间,他全权负责朗新公司的产品线。在此之前,柯戴什先生在温卡斯特(wingcast)公司担任总裁和首席执行官。温卡斯特公司是福特汽车和高通公司合资成立的,致力于提供全球范围的车载资讯服务。
在2000年之前,他在雷蒙德、华盛顿的微软公司担任过多种管理职务。最近的一次是,他担任信息应用部门的创始人和副总裁。在那时,他负责微软Windows CE(即移动windows)运行体系的发展和市场化。同时,他带领着微软的移动业务超越了其他产品,比如口袋电脑、自动电脑、微软的智能手机等。
以下是采访实录:
1. 现在很多事情都与大数据挂钩,您觉得大数据最应该用在生活的哪个方面?
大数据已经被运用于消费者领域。例如,你在亚马逊上买书,亚马逊就会根据其他购书者的评价来给你推荐另外的书籍。这是大数据运用的一个例子。大数据在消费者领域已经深深扎根。在过去的几年里,我们看到,正是消费者以及针对消费者的软件引领了大数据和人们自身想法的相互融合。游戏公司创造各种各样的虚拟产品,利用大数据来分析消费者对虚拟产品的购买情况。举个例子,游戏公司以人们买了多少虚拟雨伞作函数,来判断外面是不是在下雨。虚拟世界和真实世界之间有着十分有趣的联系。这是在消费者领域而言的。这个领域首先使用大数据,因为大数据在这个领域的运用比较方便易行,不需要管制。消费者软件比其他软件的编写快一些。
但如果谈到最重要的运用大数据的领域,那我们就要想想其它方面了。比如说,通用电气公司曾提到产业互联网,提到怎么连接各方,怎么从喷气发动机和汽车引擎中获取信息,以及怎么确保这些大型产业系统运行的最优化。所以大数据在产业这一块的运用可能是更重要的。同时,这一方面的运用真的能够通过改变产品的本质和外观来改变世界。比如我们说中国航空,或者是海上飞越的喷气式飞机,通常来说,两个引擎在飞行的过程中能产生5T的数据。系统就能够分析那些信息,并在飞行员发现引擎的温度不对劲或者出其他差错之前,将信息传递给飞行员,告知他引擎的运行状态,以及是否存在其它问题。所以你看,这就把航行当中所有的信息都适时告知了。这非常的重要,因为它有时候能救人性命。
另一个举足轻重的领域是医疗保健。正如你所知的那样,大数据能结合个人不同的特性,帮助打造更优的医疗方案。这些是使用大数据的重要领域。但是讲到大数据最先被应用的领域,那可能还是消费者这一块,然后是电信。电信服务商们在尝试使用大数据,以期对它们资本设备的使用进行优化。
2. 在数据中,有很多是没有价值的数据。大数据应用中应该如何去除这些数据,更好发挥有效数据的作用?
这是大数据不那么光彩的一面了。许多数据要么是没有价值的,要么就直接是错误的。我们来看看目前人们使用大数据的一个例子,即大数据在农业领域的运用。你可以在土地里放入传感器,然后传感器会告知你土地的湿润程度,且不仅仅是水含量的多少。通过预设一个数据,你能清晰地知道这片土地是干燥,还是潮湿,然后你再决定你需要为这片土地灌溉多少水。所以,你是依赖传感器来传递信息的。但是,很多数据从一开始就是错的,传感器也是漏洞百出的,因此那些你获得的数据和信息都没有价值。比如,传感器显示土地湿度是-5%。但是,很明显,土地湿度不可能是负值。正如你所指出的那样,许多的数据总体上是引人注目的,但是却对我们的决策毫无帮助。
所以那些使用大数据的技术也需要解决数据清理问题。你取用数据的第一件事情就是要清理数据。甚至在将数据从数据源中取出放入存储地之前,你要先确认你输入的数据是有效的。有时候,你要滤去5%的数据,有时候你甚至要忽略掉95%的数据,因为数据实在是太庞杂了。你不应该存储你不需要的数据,那样做很浪费。现在的技术可以帮助你将一件事情分成多步,使你可以在存储和加工前,去除许多你不需要的数据。你是对的,确实有许多没有价值的数据不应该被储存,因为他们没有运用的价值。
许多企业都希望能跻身于大数据的变革中来。许多人认为他们需要做的,就是取用他们能获取的所有数据。这其实是不经济的,因为数据量实在太大了。所以,你需要更明确自身的需求,就像你在烘焙蛋糕一样,你可能想把各种佐料都加进去,但是你不会在里面放红辣椒,对吧?因为这和烘焙蛋糕不相关。
所以,要以大数据为基础解决问题,你就会希望去除不相关的数据,而把精力集中在那些有价值的数据上。
3. 目前大数据处理方法已经有模块化趋向,未来大数据处理是否更加简单方便?
答案是肯定的,而且还不仅仅是因为模块化。如果你注意到为处理大数据而发展出来的那么多新工具,你会发现在过去的两三年里,人们在这一方面取得了多么惊人的进步。
关于大数据有一个很有趣的地方。“大数据”这个名字来源于两个方面。一方面是源于数据繁多,也就是我们为什么称之为大数据。另一方面是源于数据的无序性。过去,计算机只能处理以一种形式输入的数据。当你输入的数据形式不对时,你要去重新调整它。大数据的本质就是能处理那些并非必要的数据,因为有时候,我们都没有办法知道自己5分钟之后需要什么数据。
比如说,就像我们刚才提到的游戏公司开始探索推特的行话和气象预测,这和开发游戏的数据并不直接相关,对吧?所以它们必须要马上发现新的解决问题的方式。我想看看新的类型的数据,但是我希望采用我原先的解决问题的办法,我们称这样的模式为非结构化数据。处理好非结构化数据显得至关重要。你今天看到的是在怎么存储这些数据方面的创新。在过去,人们往往建立起数据库,然后将数据存放其中。但是,你必须定义软件系统,定义数据的特性。
自从人们和企业开始处理非结构化的数据,他们发明出了新的技术工具,比如说分布式计算。这些新的技术工具使得人们可以将数据以非结构化的形式储存。这是一件事情。
第二件事是,因为数据繁多,你不能总是带着一台主机,或者是一台超级计算机来浏览这些数据。你要做的就是将大问题化解成一系列的小问题,然后采用更加高效的运算体系来一一破解这些小问题。这就是人们利用“并行运算”所做的。事实上,如果你去一趟谷歌的数据中心,你甚至看不见一台主机,你看到的是许许多多的,和你的电脑一样的主板。目前正在探索的领域是:将大问题拆解成小问题,然后一一解决,再把结果合并在一起的能力。
第三件值得一提的事情是,大数据的发展使得我们能综合利用人们5年前、10年前,乃至15年前的经验。即使前辈们不会一种新的语言,他们也可以为大数据献计献策。这是运用大数据解决实际问题的另一部分。今天你会发现,结构化查询语言是获取数据库资源的一种常规方式。尽管今天人们储存数据的方式发生了变化,人们仍然能够使用旧的技术。为了将新、旧技术相结合,人们已经做了许多努力。你能让那些毕业于5年前,或者10年前的计算机科学家一起发力,使他们成为大数据工作者的一部分。
将这些方面都归结起来,我给你短短的问题一个长长的肯定的答案。我的意思是,你将看到,我们未来处理大数据不仅会越来越简单,而且会给小企业使用大数据、发挥它们长处的机会。这些能发挥优势的企业将不一定是谷歌、微软或者雅虎。因为每个人都能够使用大数据。
4. 美国现在大数据发展最新情况如何?您可以从技术、市场以及您的经营、运作经历等方面谈。
我认为今天围绕大数据话题,人们有些疯狂。每个人都在谈论大数据。许多问题的解决依赖于那些正在寻求解决方案的人。
现在有许多关于利用大数据的设想和大计划,但是为了实现这些,一些你刚才说到的事情必须发生。首先,大数据通常需要大运算。问题在于,你怎样才能构建一个比70年代造出的计算机还要高效得多的运算系统呢?今日人们通过云计算来实现大运算。云计算使得你哪怕凭借很便宜的组件,也能够集合无穷大的处理能力。你不再需要搭建一个新的主板。你能和在一个数据中心或在多个数据中心的所有计算机连接。你想要多少处理能力,你就可以获取多少。当你不再需要这些处理能力的时候,你就把它们放回原处。同时,这也使得那些云中心在不停运转。这是非常有趣的,因为突然之间,你要应付成千上万的硬盘和主板。现在人们正在发明一系列的技术来运转这一体系,并确保这一运转是顺畅的。
另一件事是每个人都开始依赖这个体系,因此你需要保证具备足够的处理能力。就好比,尤其是在像今天这样炎热的天气里,你需要保证你的公共供能企业有足够的瓦数、足够的能源为北京所有的空调系统提供电力。你并不希望出现意外,导致大家都不能使用空调。
在计算机运作中也是同理,比如我们所说的效用计算。公共供能企业为我们提供电力、水和能源,如今效用企业为我们提供计算能力。制造者开始把用户和计算能力分离开来。过去,如果一家公司想要一个大型软件,他们需要购买成吨的服务器。今天,他们并不需要购买他们需要的所有服务器,相反,他们可以租用它们,或者直接从中国移动和中国联通或者其他原本提供通讯服务、而今也提供运算服务的公司购买虚拟服务器。这就是运作层面。
我们前面谈到了模块化,以及我们需要保证没有意外的发生。第三点就是数据保护。你需要保证数据不被扩散出去,不被那些没有得到授权的人获取。每个人都担心网站黑客,大家担心当你正在使用网站时黑客忽然攻击了这个网站。想象一下,如果有网络黑客攻击了北京电网,不管是出于恶作剧还是出于恐怖袭击的目的,他们都可以使得北京的电力系统陷入崩溃。所以你必须确保这些数据都被很好地保护着,即使他们分散在各个角落。
但是我们不能因噎废食。事实是,当这些数据获得足够的保护且你有足够的执行能力时,你可以使用这些数据。就像你不希望任何人来关闭喷气发动机一样,因为你仍然需要喷气发动机和大数据的分析程序对话,以使得运作最优化。许多巧妙的科技正在发展,但是要使得中国、美国和欧洲的乐于冒险的投资者们高兴,我们仍需要许多其他类型的科技,而我们还处在起步阶段。
5. 您前面提到了数据安全,您可以讲讲更多的保护数据的方法吗?
正如你所知的,侵害数据安全的方式多种多样。
有一种叫做拒绝服务。黑客可能造成服务器过于繁忙。突然之间,虽然服务器近在眼前,它却不能为你所用。因为黑客给了这些服务器一些杂七杂八的工作,使得它们无暇顾及其他,这就叫拒绝服务。另一件事情,比如创建一个新的网站:一个看起来正常且正规的网站。毫无疑问的是,确实存在能够闯入一个系统的方法,然后要么是盗走了你信用卡的信息,要么是直接使你失去了和外界联系的能力。这些都要求我们对数据有所保护。
然而,不幸的是,数据安全领域,虽然像战场一样硝烟弥漫,人们却并不一定清楚。在这个战场上,有努力保护数据安全的好人,也有黑客,那些坏人。坏人们企图想出各种各样的方法来闯入数据系统,而且坏人们非常聪明。这真的是一个无休无止的问题。你总是要先他人一步。你要确保你所掌握的技术比起想要破坏数据的黑客和软件恐怖分子领先。
在过去五年里,我们又一次看到,人们使用大数据来保护大数据。你要在真正的问题出来之前就试着去检验系统是否会出错。尽管目前存在许多种闯入电脑系统的方式,但是在系统真正受到侵害时,你要确保有所察觉。以前病毒是这种危害唯一的来源,但不幸的是,目前这样的来源很多。通过对安全软件、防御软件和网络安全等的投资,数据安全已经成了一个热门领域。越来越多的新技术正在蓬勃发展。
归根结底,当你衡量数据遭侵害的风险和数据带来的效用孰轻孰重时,我认为总体而言是好的方面占上峰的。你要做的,只是确保你对数据采取保护措施了。电子银行是一个经典的例子。这想起来其实挺可怕的,因为人们也可能闯入你的电子银行,偷走你的钱财。但是,你的生活现在能离得开电子银行吗?当下我们的答案是:现在考虑离开已经为时过晚,我们已经做不到了。你也不希望在马路上发生车祸,但是你更不愿意放弃开车。所以,这个产业最终会创造出许许多多的产品,来确保数据不受侵害,并保证各方面的安全。
6,谢谢,就像您前面提到的,大数据已经被应用到人类的健康领域。你对大数据在这方面的发展有何看法?
这大概是最有趣的一部分。因为人们说起数据时,总是听起来非常技术化,非常信息科学化。但是,到头来,我确信大数据能够起到救人性命的作用。
我来给你举个例子。如果你去看看治疗癌症的协议,你会发现这些协议和步骤通常都是根据大多数人的平均情况而决定的。这是我们要为病人做的。今天,如果你能给一个病人验血(这是做得到的),并测出一个病人的蛋白质或者是DNA图谱(这也是做得到的),你就能为他量身定制一套医疗方案。比方说,如果我有两个患癌症的朋友。根据他们不同的数据信息,不同的血型,不同的过往病史,对他们俩的治疗方案可能大相径庭。
能够根据特定病人的数据来优化医疗方案是一件非常让人激动的事。这需要处理数量惊人的数据,因为你要治疗的病人不计其数。令人兴奋的是,我们能够在15分钟内利用或许是上千、或许是上万的计算机来分析这些数据。然后,也许我们就能得出“你通常是用这个方法治疗这个问题的,但这个病人有点不同,因而你要用那个方法来解决”这样的结论。
为了实现大数据这个方面的应用,在我的故乡西雅图,其实已经开展了大量的工作。或许目前我们还达不到那样的水平。但是我认为,再过个2、3年,你就能看到所有的东西,从DNA图谱,到血液测试,到特定的医疗方案,都是为你定制的,而不是为其他和你患有同样疾病的人设计的,因为每个人的特质都有所不同。我认为,这也许是大数据最激动人心的应用。
7.我看到一个很有趣的现象,年轻人们正在改变隐私的定义。我们总是在暴露自己的信息,不管是在手机上,还是平板电脑上,还是手提电脑上。我们有时候并没有那么在意我们自己的隐私。
对的,在常规的关于数据的窃取和保护之外,你看到了一个有趣的现象。人们似乎并不关心他们数据的安全。他们实际上在主动地暴露一些信息。他们把信息公布在脸书上。于是,雇主们在想雇佣某人时,可以发现他是抽大麻的。人们因此受到了损害。
你无疑是对的,尤其是年轻的一代,他们时常发布大量在过去看来是隐私的信息。但我认为,即使是年轻人,也会在到了一定的时候开始关注数据,并思考我们为什么想要暴露数据,尤其是当你认识到把数据向别人公开的结果之后。你会看到女孩们因此被人占了便宜,也会看到雇主们在了解了你的个人信息后,表示由于你过去的行为而不再愿意雇用你。
这就像25年前,计算机时代刚刚开始的时候那样。社交网络还非常年轻。我认为,大概在3、4年后,你会看到一个稍微稳定一些的状态。那时候人们会比20年前暴露更多的信息,但是人们会区分哪些信息是私密的,是不愿意公布于众的。
你看到,当下已经出现了一些匿名的社交网络。你可以在不告知身份的情况下谈天说地。我认为这种趋势会越来越普遍,因为人们交流和讨论的欲望很强烈。他们唯一不想做的就是将他们透露的信息与他们的身份相联系。我们要看一看这事情会怎么样发展。但我相信你会看到一种新的平衡:就像15年前被视为隐私的东西现在已经不再是不可告人的秘密了。但你会看到新的东西被视为隐私。而这仅仅是在社会层面。
在产业层面,你仍然需要保护许许多多的数据。没有人希望,或许不幸的是有些人希望,但我至少确信北京的CEO们不希望北京的电网被破坏。我们不愿意看到黑客窃取或破坏产业的数据,也不愿意他们损害非常重要的社会机构和公共机制。
8.我想再问一个和大数据未来相关的问题。你说大约再过个5年或者10年,我们手里就只有终端了,我是说输入和输出数据的系统。我们不再需要运算系统了,因为那些,包括软件都在云端里了。所有的运算都在云端中完成。我们只需要持有终端。你认为未来是这个样子的吗?
或许是这样,或许不是。这是一个很有可能的未来状态。你手里用的是谷歌电脑吧?你已经拥有谷歌电脑了。我们所说的云其实是和虚拟化紧密相关的。
有时候,出于各种各样的原因,你想要有一个近在咫尺的虚拟机器。于是你不希望这个虚拟机器远在一个数据中心,而是就在你的电脑里。所以你还是要用到电脑,尽管软件的构造可能会有所不同,运行系统也有所变化。你可以使用虚拟机器。想象一下,你坐在大楼里,手边有许多设备。然后你决定要去一个岛上度假,岛上没有与外界相连的信号,你怎么办呢?你带上了你的虚拟机器,也就是一种不需要服务器就能运作的设备。你把虚拟机器放在了新的服务器上,就像笔记本电脑一样。在你回来的时候,你只需要把虚拟机器放回你的服务器,你的数据和信息就得到了同步。
但有时候,在特定的情况下,你仍然需要你的局部的云服务,我们姑且叫它局部云。这种局部云要求你有和我们今天的手提电脑非常相似的东西。所以,这是一种比你仅仅用来输入和输出的处理器更强大的处理器。有趣的是,这些东西可以以任何形状和尺寸出现。你甚至可以把它们放进手机里。
所以我想,你将看到多样化的设备。过去,我们能看到的可能仅仅是不同的电脑窗口,那是我们唯一能获得的。但是,今天,我们有了谷歌电脑,微软平板电脑,ipad,和其他各种各样的平板电脑。你可以看到各种手机样式,并且它们有着不同的运算能力和强项。你可以根据你的需求和经济情况选择。你需要选择要使用的工具。
作者:赵刚 编辑:刘月
来源:waibao.so