AI和大數(shù)據(jù)在爭分奪秒深入到商業(yè)和生活中。未來每一家公司都可能是一家大數(shù)據(jù)公司,一家AI人工智能公司,正如現(xiàn)在每一家公司都是互聯(lián)網(wǎng)公司一樣。
了解人工智能在城市管理和商業(yè)領(lǐng)域的應(yīng)用,將有助于每個(gè)創(chuàng)業(yè)者在實(shí)踐中為自己的產(chǎn)品和商業(yè)模式賦能。
微軟亞洲研究院“城市計(jì)算”領(lǐng)域負(fù)責(zé)人鄭宇博士在源碼資本2017年碼會上,分享了人工智能在城市計(jì)算領(lǐng)域的進(jìn)展。
微軟亞洲研究院鄭宇:人工智能和深度學(xué)習(xí),怎么管好大數(shù)據(jù)下的大城市?
鄭宇博士
微軟亞洲研究院資深研究員、“城市計(jì)算”領(lǐng)域負(fù)責(zé)人,ACM數(shù)據(jù)挖掘中國分會(KDDChina)秘書長、上海交通大學(xué)講座教授、香港科技大學(xué)客座教授、人工智能國際權(quán)威期刊(SCI一區(qū)刊物)ACMTIST主編。他主持開發(fā)了多個(gè)城市大數(shù)據(jù)系統(tǒng),其中UrbanAir首次利用大數(shù)據(jù)來監(jiān)測和預(yù)報(bào)細(xì)粒度空氣質(zhì)量,該服務(wù)覆蓋了中國的300多個(gè)城市,并被中國環(huán)境保護(hù)部采用。他主持了城市大數(shù)據(jù)平臺的設(shè)計(jì)和實(shí)施,并成功在中國大數(shù)據(jù)示范基地貴陽市部署。2013年被MIT科技評論評為“全球杰出青年創(chuàng)新者”(TR35),并作為現(xiàn)代創(chuàng)新者代表登上了美國《時(shí)代》周刊。2014年,由于他主導(dǎo)的城市計(jì)算具有巨大的商業(yè)前景和改變行業(yè)格局的潛力,他被《財(cái)富》評選為中國40位40歲以下商界精英。2016年被評為美國計(jì)算機(jī)學(xué)會杰出科學(xué)家(ACMDistinguishedScientist)。
以下是鄭宇博士在2017年碼會上的演講原文:
非常高興有機(jī)會能夠跟大家分享我們在城市計(jì)算(UrbanComputing)領(lǐng)域的工作。大家平時(shí)聽到很多人工智能用于語音、圖象、文本的場景。怎么樣用人工智能和大數(shù)據(jù)技術(shù)改變我們的生活,我圍繞這個(gè)主題探討一下,人工智能在城市領(lǐng)域的進(jìn)展。
做好人工智能在城市領(lǐng)域的應(yīng)用需要四個(gè)方面的技能:
1、理解城市文化本身,數(shù)據(jù)科學(xué)家純粹的理論無法代替行業(yè)知識;
2、理解數(shù)據(jù)本身,不僅僅要了解數(shù)據(jù)的表征,也要了解數(shù)據(jù)背后蘊(yùn)含了什么樣的知識;
3、掌握數(shù)據(jù)科學(xué)的模型,包括數(shù)據(jù)管理,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),還有可視化;
4、懂得如何利用云平臺,把算法高效部署在平臺上解決問題。
在城市領(lǐng)域,以上四點(diǎn)也有應(yīng)用上的不同之處:
可以想象到城市里面數(shù)據(jù)特別多,鏈家的、搜房的,從地理信息到人流量,好像千差萬別上百種、上千種的數(shù)據(jù)。實(shí)際上按照數(shù)據(jù)的結(jié)構(gòu)來分的話有兩種數(shù)據(jù),一種點(diǎn)的數(shù)據(jù),一種網(wǎng)的數(shù)據(jù)。按照數(shù)據(jù)關(guān)聯(lián)的時(shí)空屬性來分,可以分為三類。所以總共有六種數(shù)據(jù)。這六種中最為復(fù)雜的就是軌跡數(shù)據(jù),因?yàn)槲矬w的位置和在每個(gè)位置上的屬性都在不斷的隨著時(shí)間改變,而且點(diǎn)和點(diǎn)之間存在著關(guān)聯(lián)。像摩拜和滴滴的車的軌跡都屬于這種類型。
我不希望來了一千種數(shù)據(jù)要建一千種模型和算法,使得系統(tǒng)變得非常復(fù)雜。我們希望只要定義好這個(gè)模型之后,不管你來什么數(shù)據(jù),可以高效利用平臺,利用對應(yīng)的分析和挖掘算法去處理。
城市領(lǐng)域有大規(guī)模的數(shù)據(jù),多元、多模,變化非???,這么復(fù)雜的數(shù)據(jù)怎樣快速更新,以及大規(guī)模的應(yīng)用?必須要有一個(gè)平臺。大家自然會想到,我們就用云平臺把它連接到一起??上У氖?,不管哪家商用云平臺都無法做好時(shí)空大數(shù)據(jù),對城市大數(shù)據(jù)支持的并不是很好。
現(xiàn)有云平臺處理城市大數(shù)據(jù)的限制,與MSRA的實(shí)踐:
1、數(shù)據(jù)結(jié)構(gòu)很不一樣,跟圖象文本結(jié)構(gòu)不一樣。
2、查詢方式不一樣。例如我們在找滴滴的時(shí)候,希望是找周邊這個(gè)時(shí)間段內(nèi)有沒有空車經(jīng)過,而不是關(guān)鍵詞進(jìn)去匹配一個(gè)文本出來。
3、真正我們做城市計(jì)算的時(shí)候我們往往用到多個(gè)數(shù)據(jù)源,而不是單一數(shù)據(jù)。比如說空氣質(zhì)量預(yù)測的時(shí)候我們需要用到氣象、交通、地理信息以及人的移動數(shù)據(jù),怎么樣把這些數(shù)據(jù)多元管理起來?這是一個(gè)難題,這個(gè)技術(shù)是缺失的。所以基于它的原因,現(xiàn)在已有的云平臺并不能很好的支持時(shí)空大數(shù)據(jù)。
受限于已有云平臺的現(xiàn)實(shí)限制,微軟亞洲研究院去年在洛陽市落地了中國第一個(gè)城市大數(shù)據(jù)平臺。
它首先定義了六種數(shù)據(jù)模型,然后利用了現(xiàn)有微軟云計(jì)算平臺的存儲資源。接著我們做了一層中間件,針對不同的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)了時(shí)空索引算法,并針對不同數(shù)據(jù)設(shè)計(jì)了混合式索引算法。然后把時(shí)空索引集成到Hadoop、Spark和Storm等分布式計(jì)算環(huán)境中。
這里面不光有分布式計(jì)算環(huán)境,也有時(shí)空索引算法,兩者的結(jié)合把數(shù)據(jù)的訪問和管理存儲變得非常高效。最后向上層的機(jī)器學(xué)習(xí)和人工智能算法提供API,使得我們的機(jī)器學(xué)習(xí)算法能夠快速訪問下面的一些數(shù)據(jù)。想象一下,如果沒有這一層的話很多機(jī)器學(xué)習(xí)算法根本不能上線,根本不能做大規(guī)模的訪問和應(yīng)用。
下面幾個(gè)應(yīng)用案例可以看到這個(gè)城市大數(shù)據(jù)平臺所產(chǎn)生的實(shí)際效應(yīng)。
1.城市充電樁與廣告牌布局
通過城市大數(shù)據(jù)平臺在貴陽市決定應(yīng)該在什么位置放置充電樁,才能最大化覆蓋整個(gè)城市的車流量。最終選取出五個(gè)路口,使得覆蓋不同出租車的GPS軌跡數(shù)量最大化。
以前做這個(gè)工作需要一天?,F(xiàn)在我們只需要2-3秒的計(jì)算結(jié)果。我們發(fā)現(xiàn)在商業(yè)應(yīng)用中,我們部署一個(gè)東西除了需要數(shù)據(jù)科學(xué)支持還需要行業(yè)知識支持,不僅要考慮車流量最大化的問題,還是考慮周邊是不是商城,有沒有配套。車主充電的兩小時(shí)等待時(shí)間里,周邊要有餐飲、娛樂機(jī)構(gòu)供人休閑。
我們通過可視交互的分析方法實(shí)現(xiàn)人的智慧與人工智能的結(jié)合。人工智能先用簡單的規(guī)則,用算法反饋一個(gè)初步結(jié)果讓行業(yè)專家判斷,行業(yè)專家認(rèn)為這個(gè)點(diǎn)不合適可以刪掉,或者保留這個(gè)點(diǎn)再計(jì)算,實(shí)現(xiàn)了一個(gè)迭代式的交互挖掘。
這個(gè)案例體現(xiàn)了平臺的威力,性能的威力,也體現(xiàn)了真正把機(jī)器智能跟人的智能結(jié)合在一起。
除了充電樁,這個(gè)模型還可以分析商業(yè)門店選址、廣告牌選址,這些案例體現(xiàn)出城市大數(shù)據(jù)平臺的數(shù)據(jù)管理威力。
2.房價(jià)評估
在我們的這個(gè)城市大數(shù)據(jù)平臺里還有一個(gè)專門的數(shù)據(jù)分析層面,包含三個(gè)子層面:最普通的機(jī)器學(xué)習(xí)算法,專門針對時(shí)空數(shù)據(jù)設(shè)計(jì)的機(jī)器學(xué)習(xí)算法,以及多元數(shù)據(jù)融合算法。
我們看一下這個(gè)例子,我們想對房屋價(jià)值進(jìn)行相應(yīng)的排序,并不是預(yù)測價(jià)格。也就是說北京同樣一個(gè)市場,如果漲的話誰漲的比較多,如果跌的話誰跌的相對比較慢?
在相同環(huán)境下,摒棄政策因素和環(huán)境因素。根據(jù)漲幅比將房子排序,排完序把房子排好12345等,一類房最好,五類房最差(漲的最慢,跌的最快)。李嘉誠說過,房子價(jià)值由三個(gè)方面決定,一是地段,二是地段,三還是地段。這三個(gè)地段其實(shí)可以用數(shù)據(jù)量化。
第一地段就是周邊各類設(shè)施配套水平,交通,商場,學(xué)校等等這些數(shù)據(jù)都可以從路網(wǎng)、POI學(xué)到。同樣是學(xué)區(qū),重點(diǎn)學(xué)區(qū)和普通學(xué)校對房價(jià)影響非常大,好的商場比破舊的商場對這個(gè)地段的價(jià)值拉動差距很大。
所以有第二個(gè)地段:Popularity,比如人們出行規(guī)律非常重要。人們出行的規(guī)律已經(jīng)刻畫了這個(gè)地方的價(jià)值,一個(gè)地段坐公交地鐵出去,另外一個(gè)地段基本上以開車打車出去,你覺得哪地段更高端一點(diǎn),人的行為可以刻畫這個(gè)地段的形式。
第三個(gè)地段是房子所在的商圈,并不意味著每一個(gè)望京區(qū)域的房子都是好房子,而要用7-8種數(shù)據(jù)刻畫這個(gè)地段的價(jià)值。
從每一個(gè)數(shù)據(jù)里面可以提取出來很多的特征,再進(jìn)行計(jì)算。比如說這個(gè)房子周邊有幾個(gè)公交車站,離他最近的公交車站多遠(yuǎn),離他最近的地鐵車站多遠(yuǎn),然后可以把它變成排序的問題。這里面體現(xiàn)了不是一個(gè)簡單的算法就可以解決的問題,很多特征是冗余性,并不是完全獨(dú)立的,相關(guān)性非常大,而且很多特征不是線性的,因此我們要加很多的約束做這個(gè)事情。
怎么做驗(yàn)證呢?用2013-2014年的房屋數(shù)據(jù)預(yù)測2015年的排序,2015年過完之后自然知道這個(gè)結(jié)果怎么樣。用搜房網(wǎng)解決這個(gè)事情準(zhǔn)確率非常高。NDC基本上達(dá)到95%以上,這是一個(gè)非常好的結(jié)果。
這個(gè)技術(shù)還被應(yīng)用到上海火鍋店的選址以及對城市綜合商業(yè)體的價(jià)值評估。中國一線城市的商業(yè)品牌,像萬達(dá)以及保利商場等等,這些綜合商業(yè)的評估是非常困難的,但用我們的方法來做是有價(jià)值的。2016年的數(shù)據(jù)已經(jīng)顯示,北京100多個(gè)綜合商業(yè)體哪個(gè)漲幅最快,最值得投入,并且形成排序。這個(gè)排序也應(yīng)用于銀行業(yè)信貸評估,幫助銀行業(yè)評估綜合商業(yè)體的價(jià)值,決定以后貸多少錢,抵多少錢,通過人工智能評估長期價(jià)格增勢。
3.AI+共享拼車
滴滴以及摩拜,這兩個(gè)案例與AI聯(lián)系非常緊密。
先講拼車,電召車行業(yè)做到拼車才是真正的共享化,所以拼車是最終目標(biāo)。發(fā)明拼車的初衷是城市車輛過多與打車難之間的矛盾。在希望車輛總量不增加的前提下,出現(xiàn)了拼車的想法。為了保證用戶體驗(yàn),拼車必須保證滿足用戶希望什么時(shí)間到達(dá)目的地的要求。
通過AI找到一輛車接這個(gè)人,并且他真正距離最小,這是一個(gè)最優(yōu)的方案。但現(xiàn)在是不是還有別的車,可以滿足乘客的到達(dá)時(shí)間,同時(shí)也要征求乘客的拼車意愿?如果可以使乘客的到達(dá)時(shí)間稍微推遲五分鐘,但是可以省五塊錢,你愿不愿意?在拼車方案中,保證乘客在規(guī)定時(shí)間到達(dá),這個(gè)是關(guān)鍵的。
通過對車輛距離、預(yù)期到達(dá)時(shí)間與價(jià)格之間的動態(tài)平衡匹配,最大化滿足用戶的需求,是一個(gè)很困難的問題。這些需求已經(jīng)超過了人類自己思考可以實(shí)現(xiàn),必須要人工智能后面重新調(diào)度。
使用AI技術(shù)模擬,把出租車換成一個(gè)卡車,把一個(gè)人看成貨物,上車點(diǎn)是取貨地點(diǎn),乘客下車地點(diǎn)是送貨地點(diǎn)。我們把這些應(yīng)用于順豐合作,可以在不增加人員的情況把順豐的吞吐效率提高5%-10%。
實(shí)現(xiàn)了當(dāng)下的優(yōu)化以后,對未來的優(yōu)化更加重要。這將涉及到深度學(xué)習(xí)。
以物流業(yè)為例,未來的物流一要看預(yù)測,二要看累計(jì)最優(yōu),三要加時(shí)空索引,這三個(gè)東西要加在一起。
假設(shè)我們把一公里分成很多格子,可以預(yù)測未來有多少人進(jìn)有多少人出,可以預(yù)測未來有多少人請求摩拜,有多少人請求滴滴,有多少人訂餓了么。我們在貴陽已經(jīng)開始做這種預(yù)測了,在貴陽預(yù)測的是每個(gè)格子里面有多少出租車進(jìn)有多少出租車出。能夠預(yù)測出未來這個(gè)地方有多少人請求餓了么的訂單。用這種數(shù)據(jù)來驗(yàn)證我模型的正確性。
做深度學(xué)習(xí)預(yù)測人流、訂單量最開始的動機(jī)來自于上海市的踩踏事件。踩踏事件發(fā)生之后我很痛心地寫了一個(gè)微博,我說,這個(gè)事情可以通過人工智能做預(yù)測提前避免,如果提前兩三個(gè)小時(shí)知道未來有多少人去那個(gè)地方,就可以從源頭分流,不要等到大家都去了去疏解。如果政府能夠提前預(yù)測量級,可以提前預(yù)備安全措施。
類似的公共需求也適用于北京地鐵,商業(yè)需求則適用于滴滴、摩拜和餓了么等。
但是預(yù)測人流量是一個(gè)困難的工作,因?yàn)橄嚓P(guān)因素非常多。同時(shí),時(shí)間空間數(shù)據(jù)不同于文本,空間有距離,有層次,時(shí)間有周期性,還有趨勢性。
比如說交通容量每天都有變化,我們一定要考慮到時(shí)間的周期、趨勢、臨近性,考慮到空間的遠(yuǎn)近性,把不同的數(shù)據(jù)進(jìn)行融合,以及不同的影響因子在不同層次融合。最后得到好的結(jié)果。這個(gè)數(shù)據(jù)在北京的出租車得到印證,在美國的自行車租賃系統(tǒng)得到印證,現(xiàn)在拿摩拜進(jìn)行印證,效果都比以前的方法好很多。
4.城市計(jì)算在空氣質(zhì)量領(lǐng)域的應(yīng)用
微軟亞洲研究院曾經(jīng)用大數(shù)據(jù)和人工智能的算法預(yù)測全國200多個(gè)城市的空氣質(zhì)量。
因?yàn)榭諝赓|(zhì)量受很多復(fù)雜的影響,包括周邊的樓房密度,周邊的交通擁堵情況,周邊的擴(kuò)散情況,導(dǎo)致整個(gè)城市空氣質(zhì)量不均勻。
我們把京津冀、珠三角、長三角城市群數(shù)據(jù)放在一起,做大尺度的系列預(yù)測和分析。有了這個(gè)信息之后,你會發(fā)現(xiàn)每次空氣質(zhì)量從好變壞過程中,你就知道哪里先變壞,哪里后變壞,知道它的傳播過程。政府是明確需要知道非常細(xì)的空氣質(zhì)量的數(shù)據(jù),甚至要細(xì)到賓館級,因?yàn)橛械臅r(shí)候我們領(lǐng)導(dǎo)人就住在某個(gè)賓館。
預(yù)測未來。我的預(yù)測是系列預(yù)測,空氣質(zhì)量預(yù)測既要看天還要看人,是個(gè)很困難的事情。如果你要看細(xì),細(xì)到西直門、東直門怎么樣?這非常困難。還有空氣質(zhì)量拐點(diǎn)的預(yù)測,我們知道當(dāng)刮大風(fēng)和下大雨時(shí),空氣質(zhì)量從500瞬間就變成了50,這個(gè)拐點(diǎn)的出現(xiàn)對政府來說是極關(guān)重要的。
可是,空氣質(zhì)量的拐點(diǎn)為什么那么重要呢?舉例說明,政府曾經(jīng)做了很多措施限流限行,關(guān)閉了河北的工廠,以北京為中心畫一個(gè)圓,把圓里面所有的工廠全關(guān)掉,使得我們的空氣質(zhì)量保持在100以下。但如果你知道明天是拐點(diǎn),明天會下降干嘛去關(guān)它?這一個(gè)決策就能夠幫國家避免上百億上千億的損失。
微軟亞洲研究院還在貴陽落地中國第一個(gè)交通流量圖。這個(gè)地方顯示的是車的流量不是簡單的速度,對政府的管理、規(guī)劃它一定要知道有多少車經(jīng)過,即流量。有了流量之后就能算出速度、油耗,每個(gè)路段上面都可以算出來,進(jìn)而可以看出來每個(gè)路段實(shí)時(shí)排放的PM2.5有多少,現(xiàn)在能把車的尾氣排放算出來,結(jié)合空氣中測點(diǎn)的讀數(shù),我們知道空氣中尾氣排放和PM2.5結(jié)合在一起,我們就能夠正確回答空氣中汽車尾氣排放和PM2.5到底占多少,這個(gè)對政府的指導(dǎo)具有重要的意義。
5.做好真正智能城市的四個(gè)關(guān)鍵
第一,要理解行業(yè)知識。如果我不懂環(huán)境,不跟環(huán)境學(xué)家交流,也不知道他們做了什么東西,那么他們行業(yè)里面也無法接受大數(shù)據(jù)的分析結(jié)果。
最近我搞了兩年多環(huán)境,現(xiàn)在清華大學(xué)環(huán)境學(xué)院每年請我給他們環(huán)境學(xué)院的學(xué)生研究生上課,只有達(dá)到這個(gè)程度之后,才能跟別的行業(yè)融合。
第二,對數(shù)據(jù)的理解很重要。路面上的出租車交通軌跡不光反映了出租車交通容量,也反映了人們的出行規(guī)律。出行規(guī)律反映的是功能、經(jīng)濟(jì)、環(huán)境狀況,如果這樣想的話,你會發(fā)現(xiàn)我們的數(shù)據(jù)永遠(yuǎn)不缺,大數(shù)據(jù)時(shí)代我們不缺數(shù)據(jù),缺的是心不夠開放。大數(shù)據(jù)的價(jià)值把多個(gè)數(shù)據(jù)融合在一起,做到1+1大于2的結(jié)果,這才是它的特點(diǎn)和魅力。
第三,深度學(xué)習(xí)。我們看到各種各樣的算法不只是機(jī)器學(xué)習(xí),有深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘還有數(shù)據(jù)庫,很多方法索引加學(xué)習(xí)加模擬結(jié)合在一起,很多是把數(shù)據(jù)融合在一塊。
第四,數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家非常難培養(yǎng),培養(yǎng)這個(gè)人至少7-10年,很多項(xiàng)目只要有了這一個(gè)人,就能把這一個(gè)東西傳到一塊,一個(gè)好的數(shù)據(jù)科學(xué)家站在云平臺上面,看問題想數(shù)據(jù)觀模型,然后把模型部署到云平臺上面,才能解決鮮活的問題,這才是數(shù)據(jù)科學(xué)家。
溫馨提示:因考試政策、內(nèi)容不斷變化與調(diào)整,信管網(wǎng)網(wǎng)站提供的以上信息僅供參考,如有異議,請以權(quán)威部門公布的內(nèi)容為準(zhǔn)!
信管網(wǎng)致力于為廣大信管從業(yè)人員、愛好者、大學(xué)生提供專業(yè)、高質(zhì)量的課程和服務(wù),解決其考試證書、技能提升和就業(yè)的需求。
信管網(wǎng)軟考課程由信管網(wǎng)依托10年專業(yè)軟考教研傾力打造,官方教材參編作者和資深講師坐鎮(zhèn),通過深研歷年考試出題規(guī)律與考試大綱,深挖核心知識與高頻考點(diǎn),為學(xué)員考試保駕護(hù)航。面授、直播&錄播,多種班型靈活學(xué)習(xí),滿足不同學(xué)員考證需求,降低課程學(xué)習(xí)難度,使學(xué)習(xí)效果事半功倍。
發(fā)表評論 查看完整評論 | |