又到年底,德勤、賽迪智庫、清華大學、IDC、工信部等,人工智能相關的產(chǎn)業(yè)研究院、投資機構、媒體等,相繼發(fā)布了今年的人工智能報告。
小HUI將用一個系列分享研讀這些報告的筆記。
分享內(nèi)容主要圍繞計算機視覺、自然語言處理等AI技術,在安防、醫(yī)療、自動駕駛、工業(yè)制造、辦公、服務、家居等領域的應用,包括實現(xiàn)的典型功能,存在的主要難點等。也會大概梳理主要的技術進展和頭部公司。
范圍上,除了當前熱點的技術和應用,也包含屬于人工智能領域,但已經(jīng)廣泛應用的技術。
小HUI希望這階段的分享維持“從需求看技術”的角度。有任何建議,歡迎留言交流。
這個系列的分享將從計算機視覺開始,小HUI會分6~8期來記錄計算機視覺在文字識別、工業(yè)視覺、生物識別、智能安防、自動駕駛、智慧醫(yī)療等領域的應用。
第一期是對計算機視覺應用的概述。
計算機視覺,作為一門計算機學科,是利用攝像機和電腦代替人眼,使得計算機擁有類似于人類的那種對目標進行分割、分類、識別、跟蹤、判別決策的功能。
從應用的角度看,讓計算機看見、看清、識別、理解圖像和視頻,以及根據(jù)圖像和視頻預判、決策的技術,通常都歸于計算機視覺。
計算機視覺一個完整的處理過程如下:
計算機視覺完整處理過程
計算機視覺對圖像的處理,分為感知智能和認知智能兩個層次:
在感知智能層,計算機通過攝像頭獲取光學圖像或視頻,經(jīng)過提取、標注、識別等處理后,能夠“看見”,并辨別“是什么”。感知的結果類似于:圖里有一個水族缸和兩個人。
在認知智能層,計算機將前面感知的信息,結合其他方式獲得的語義上下文,應用知識、聯(lián)想、記憶、推理等方法處理后,能夠“看懂”,并在理解的基礎上進行人機交互。認知的結果類似于:Jake和爸爸去長隆海洋公園看鯨鯊。那天他們真開心。
一般而言,感知層實現(xiàn)的功能相對通用,處理結果可以在很多應用中使用。實現(xiàn)認知層的功能,一方面需要特定領域的知識,另一方面需要進一步采取后續(xù)行動形成閉環(huán),因而很難通用。
目前計算機視覺的大部分的應用集中在感知智能層面,例如:人臉識別、拍照搜索、文字識別等。
感知智能在特定行業(yè)也有案例,例如:金融行業(yè)的風控、自動駕駛的行人意圖識別、安防領域的人員違規(guī)行為識別等。
2 計算機視覺的應用
OCR
計算機視覺技術最早的應用,是計算機文字識別(OCR)。OCR的意思是“光學字符識別”——對圖像中的印刷體或手寫文字進行識別,轉化成電子文檔。
紙質(zhì)、電子化文字資料在使用上各有優(yōu)勢:紙質(zhì)資料方便查看和標記,電子化資料便于存檔和檢索。OCR使得紙質(zhì)資料能夠快速、方便地錄入到計算機中,保持紙質(zhì)、電子化資料的一致性。
OCR現(xiàn)在的應用已經(jīng)不限于印刷物上的文字提取,這項技術出現(xiàn)了兩個分支:手寫體識別和自然環(huán)境中印刷體識別。前者在教育和辦公場景中有很好的應用前景;后者在安防、自動駕駛、工業(yè)視覺等領域,提供多模感知的一種信息源。
工業(yè)視覺
工業(yè)視覺是和計算機視覺并列的分類,都屬于機器視覺。二者的市場容量也在同一個級別。
工業(yè)視覺在工業(yè)生產(chǎn)的各環(huán)節(jié)中,進行自動的識別、檢測、測量、定位,提升加工、裝配、質(zhì)檢、分揀等各環(huán)節(jié)的效率,提升產(chǎn)品質(zhì)量、降低工人勞動強度。
工業(yè)視覺在制造業(yè)已經(jīng)應用了十多年,最早應用于半導體和電子行業(yè),現(xiàn)在在汽車制造業(yè)大規(guī)模落地,未來還可能在印刷、包裝、食品、藥品、倉儲等領域快速增長。
工業(yè)視覺的落地,在每個行業(yè)都有大量的工程問題需要解決,但底層技術的瓶頸并不太多。隨著工業(yè)4.0的推進,將會進入高速增長期。
生物識別
計算機視覺另一個比較成熟的應用,是人體生物特征識別(簡稱生物識別)。生物識別是指通過指紋、視網(wǎng)膜、虹膜、指/掌靜脈、掌紋/掌形、人臉、步態(tài)、聲紋、筆跡等人體的生物特征,進行個人身份的鑒別和認證。其中,除了聲紋以外,其他的識別方法都屬于計算機視覺范疇。
傳統(tǒng)的身份認證是用戶名+密碼,或者實體卡片、鑰匙等,容易忘記、丟失、被盜取,或者被仿制。生物識別使用人與生俱來、差異性大、穩(wěn)定性好、難以仿制的生物特征來進行身份的認證,更加安全和便捷。
生物識別已經(jīng)廣泛用于銀行、國防、機場、高鐵等高安全級別的場所,以及門禁、移動設備解鎖、個人支付等場景中的身份認證。
智能安防
計算機視覺目前最大的應用市場是智能安防(大約60%的市場)。智能安防主要幫助相關部門實現(xiàn):事后追蹤、事中報警、事前預警,一方面降低違法行為的發(fā)生頻率,另一方面也減輕工作強度。
公共區(qū)域雖然有大量的監(jiān)控攝像頭,但需要進行人、車、物追蹤的時候,還是需要人工調(diào)取和分析,不僅工作量大,而且依賴經(jīng)驗。在人流密集的區(qū)域,為了及時發(fā)現(xiàn)異常,需要專職人員時刻觀察攝像頭抓取的現(xiàn)場信息,極易產(chǎn)生疲勞和疏忽。
智能安防現(xiàn)在可以實現(xiàn)無人值守場地(如地下車庫)的看管、開放區(qū)域內(nèi)的跨鏡頭目標(主要是人、車)追蹤、落腳點分析、追逃和尋人、人流密集區(qū)域,會議/活動/展覽的主動安全預防等。
自動駕駛
自動駕駛是計算機視覺最具潛力的應用方向之一。2019年全球在人工智能領域的投資,有10%都投給了自動駕駛。
L4/L5級自動駕駛——高度/完全自動駕駛——將會徹底改變城市交通的管理方式,小汽車將成為公共交通的主體。也會改變?nèi)藗兊某鲂蟹绞剑^大部分個性化的市內(nèi)交通需求都可以即時滿足,私家車將不再必要。
這個領域目前的應用主要在toB,如自動駕駛卡車或特種車輛在礦區(qū)、港區(qū)、建筑工地、農(nóng)田,以及長途貨運的應用。此外還有園區(qū)低速通勤、接駁、遞送,或清掃作業(yè)。
乘用車方面,城市公交和出租車,目前尚在試運營測試階段。
toC的應用主要是小型乘用車的ADAS功能應用,如自動泊車和高速公路自動行駛。
智慧醫(yī)療
近年來,人工智能、大數(shù)據(jù)在醫(yī)療領域的手術機器人、醫(yī)學影像分析、輔助診斷、藥物研發(fā)、疾病預測、醫(yī)院管理等方面有廣泛的應用。
計算機視覺在醫(yī)療上最典型的是醫(yī)學影像分析。通過病灶自動識別與標注、影像的三維重建等,幫助醫(yī)生提高診斷的準確性和效率。目前已經(jīng)可以用于腫瘤篩查、眼底篩查、X線胸片閱片、腦疾病診斷、骨傷鑒定、骨齡分析、病理切片分析、皮膚病輔助診斷等。
醫(yī)學影像的三維重建,加上AR/VR的顯示技術,還被用于輔助診斷和手術導航。在診斷時幫助評估病變程度和康復水平。在手術中準確找到病變位置,減少對其他組織的破壞,實現(xiàn)精準醫(yī)療。
其他
?
計算機視覺的應用不限于上述領域,toB的如:
零售系統(tǒng)中基于人臉的會員管理和客流統(tǒng)計;
視頻網(wǎng)站上自動檢測和屏蔽不良內(nèi)容;
金融領域網(wǎng)上銀行的身份驗證等。
toC的應用以高質(zhì)量拍照、照片美化、拍照識別為主。如:
智能手機/智能相機的人像拍攝、HDR、夜景等功能;
手持云臺對目標的自動跟拍;
對照片的后期美顏、風格化處理、自動標記等;
拍照翻譯、以圖搜圖、拍照識別植物、酒類、商標等;
對食物進行拍照識別,合理評估和安排膳食。
計算機視覺和硬件結合,還有一些機器人方面的應用,如:
以繪本閱讀為代表的教育類機器人;
掃地機器人、智能貓眼和門鎖等智能家居產(chǎn)品;
能自動跟隨和導航的家用或服務機器人;
……
3 白皮書摘錄
以神經(jīng)網(wǎng)絡算法為基礎的深度學習,讓計算機視覺的應用門檻降低、落地效率提高。直接促進了計算機視覺在民生、安全、家居、制造、娛樂、服務等產(chǎn)業(yè)的廣泛應用,滿足各個行業(yè)對數(shù)據(jù)化,以及基于數(shù)據(jù)進行質(zhì)量、成本、效率、體驗改進的需要。
企業(yè)服務中的智能營銷,金融中的智能風控,大健康中的智能影像診療,汽車中的自動駕駛(ADAS)系統(tǒng)和機器人中的服務機器人,是人工智能領域的熱門投資對象。
其中,長期最被看好的是自動駕駛,它將深刻變革汽車行業(yè)的產(chǎn)業(yè)鏈。機器人領域的投資今年以來,熱度有所降低。
AI在金融領域的應用最深入,而在制造業(yè)領域的應用潛力則被長期低估。
政府在人工智能應用落地上發(fā)揮了重要作用,一方面對AI有明確的政策導向和產(chǎn)業(yè)支持;另一方面在自動駕駛等民生領域、智能安防等公共領域,政府也是AI產(chǎn)品重要的買家。
人工智能領域這些年的投資額、人才儲備、論文和專利數(shù)量,都有明顯的提升,和美國等先發(fā)國家的差距正在縮小。
各細分領域?qū)@暾埍壤?/span>
但積累的時間還不夠,從基礎到應用都還有明顯的、甚至數(shù)量級上的差距:
1、基礎層包含計算芯片、數(shù)據(jù)、算法三部分。
國內(nèi)在終端專用計算芯片上有了長足的發(fā)展。在云端計算芯片上,BAT也都有布局,阿里的云端計算芯片已經(jīng)發(fā)布并用于阿里云平臺。在通用計算芯片上,目前還是空白
國內(nèi)科技企業(yè)通過互聯(lián)網(wǎng)發(fā)展期的積累,獲得了海量的數(shù)據(jù),這些數(shù)據(jù)現(xiàn)在也推動了計算機視覺、自然語言處理上的發(fā)展。
國內(nèi)在算法、算法框架、訓練框架上投入的科技公司非常少,這些方面的差距也非常明顯。
2、技術層包含計算機視覺、自然語言處理、語音識別、機器學習等細分領域。國內(nèi)的進展主要集中在工程應用領域,而這些技術所需的通用和專業(yè)數(shù)據(jù)集、知識庫的建設還有非常大的差距。
3、應用層包含醫(yī)療、安防、金融、無人駕駛等,國內(nèi)的產(chǎn)業(yè)應用發(fā)展的非常快,邊落地邊改進是國內(nèi)的AI應用快速發(fā)展的基礎。在應用層的短板,主要是國內(nèi)的科研成果轉換還缺少科技企業(yè)家群體的參與,以及鼓勵和支持科技企業(yè)家創(chuàng)新的生態(tài)。
未來幾年的人工智能預計會維持40%以上的增長,OCR、圖像識別、人體與人臉識別、自然語言交互的智能客服等,會在金融、制造、互聯(lián)網(wǎng)和信息服務等領域加速落地,支持企業(yè)在運營、客服、營銷等方面降低成本、提高效率、創(chuàng)新業(yè)務。