錢塘江畔探“視界”

指數發表于：2024-06-21 09:01

據統計，人類70%的資訊通過視覺獲得。一定程度來説，“視界”有多大，人類對“世界”的認知就會有多大。

在浙江杭州，越來越多的“黑科技”正不斷拓展視覺邊界。工業視覺、醫學影像、虛擬現實、數字安防、自動駕駛……如今，錢塘江畔已形成覆蓋多個細分領域的視覺智慧産業集群。建設“中國視谷”、打造“視覺智慧第一城”……

視覺智慧將給人們的生活帶來哪些改變，對工業生産又意味著什麼？記者來到杭州實地探訪。

融入千行百業

工程師手持一個酷似魔方的不規則多邊體，一會兒蹲下，一會兒起來，對著汽車左一下、右一下地揮舞……

剛走進先臨三維科技股份有限公司，眼前的一幕引起了記者濃厚的興趣。乍一看，有些讓人摸不著頭腦；視線一轉，眼前的汽車竟“鑽”進了電子螢幕裏——原來，機器發出的50條藍色鐳射線，正以每秒最高368萬次的速度掃描汽車，約8分鐘後，一個完整的車輛數字三維模型躍然浮現。轉動滑鼠滾輪，汽車細節在螢幕上不斷放大，直至輪廓、起伏、弧度全部消失不見，只剩最原始的點、線，以及三角網格。

“這就是高精度工業3D掃描器！它保留了物體結構、幾何細節、尺寸關係等資訊，和現實物體高度一致，可以廣泛運用於工業測量的各個環節。”先臨三維董事長李濤介紹。

先臨三維位於杭州市蕭山區，是一家聚焦高精度3D視覺的國家級製造業單項冠軍企業。在杭州，像這樣深耕視覺智慧領域的企業還有很多：不僅有海康威視、大華股份、新華三等叫得響的行業龍頭，也有先臨三維、當虹科技、虹軟科技等一批專注視覺智慧産業某一領域的企業。據統計，2023年，杭州視覺智慧規上企業達846家，全市視覺智慧産業總營收達到7763億元。

視覺智慧産業，為何能在杭州落地生根、枝繁葉茂？這得從20多年前説起。

21世紀初，國內視頻行業經歷了一場大洗牌，數字信號技術風頭日盛。彼時，初創不久的海康威視和大華股份嗅到商機，接連向市場推出一系列採用數字技術的視頻監控産品。到2021年，杭州生産的視頻監控産品DVR、NVR、錄影機市場佔有率超過50%。

“雖然視頻監控産品是杭州的傳統優勢，但從産業端角度看，單純的監控安防需求已趨於飽和，加上國際市場不明朗、海外拓展受限等因素，只靠視頻安防單一路徑，恐怕走不遠。”浙江省北大資訊技術高等研究院院長蔣雲告訴記者。

要想謀求新的生機，杭州必須蹚出一條更深、更寬的路。“既然人70%的資訊是靠視覺獲取的，那麼理論上，資訊産業中70%都可以和視覺技術關聯，這是一片巨大的藍海。”蔣雲説。

將目光探向千行百業——環保領域，大華股份的熱成像錄影機可以全天候監控秸稈焚燒易發區；教育領域，宇視科技的多媒體一體化的智慧黑板能讓課堂更多彩；文保領域，海康威視對13.74公里的西安古城墻進行釐米級三維建模保護；交通領域，當虹科技的壓縮技術能讓遠洋船舶在衛星窄頻寬傳輸條件下清晰、流暢調閱視頻……2023年，杭州提出“數字安防—視覺智慧—智慧物聯”的産業躍遷之路，一大批企業融入千行百業，以視覺智慧為核心提供智慧物聯解決方案和運營服務。

如何將自家的視覺科技融入更多的應用場景之中？各家企業有獨門“心法”。

“請躺下，放輕鬆。”在先臨三維展廳，工作人員帶記者體驗了一把牙齒掃描。將設備放入口腔，左掃一下，右探一下，一兩分鐘左右，記者的口腔模型便實時在電腦上生成，整個過程口腔沒什麼特別的感覺。

記者不禁好奇：一個做工業測量的企業，是如何邁進齒科大門的？

十多年前，齒科數字化在國內還是新鮮事，牙齒正畸、種植不僅需要患者長時間張口咬硅橡膠印模，而且在後期制取、郵寄過程中，所産生的誤差也會影響佩戴體驗。就算醫院有口腔內數字化取模設備，大多也是從國外進口。

有需求就有商機。齒科數字化這片國內市場的空白，正好給擁有高精度3D視覺技術的先臨三維一個機遇。2011年，先臨三維開始攻關口腔內三維掃描技術：牙齒表面有一層透明膜，這是3D掃描的天然障礙，為了在不噴粉情況下獲取三維數據，團隊大膽革新，放棄熟悉的方案，採取全新策略；同時，團隊自主研發演算法和軟體，智慧識別並擯除人體頰舌側等雜余數據……現在，公司口腔數字印模儀已能將最遠端兩顆牙齒的距離誤差控制在50微米以內，單顆牙齒的誤差控制在10微米以內。

“我們不斷尋找市場機遇，根據客戶的痛點針對性升級技術，目前産品已廣泛應用於汽車、航空、能源、電子、醫療等領域。只有生長出更多、更廣的應用場景，視覺科技企業的生命力才能不斷綻放。”李濤説。

掌握核心技術

視覺智慧的應用潛能巨大。然而，如果只在下游應用端打得火熱，卻不掌握核心技術、核心標準、核心晶片等，企業的“命門”終是掐在他人手中。

中國視頻産業就曾吃過“卡脖子”的虧。

2002年1月的一天，一艘來自中國的輪船抵達英國港口，孰料剛剛靠岸，便遇到難題。原來，船上漂洋過海的DVD機沒有獲得國際編碼標準的專利授權，被歐洲市場拒之門外。一時間，傳票紛至遝來，要求中國廠商繳納高額的專利費用。火熱的國內DVD市場猶如當頭澆下一桶冰水被迅速冰凍。

如何避免“卡脖子”？杭州的企業交上了各自的答卷。

“嘭，嘭，嘭……”畫面螢幕中，一個工匠正在打鐵，無論是亮部迸濺的火花高光，還是暗部冷調的鐵器，甚至是布衣上的褶皺，全都清晰可辨……在杭州市當虹科技股份有限公司展廳，一台8K超高清編解碼設備吸引了記者的目光。公司董事長孫彥龍介紹：“這臺設備以全國産化為特色，採用的是中國自主研製的AVS3編碼標準。”

啥是編碼？孫彥龍介紹，以8K視頻為例，一幀內的像素點比1080p擴大16倍，幀數也從每秒24幀擴大為50幀；視頻“體積”如此巨大，要想流暢傳輸，就要經過壓縮編碼，先變細，再還原變粗。這就像是經過一道兩頭寬、中間窄的啞鈴型傳送門，如此，視頻才能變成大小合適的數字信號，在數字世界自由馳騁。

對於企業來説，想要實現這種編解碼，就必須遵守行業“遊戲規則”——採用一套業內通用的音視頻編碼標準。但是，很長一段時間裏，“遊戲規則”的制定權並不在中國。

“過去，編碼標準由國外機構和企業制定，我們要用，就必須支付相當比例的專利費用。”已經與視頻演算法打交道20多年的謝亞光，是當虹科技創新研究院院長。2002年起，他和團隊就開始參與制定中國自主智慧財産權的視頻編碼標準（AVS）。

“這就好比螞蟻搬家、蜜蜂築巢，在外國標準已經佔據先機的情況下，成千上萬個技術細節都需大量補充，自主研製難度很大，得一點點磨。”謝亞光回憶説，這是全國音視頻領域學術界、産業界的一次合力突圍。經過數年艱難推進，2009年，AVS標準已經被認為是國際上最重要的3個先進視頻編碼標準之一，並正式成為國際通行標準。現在，作為全球首個面向8K、5G産業應用的視頻編碼標準AVS3，已經領先於國際同類標準。

此外，杭州市政府積極引導當地視覺智慧産業集群攻關核心技術，預計到2027年將突破視覺智慧關鍵技術100項，核心零部件、電子元器件、基礎軟體等領域建立多源可供體系，實現備份系統全覆蓋。

“你看這兩個畫面，有什麼區別？”在當虹科技展廳，記者來到一個實時顯示某學校動態畫面的螢幕前，只見一條細線將畫面一分為二，肉眼卻察覺不出什麼差別。疑惑之際，孫彥龍為記者揭曉了答案：“右邊是經過超級編碼的視頻，能為行業客戶節省近90%的傳輸頻寬及中心端存儲的成本。之所以你看不出區別，是因為人、車、衣服、背包等關鍵資訊沒有丟失，只有天空、地面等不重要的資訊，被不著痕跡地弱化了。”據悉，這項技術目前已在衛星視頻通信和工業視頻傳輸領域得到廣泛應用。

編碼是當虹科技的核心技術之一，這種神奇的“區別對待”效果，端賴人工智慧的“大腦”。“我們對畫面的壓縮不是簡單、粗暴、無差別的，而是基於人工智慧演算法的感知編碼，精準淡化不重要的資訊，而且可以在調閱的時候按需還原。”謝亞光介紹。

“對於視覺智慧企業，不光要做大應用層，更要做深基礎層、做強技術層，這也是杭州打造‘中國視谷’的目標之一，要掌握核心技術，將産業‘命門’牢牢攥在自己手裏。”蔣雲説。

打造高效集群

沿著杭州時代高架一路向南，穿過冠山隧道，“中國視谷”四個大字逐漸醒目。這裡是位於杭州蕭山的湘湖未來産業社區，也是“中國視谷”窗口園區所在地。

“中國視谷”起筆在湘湖。兩年前，園區裏還是一片低矮的老舊廠房；如今，站在園區高處俯瞰，只見一座座高樓拔地而起，時代高架為“一豎”，湘濱路、騰飛路、亞太路作“三橫”，構成了整個園區的“豐”字形空間格局。

“如果説千百年來，人們在湘湖看到的是‘一泓新水綠羅鋪’的自然風光；那麼今天，視覺智慧産業集群儼然成為一道新的風景線，人們在這裡更能看見未來‘視界’。”湘湖國家旅遊度假區管委會副主任、中國視谷·蕭濱一體化專班負責人章菲説。如今，杭州市蕭山區、濱江區、余杭區、錢塘區等聯動共建，一個視覺智慧産業生態圈逐漸顯現，成為杭州具有辨識度的産業新地標。

蔣雲表示，集群化的發展策略能集聚更多資源：“原材料供給、運輸物流、配套建設、人才引進等都會因為集群化得到提升，産業集群讓資源配置更有效率。”

在“中國視谷”窗口園區，産業集群帶來的效應已初步體現。“以前，我們先臨三維會在設計好産品電路後，交給廣東的一些貼片廠或者電路板生産企業來做，現在我們發現，本地也有企業能做，品質還蠻好，節省了物流和溝通成本。”説著，李濤指了指窗外，“這家企業離得很近，就在隔壁。”

這家“隔壁”企業，正是近年落戶園區的杭州雲尖資訊技術有限公司，主要為行業客戶提供伺服器和算力晶片設計與製造服務。章菲介紹，到2027年，杭州將進一步強鏈、補鏈、穩鏈，培育視覺智慧産業鏈主企業5家以上，招引視覺智慧重點項目100個以上，産業投資800億元以上。

未來，怎樣確保視覺智慧産業的“蛋糕”越來越大？杭州將目光投向了增量市場。

“一個短髮的女生在街頭唱歌，早期彩色電影效果……”在後臺輸入指令，片刻後，一段視頻便生成：熙熙攘攘的人群中，一個穿著針織裙、盤著卷髮的姑娘高歌于馬路中央，她雙目微閉，表情沉醉，畫面色調復古而懷舊。如此逼真的一幕，完全由AI生成。

今年4月，當虹科技發佈了自主研發的BlackEye多模態視聽大模型。“隨著Sora的出現，業內對視頻大模型都很關注，雖然現在它還沒有大規模商用，但技術研發必須超前。”孫彥龍介紹，當虹科技很多前瞻性的技術都是提前3—5年進行佈局，企業內七成都是研發人員，每年研發投入佔營業收入的30%以上。

“每一個崛起的行業新秀，並非只是靠在存量市場上爭份額，而是因為前瞻了市場的變化趨勢，才在增量市場彎道超車。”蔣雲表示，回看過去幾十年視覺産業發展，企業的業務增長不是“爭”出來的，而是“長”出來的。

立足存量、錨定增量，如今，杭州這個“數字之城”正在乘“視”而上。據預測，到2027年，杭州市視覺智慧産業總體規模達到1萬億元，開發視覺智慧領域新産品新應用達1000個，越來越多的未來“視界”圖景，將在錢塘江畔徐徐展開。

來源：人民日報海外版責任編輯：石進玉

(原標題：錢塘江畔探“視界”)