2019年5月28日,國家網際網路信息辦公室就《數據安全管理辦法(徵求意見稿)》(以下簡稱“徵求意見稿”)公開徵求意見,這是我國數據安全立法領域的里程碑事件。以法律的形式規範數據收集、存儲、處理、共用、利用以及銷毀等行為,強化對個人資訊和重要數據的保護,可維護網路空間主權和國家安全、社會公共利益,保護自然人、法人和其他組織在網路空間的合法權益。以網路爬蟲為主要代表的自動化數據收集技術,在提升數據收集效率的同時,如果被不當使用,可能影響網路運營者正常開展業務,為回應上述問題,徵求意見稿第十六條確立了利用自動化手段(網路爬蟲)收集數據不得妨礙他人網站正常運作的原則,並明確了嚴重影響網站運作的具體判斷標準,這將對規範數據收集行為,保障網路運營者的經營自由和網站安全起到積極的作用。
一、網路爬蟲的功能和價值
(一)定位
網路爬蟲,又稱為網路蜘蛛或網路機器人,是網際網路時代一項普遍運用的網路資訊蒐集技術。該項技術最早應用於搜索引擎領域,是搜索引擎獲取數據來源的支撐性技術之一。隨著數據資源的爆炸式增長,網路爬蟲的應用場景和商業模式變得更加廣泛和多樣,較為常見的有新聞平臺的內容匯聚和生成、電子商務平臺的價格對比功能、基於氣象數據的天氣預報應用等等。一個出色的網路爬蟲工具能夠處理大量的數據,大大節省了人類在該類工作上所花費的時間。網路爬蟲作為數據抓取的實踐工具,構成了網際網路開放和資訊資源共用理念的基石,如同網際網路世界的一群工蜂,不斷地推動網路空間的建設和發展。
(二)功能與價值
網路爬蟲技術是網際網路開放共用精神的重要實現工具。允許收集者通過爬蟲技術收集數據是數據開放共用的重要措施,網路爬蟲能夠通過聚合資訊、提供連結,為數據所有者的網站帶來更多的訪問量,這些善意、適量的數據抓取行為,符合數據所有者開放共用數據的預期。相較于數據所有者通過開發API來提供數據,網路爬蟲技術為數據收集者提供了極大的便利,也給專業網路爬蟲公司帶來巨大的收益:隨著網路爬蟲技術在市場中的日益普遍,其成本急劇下降,截至2016年其服務成本已經低至每小時20元,一般的網路爬蟲公司平均每年可賺取40萬元,而專門為大公司從事網路爬蟲外包服務的公司每年收益可達百萬。
二、網路爬蟲規制的必要性
(一)惡意抓取侵害他人權益和經營自由
通過網路爬蟲訪問和收集網站數據行為本身已經産生了相當規模的網路流量,但是,有分析表明其中三分之二的數據抓取行為是惡意的,並且這一比例還在不斷上升:惡意機器人可以掠奪資源、削弱競爭對手。惡意機器人往往被濫用於從一個站點抓取內容,然後將該內容發佈至另一個站點,而不顯示數據源或連結,這一不當手段將幫助非法組織建立虛假網站,産生欺詐風險,以及對智慧財産權、商業秘密的竊取行為。
(二)惡意爬蟲危及網路安全
從行為本身來講,惡意爬蟲會對目標網站産生DDOS攻擊的效果,當有成百上千的爬蟲機器人與同一網站進行交互,網站將會失去對真實目標的判斷,其很難確定哪些流量來自真實用戶,哪些流量來自機器人。若平臺使用了摻雜虛假訪問行為的缺陷數據,做出相關的行銷決策,可能會導致大量時間和金錢的損失。儘管robots協議作為國際通行的行業規範,能夠幫助網站在robot.txt文件中明確列出限制抓取的資訊範圍,但並不能從根本上阻止機器人的惡意爬蟲行為,其協議本身無法為網站提供任何技術層面的保護。目前惡意的網路爬蟲行為已經給網際網路平臺帶來了一定的商業和技術風險,影響了其正常的平臺運營和業務開展。
(三)現行法律規制方式及其不足之處
網路爬蟲的不當訪問、收集、干擾行為應當受到法律規制。目前,我國已有法律對網路爬蟲進行規制主要集中在刑法有關電腦資訊系統犯罪的相關條文上。從刑法所追求的法益來看,刑法規範的是對目標網站造成嚴重影響並具有社會危害性的數據抓取行為。若行為人違反刑法的相關規定,通過網路爬蟲訪問收集一般網站所存儲、處理或傳輸的數據,可能構成刑法中的非法獲取電腦資訊系統數據罪;如果在數據抓取過程中實施了非法控制行為,可能構成非法控制電腦資訊系統罪。此外,由於使用網路爬蟲造成對目標網站的功能干擾,導致其訪問流量增大、系統響應變緩,影響正常運營的,也可能構成破壞電腦資訊系統罪。
由於刑法的謙抑性,其只能在網路爬蟲行為産生嚴重社會危害而無刑罰以外手段進行規制的情形下起到懲治效果,而對於網路爬蟲妨礙其他網站正常運作、過量訪問收集數據等一般性危害行為很難起到規製作用,因此我國需要建立在刑法以外的行政規制手段,構建完善的刑事責任、行政責任乃至民事責任體系,以保護網際網路平臺的合法權益,維護網路空間的正常秩序。
三、完善網路爬蟲規制方式的建議
從網路爬蟲的相關案例來看,其使用者往往有充分的理由做出可能涉嫌違法的數據抓取行為,其辯護理由通常包括:“我可以用公開訪問的數據做任何事”“這是合理使用行為”“這與搜索引擎行為類似”“只是使用了自動腳本,而未使用在建立網站上”“我已經遵守了它們的robots協議”“該網站沒有robots協議”“這些數據我只是個人研究使用,並沒有商業目的”。由此可見,依託行為是否具有惡意或者通過主觀層面來判斷爬蟲行為違法與否是具有難度的。網路爬蟲規制的目標是在數據資源開放共用與網際網路平臺經營自由、網站安全之間取得平衡,遵循技術中立性原則,對網路爬蟲進行規制應當基於客觀結果,即是否妨礙網站的正常運作或者對他人合法權益造成嚴重危害。
數字時代,在數據利用成為網路産業中心的背景下,亟待確立數據訪問、獲取的規則。在技術手段、市場手段之外,需要採用法律手段規制爬蟲技術的應用,對特定的數據訪問場景進行規範。通過數據安全立法設置爬蟲技術嚴重影響網站正常運作的判斷標準,對具有危害性的網路爬蟲行為進行適當規制,是我國安全與發展並重網際網路治理根本準則在數據治理領域的體現,其目標是在數據活動各方主體中找到平衡點,兼顧數據開放共用與數據所有者經營自由和安全、社會公共利益,確保數據依法有序自由流動。