今年,GPT、AI绘画等人工智能大模型工具火热,许多人也想来追一波AI创业热潮,相关创业项目层出不穷。优质数据对AI大模型训练至关重要,只有拥有足够多的数据,才能训练出智能、强大的AI工具。我国互联网蓬勃发展二十余年,还能缺少数据?这不,曼昆律师最近接到网友咨询,准备用爬虫爬取知乎数据,做一个知乎GPT机器人岂不美哉?且慢,这其中的法律风险不可忽视。
01 爬虫是把双刃剑
爬虫技术是一种通过编程自动从互联网上获取数据的技术。它的名字形象、生动地表明了它的工作原理:模拟人类在网页浏览器中浏览网页的过程,进行数据采集和数据抓取。
网络爬虫广泛应用于搜索引擎、数据采集、广告过滤、大数据分析等领域。作为一种功能强大的信息采集程序,它能够显著提高工作效率,尤其是对海量数据的收集和整理。
DigiDaigaku Genesis系列NFT近24小时交易额增幅达300%:金色财经报道,OpenSea数据显示,DigiDaigaku Genesis系列NFT近24小时交易额为200 ETH,24小时交易额增幅达300%,24小时交易额排名位列OpenSea第6。[2022/10/20 16:32:01]
然而,一旦技术被不正当使用,也会引发“虫灾”,导致网络拥堵、崩溃、服务器瘫痪甚至引发数据安全风险。我们熟悉的“裁判文书网”也不能幸免:
图:2019年,最高人民法院发布的《关于“中国裁判文书网”网站建设建议的答复》
02 使用爬虫技术的风险
99Ex与电商平台爱国者aigo达成战略合作:官方消息,99Ex和知名电商平台爱国者aigo达成战略合作,共同成立新加披基金会 AIGO FOUNDATION LTD ,同时爱国者通证AIGO也将入驻99Pool,未来99Ex联合99Pool将与爱国者aigo在电商实体经济转型、区块链项目孵化、数字资产交易服务等多方面展开全方位深度合作。
据悉,爱国者aigo是一个专注于用户的智能电子产品品牌,旗下业务涵盖智能存储、互联终端、智能硬件、智能家居等领域。
99Ex是一个基于区块链技术应用的多语言创新数字资产交易平台,由OK CAPITAL、科银资本、连接资本、链兴资本战略投资,累计交易用户100万+,日均交易用户20万+。[2020/7/30]
爬虫作为一项获取数据的技术手段,并未被法律禁止。但使用方式及使用目的决定了是否会产生违法的行为和后果。
声音 | Ira Kleiman方律师:Craig Wright仅提供了1.6万多个BTC地址清单,但无中间人信息:在由Coindesk上传的一份新文件中,Ira Kleiman的律师称,Craig Wright只提供了16,404个比特币地址清单,但没有关于“保税快递”中间人的信息。原告要求Craig Wright在10天之内回应7条关于中间人的质询,之后原告将利用这些答复来获取有关“保税快递”中间人的信息。在此期间,原告正在请专家审查和分析这份清单。据此前CoinDesk报道,根据1月14日向美国佛罗里达州南部地区法院提交的一份法庭文件,第三方“提供了解锁加密文件所需的信息和密钥片段”,似乎是指此前提及的备受期待的“保税快递员”中间人,表示CSW拥有解锁96亿美元比特币所需的私钥。Bloom法官对保税快递公司的存在和比特币争议的数量表示怀疑。CSW此前因未能出示其所持比特币的完整清单而被判藐视法庭。[2020/1/15]
使用爬虫技术, 能在短时间内对网站进行大量访问,频繁抓取页面和数据。这可能会导致网站的带宽和服务器负载急剧增加,从而影响网站的正常运行,甚至导致宕机或响应缓慢,干扰被访问网站的正常运营,严重时可构成犯罪。
声音 | Craig Wright:BCH不该用于 BTC不是“无政府主义的货币”:据Ambcrypto消息,nChain首席科学家Craig Wright最近出现在Tone Vays主持的一个视频中谈论即将到来的硬分叉。他指责比特币耶稣Roger Ver将BCH用于。他认为比特币的设计是“在法律范围内工作”,而不是“无政府主义的货币”。比特币扮演的是金钱的角色,金钱不会破坏法律或做任何其他事情。对于Roger Ver关于货币的想法,Craig Wright表示“能够让事情变得非法”的想法使得比特币本身成为非法。[2018/11/12]
杨某授权公司员工张某开发某信贷系统软件,该软件内的“网络爬虫"功能能与深圳市居住证网站链接。2018年5月,该软件连续两小时对深圳市居住证系统查询大量访问,致使深圳市居住证系统无法正常运作,极大地影响了该居住证系统使用方深圳市局人口管理处的日常运作。二人均构成破坏计算机信息系统罪。[(2019)粤0305刑初193号]
声音 | Craig Wright:将在两年内把BCH价格降至零:据trustnodes报道,nChain首席科学家 Craig Wright在一封公开披露的电子邮件中,威胁比特币耶稣Roger Ver称,他将在两年内把比特现金的价格降至零。[2018/11/10]
与使用方式相比,如何使用爬取的信息和数据,对爬虫行为的定性影响更大。
非法使用爬取的数据和信息主要有:
(1)盗取个人信息:使用爬虫技术恶意抓取网站上的个人信息,可能涉及侵犯他人隐私、个人信息,严重可构成侵犯公民个人信息罪。
(2)商业竞争中的不正当行为:使用爬虫技术获取竞争对手的商业秘密、定价信息、用户数据等,对数据整合后“搬家”到其他平台,通过这种便捷的方式获取大量有价值的数据、信息,以谋取不正当竞争优势。
在“酷米客诉车来不正当竞争纠纷案”中,法院认为,未经权利人许可,利用网络爬虫技术进入权利人的服务器后台的方式非法获取并无偿使用权利人的实时公交信息数据的行为,实为一种“不劳而获”、“食人而肥”的行为,且具有非法占用他人无形财产权益,破坏他人市场竞争优势,构成不正当竞争。
(3)侵犯知识产权:爬取受版权保护的内容,然后用于未经授权的公开传播或商业用途,属于侵犯知识产权的行为。
03 爬虫数据“投喂”大模型的风险
通过前面的分析可知,使用爬虫技术的风险主要在于爬取的方式以及爬取的内容,那是不是控制爬取的频率和内容,爬取公开内容,用来训练机器人就没有什么风险了呢?
首先,知乎官方账号早在2018年就发布了《关于知乎用户权益保护升级的公告》,提到:知乎对第三方开放知乎内容的使用采取白名单制,第三方需要通过官方合作渠道进行申请。如果爬取行为违反了知乎的服务条款,知乎可能采取封禁账号、IP地址或者其他法律行动。
摘自《知乎机构号使用规范》(试行)
其次,知乎上的内容通常由用户原创或授权发布,著作权归用户本人所有。未经授权地爬取和使用这些内容,可能涉及侵犯知乎的版权和著作权。
其实,训练AI大模型,“数据盗窃”并非个案。上个月,笔神作文公开指控昔日合作伙伴学而思,认为学而思通过爬虫方式“偷数据”训练自家AI产品。笔神作文表示,将通过司法程序解决纠纷,要求“学而思”支付1元赔偿金,公开道歉,并删除已爬取的数据。
04 小结
在人工智能创业的热潮中,数据变得越来越重要。在面对爬虫技术带来的诱惑时,应当认识到,虽然爬虫技术本身并未被禁止,但其不当使用可能导致法律问题,尤其是在涉及个人信息、隐私、版权和不正当竞争等方面。
《生成式人工智能服务管理暂行办法》中明确提到,训练数据处理活动时,应当使用具有合法来源的数据和基础模型。各位老板在创业过程中,要确保数据采集的合法性和道德性。如果想要使用爬取的数据训练AI大模型,务必事先获得数据来源方的授权,并遵守相关平台的规定。
刘红林律师
个人专栏
阅读更多
Foresight News
金色财经 Jason.
白话区块链
金色早8点
LD Capital
-R3PO
MarsBit
深潮TechFlow
金色财经 区块链8月6日讯 尽管Curve漏洞在7月末给加密市场带来不少痛苦,但整个行业依然表现出了十足的韧性,数据描绘了不一样的微妙画面——加密用户参与度并没有减少.
1900/1/1 0:00:00译者:朴成奎IBM公司的数百项人力资源工作已被AI工具自动化。2011年,IBM的Watson人工智能系统成功击败了美国综艺智力比赛节目《危险边缘》的冠军肯·詹宁斯和布拉德·拉特——那时Wats.
1900/1/1 0:00:00作者:James Ho 、Joyce 提起Animoca Brands,相信很多圈内人并不陌生,它是 GameFi 龙头项目 Axie 创始人的第一个投资人.
1900/1/1 0:00:00作者:Jaleel,BlockBeats 随着一场漏洞利用事件的发生,DeFi 行业陷入了一场混乱.
1900/1/1 0:00:00做Layer2,似乎成为了一种热潮。从Mantle Network、Linea等新兴项目到Cele等老牌公链,都在积极探索和实施Layer2解决方案.
1900/1/1 0:00:00"Trust but verify"(信任,但要核查),不要做“事后诸葛亮”。最厉害的 bug 都是灯下黑。 这是一场与黑客的竞赛。值得庆幸的是,人们还将其与只读重入混淆.
1900/1/1 0:00:00