木星链 木星链
Ctrl+D收藏木星链
首页 > Gate.io > 正文

YTH:python爬取区块链浏览器上的交易列表数据

作者:

时间:1900/1/1 0:00:00

2022年6月3日 端午节安康。

今天主要分享如何利用爬虫爬取区块链浏览器上的交易列表数据。

dune上没有bsc链上的转账明细数据表。Footprint Analytics上现有的bsc_transactions表transfer_type粒度不够。

python 3.7

数据存储:mysql 5.7

缓存:redis 6.2.6

开发工具:pycharm

(1)所有协议、合约、swap地址转账信息全爬不太实际,对存储要求比较高。所以针对需要分析的协议,专门去爬取对应智能合约转账是个不错的选择。

(2)区块链浏览器肯定是有反爬机制的。所以在代理选择上,要选择国外的代理。国内的代理都访问不到,具体原因你懂的。本文中不涉及代理部分,因为国外的代理厂家之前没有了解过。不过即使是上代理,对代码层面改动也比较小

Injective宣布主网与Pyth集成:金色财经报道,Cosmos生态智能合约平台Injective宣布Pyth已与Injective主网集成。Injective dApps 现在可以访问 Pyth 的任何链上数据,Pyth 是一个在链上发布连续真实世界数据的第一方金融预言机网络,它引入了一种创新的低延迟拉式预言机设计。有了这个功能,Injective 上的 dApps 可以在需要时轻松访问链上的可用价格,从而使区块链环境中的每个人都可以访问真实世界的资产数据。[2023/5/4 14:41:00]

(3)采用了urllib同步请求 + 范围内随机时长程序休眠。减少了被风控的概率。但是也降低了爬虫的效率。

后面再研究用scrapy或异步请求

英国喜剧天团Monty Python成员John Cleese发布NFT:英国喜剧天团 Monty Python 的成员 John Cleese 正在拍卖一件自己的 NFT 画作,这幅名为「布鲁克林大桥」的作品为 John Cleese 本人在 iPad 上绘制的布鲁克林大桥写生,目前正在 NFT 市场 OpenSea 上进行拍卖,该作品起拍价为 100 美元,目前最高出价为 50000USDC。John Cleese「布鲁克林大桥」的作品受到本周早些时候另一件名为「待售桥」的 NFT 作品的启发,这是一件布鲁克林大桥的 Google 在地图视图,目前在 OpenSea 上价值 27 美元,意欲讽刺美国历史上臭名昭著的犯 George C. Parker,从 1900 年至 1928 年,George C. Parker 使用不同的假名,出售了很多美国地标建筑,包括自由女神像,麦迪逊广场花园,大都会博物馆,格兰特将军国家纪念堂,和布鲁克林桥。[2021/3/21 19:04:17]

同步:请求发送后,需要接受到返回的消息后,才进行下一次发送。异步:不需要等接收到返回的消息。

动态 | 耐克获区块链运动鞋“CrpytoKicks”专利:今天,运动品牌耐克(Nike)的区块链兼容运动鞋“CrpytoKicks”专利获美国专利局批准。该专利概述了一个系统,通过该系统,区块链可以将安全加密的数字资产附加到物理产品上,在本例中是运动鞋。此外,耐克还可以利用区块链技术追踪追踪运动鞋所有权,并验证其真实性。此前消息,“Cryptokicks”商标序列号为883945295,创建于2019年4月19日。该商标属耐克名下,被描述为“代表了加密数字货币钱包、在线市场服务以及供会员使用的代币等内容”。(TNW)[2019/12/11]

找到需要爬取合约的具体地址:

第一页

http://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8第二页

动态 | NEO开发者社区CoZ发布neo-python的v0.8.2版本:据Neonewstoday消息,NEO开发者社区CoZ(City of Zion) 最近发布了neo-python的 v0.8.2 版本,这是一个基于Python的节点和用于NEO区块链的SDK。该项目旨在成为NEO项目的完整港口。[2018/11/3]

https://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8&p=2第三页

https://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8&p=3....

可以知道 p = ?就代表页数。

然后F12 点击“网络”,刷新界面,查看网络请求信息。

主要查看,网页上显示的数据,是哪个文件响应的。以什么方式响应的,请求方法是什么

如何验证呢,就是找一个txn_hash在响应的数据里面按ctrl + f去搜索,搜索到了说明肯定是这个文件返回的。

查看响应的数据,是html的格式。在python里面,处理html数据,个人常用的是xpath(当然,如果更擅长BeautifulSoup也可以)

在python里面安装相关的依赖

pip install lxml ‐i https://pypi.douban.com/simple同时在浏览器上安装xpath插件,它能更好的帮助我们获到网页中元素的位置

XPath Helper - Chrome 网上应用店 (google.com)

然后就可以通过插件去定位了,返回的结果是list

**注:**浏览器看到的网页都是浏览器帮我们渲染好的。存在在浏览器中能定位到数据,但是代码中取不到值的情况,这时候可以通过鼠标右键-查看网页源码,然后搜索实现

然后就是利用redis,对txn_hash去重,去重的原因是防止一条数据被爬到了多次

最后一个需要考虑的问题:交易是在增量了,也就是说,当前第二页的数据,很可能过会就到第三页去了。对此我的策略是不管页数的变动。一直往下爬。全量爬完了,再从第一页爬新增加的交易。直到遇到第一次全量爬取的txn_hash

最后就是存入到数据库了。这个没啥好说的。

以上就可以拿到转账列表中的txn_hash,后面还要写一个爬虫深入列表里面,通过txn_hash去爬取详情页面的信息。这个就下个文章再说,代码还没写完。

今天就写到这里。拜拜ヾ(?ω?`)o

来源:Bress

作者:撒酒狂歌

标签:YTHHON区块链NEOyth币介绍SHON币什么是区块链技术NeosCoin

Gate.io热门资讯
元宇宙:「在世界中心呼唤Web3」征文活动

元宇宙、NFT、数字孪生、区块链和人工智能……这些到底是什么?是忽悠是割韭菜?还是,未来真的来了?面对Web3.0这个令人摩拳擦掌的全新世界,你是否也跃跃欲试?或已经走在浪潮前端.

1900/1/1 0:00:00
区块链:金色观察 | 影响普通加密投资者的关键:代币经济学

加密货币的代币经济学让你很好地了解是否投资它,这也是影响代币项目成功的关键因素之一。加密代币经济学由“代币”和“经济学”组合而成。它在加密货币领域缺乏一个普遍认可的定义.

1900/1/1 0:00:00
比特币:观点:Web3 和DeFi 的资本高效性成为传统企业的最大威胁

DeFi 与 TradFi 的比较以及这对下一代创始人和资助者意味着什么。熊市创造伟大的公司。稀缺的资本和受抑制的市场需求相结合,迫使创始人和团队在财政上变得节俭并专注于高价值活动.

1900/1/1 0:00:00
DAO:解析:DAO的优点和缺点

随着加密领域和区块链世界的不断成熟,许多引人注目的用例正在接受考验。今天我们看一下DAO。虽然DAO看起来有很多希望,但与其他通信和管理层次结构一样,这种方法也有优点和缺点.

1900/1/1 0:00:00
BTC:金色趋势丨熊市结束了?

BTC周线目前仍处于下行趋势通道内,除非有效突破,否则仍看作周线9连阴后的超跌反弹,目前反弹最高刚好涨至这一轮顶底0.236回撤位32300附近遇阻,周线收线站上,后续才有望拉大空间.

1900/1/1 0:00:00
以太坊:一文读懂以太坊虚拟机的网络效应 给其他 L1 带来怎样挑战?

实际上,大家所熟知的以太坊只是以太坊区块链的一种实现。在硬币的另一面,以太坊虚拟机可以理解为基于区块链的开源软件「开发平台」,允许开发人员创建去中心化应用程序.

1900/1/1 0:00:00