一个致力于用Python提高部门工作自动化水平的程序库!(包括数据采集、办公自动化、辅助研究、图网络、复杂系统、3D可视化等)

一个致力于用Python提高部门工作自动化水平的程序库!(包括数据采集、办公自动化、辅助研究、图网络、复杂系统、3D可视化等)

Property
Aug 19, 2022 08:34 PM
地址
https://github.com/52ai/Crawler4Caida
notion image

Crawler4Caida

一个关于CAIDA网络研究数据爬取的爬虫程序库,包括全球AS、DNS、IPV4/IPV6等。--2018.10.19 By Wayne Yu 始于CAIDA,而不止于CAIDA!未来此库就会有更多的可能性Using Python3.X!---2019.04.05 By Wayne Yu懒得再去建库了,入职后所有的Python程序都扔这里面了。--2019.05.08 By Wayne Yu 修改仓库的Description为:一个致力于用Python提高部门工作自动化水平的程序库!(包括网络数据爬取、办公自动化、辅助研究等)--- 2019.05.09 By Wayne Yu 尝试着坚持每天Github,坚持每天写点程序,老本行不能丢!今天是Github连击第4天,加油!---2019..05.11 By Wayne Yu 每天总得写点代码,找一些有意思的事情做!---2019.05.24 By Wayne Yu 今天要完成两个程序,并进一步梳理接下来的Coding计划。---2019.06.17 By Wayne Yu 博学之,审问之,慎思之,明辨之,笃行之!---2019.06.20 By Wayne Yu 最近一段时间一直在忙全球互联网网络地图构建与生成方法的课题,已取得阶段性进展!---2019.12.24 By Wayne Yu 经过一段时间的思考,昨天确定了以互联网网络(专业领域/Graph)+复杂系统(普适规律/Complex System)为研究方向的总体思路!---2020.01.14 By Wayne YU 修改仓库的Description为:一个致力于用Python提高部门工作自动化水平的程序库!(包括数据采集、办公自动化、辅助研究、图网络、复杂系统等)---2020.01.14 By Wayne YU 庚子鼠年,开工大吉,愿武汉新型肺炎疫情早日消失!---20200203 By Wayne YU 初步适应武汉新冠疫情期间的"闭关"工作!---20200210 By Wayne YU 把握好心态,稳步向前!--20200220 By Wayne YU 经过一段时间酝酿,最终确定了大规模网络3D可视化新思路,以辅助复杂网络理论的实践。---20200315 By Wayne YU 最近开始折腾OPNET的网络仿真,Github的频率可能会低一些。---20200319 By Wayne YU 明天开始要搞个大事情,有意思的事情,先做计划书。---20200324 By Wayne YU 静静写代码,倒也能平复我浮躁的情绪! ---20200331 By Wayne YU 人生不可太着急,要循序渐进。做好可控的事,适应不可控的事,方可活的洒脱。---20200422 By Wayne YU 五一假期余额不足,且行且珍惜!---20200504 By Wayne YU 集中处理下地图基础课题第二篇论文的算法调优工作!--20200610 By Wayne YU 地图基础课题第一篇论文已于20200616被录用(SCI),近期开始处理地图基础课题第二篇论文输出任务。---20200619 By Wayne YU 前两天小A的Win10彻底崩了,索性重装,所有环境重配。这是重装后的第一次Git!---20200713 By Wenyan YU 在云端的人工智能可以有无限可能!---20200716 By Wenyan YU 科学研究和实际应用总会有一定差距,要学会如何去平衡二者。---20200727 By Wenyan YU 生活之事不如意十之八九,明白自己想要的是什么,莫要成为情绪的奴隶。---20200823 By Wenyan YU 如汪滔之于大疆一般,用心去打磨一款极致的技术产品。---20200824 By Wenyan YU 当用力之时,就尽管去用力,莫要以为轻松的就能过好这一生。---20200913 By Wenyan YU 尽快完成地图基础课题第二篇论文输出任务吧。---20200923 By Wenyan YU 没有所谓最好的状态,人生的每一天都需珍惜,努力前行,不负韶华。---20201105 By Wenyan YU 临近年关,2020即将结束,发生了太多太多事,有点想哭。---20201204 By Wenyan YU 再苦再累,静下来心来,好好面对,追寻内心的选择。---20201206 By Wenyan YU 静下来,慢下来,立即行动。---20201208 By Wenyan YU 技术的精进一定是在解决实际问题中体现价值。---20201210 By Wenyan YU 2020年最后一天了,要加油呀,既不可妄自尊大,也不可妄自菲薄。---20201231 By Wenyan YU 逐步适应VSCODE的编程环境,2021年要试着和自己和解。---20210112 By Wenyan YU 重回Pycharm怀抱,写Python感觉还是PyCharm来的舒服,VSCODE用着还是不习惯。---20210222 By Wenyan YU 知海拾荒,始于网络而不止于网络。---20210402 By Wenyan YU 拖延是焦虑的根源,而行动是治疗焦虑的良药,兴趣是人生持续向前的原动力。---20210618 By Wenyan YU 天下难事,必作于易;天下大事,必作于细。莫要好高骛远,踏实前行为好!---20210718 By Wenyan YU 起承转合,锻炼结构性思维,写作其实并不难。---20210720 By Wenyan YU 坚持真理、坚守理想,践行初心、担当使命,不怕牺牲、英勇斗争,对党忠诚、不负人民。---20210903 By Wenyan YU 人生意义在于不断的选择,拒绝完美,拒绝拖延,崇尚科学。 ---20210913 By Wenyan YU 但愿人长久,千里共婵娟,中秋佳节快乐呀! ---20210921 By Wenyan YU 只要思想不滑坡,办法总比问题多。 ---20211013 By Wenyan YU 积极主动,轻装上阵,把手头的事情做好做漂亮,做个靠谱的人。 ---20211021 By Wenyan YU 昨日开启”正念禅修“,尝试着体验”存在模式“,为自己的人生打开一扇新的窗户。 ---20211123 By Wenyan YU 2022年,注定是深刻变革的一年,我应携”正念禅修“之精髓,努力完成人生的漂亮转折。---20220104 By Wenyan YU 隔几日不编程,生活便少了很多的乐趣,目前的编程还比较零散,2022应当围绕一个网络产品不断的迭代更新。---20220111 By Wenyan YU 编程有趣,但目前尚缺乏系统性的工具开发和维护。---20220113 By Wenyan YU 破局之年也勿忘诗意的栖居。---20220310 By Wenyan YU 再读保罗.格雷厄姆的《黑客与画家》,去体会”什么是黑客精神?“---20220418 By Wenyan YU 克服演讲障碍的不二法则,大声练习,完整实践!---20220505 By Wenyan YU 开启微信读书新阶段。---20220630 By Wenyan YU 纳瓦尔:“幸福=健康+财富+良好的人际关系”,简单明了,很好。---20220714 By Wenyan YU 纳瓦尔:”健康=锻炼+饮食+睡眠“,要重点关注。---20220715 By Wenyan YU 系统梳理个人原则,以原则处世,人生之路才能走的更加从容不迫。---20220718 By Wenyan YU 技术以立身,读书以修身。---20220725 By Wenyan YU

关于CAIDA

Founded in 1997, the Center for Applied Internet Data Analysis (CAIDA) conducts network research and builds research infrastructure to support large-scale data collection, curation, and data distribution to the scientific research community. CAIDA(the Center for Applied Internet Data Analysis),中文全称为互联网应用数据分析中心,引导网络研究并构建网络研究基础设施,为大规模的数据采集、管理,并将数据分发至科学研究社区提供支撑。 详细信息可以通过这个2页的PDF获取:下载
CAIDA的使命
1)为全球互联网基础设施、行为、使用和演化提供宏观视角,
2)建立一个可以获取、分析以及共享数据的写作平台,
3)提高互联网科学的整体性,
4)为科学、技术以及通信公共政策提供信息。

为什么要建Crawler4Caida开源库

因部门工作内容需要,在研究的过程中会用到CAIDA数据中心中的网络数据,并对其进行一定的处理分析,按需求提取结果。在编写爬虫的过程中发现,虽然每次具体的需求不一,但是抓取数据的思路大同小异。 为提供高工作效率,减少不必要的开发成本,特建此库,把以往编写Caida网络数据爬虫记录下来,并通过后期的程序重构和新需求的加入,以不断充实此开源库。

Crawler4Caida库结构

automation --- 按照任务以文件夹的形式进行管理源程序 crawler --- 放置按需求编写的爬虫程序,一般是以单个文件的形式存档 crawler4caida --- 不定期更新系统化的CAIDA数据的分析程序,不限于AS号、DNS、IPv4/IPv6、网间互联互通等内容 refactoring --- 放置重构之后的爬虫程序,一般完成时间较晚 requirements.md ---需求记录文档 README.md ---库介绍文档

MORE

更多的信息可以访问,云中布衣搜索Crawler4Caida进行留言讨论。