python html5 bootstrap 视频教程
德云社区 门户 行业资讯 行业标准 智控标准 查看内容

Portia - 用 Python 编写 无需编程知识的开源可视爬虫工具

2018-6-8 23:00| 发布者: digitser| 查看: 924| 评论: 0|原作者: google

摘要: Portia - 用 Python 编写 无需编程知识的开源可视爬虫工具 Portia 是一个用 Python 编写无需任何编程知识,就能可视爬取网站数据的开源工具。无需下载或安装任何东西,因为,Portia 是运行在您的 Web 浏览器中。 Sc ...
AI人工智能 语音助理 人工翻译 教程
Portia - 用 Python 编写 无需编程知识的开源可视爬虫工具

Portia 是一个用 Python 编写无需任何编程知识,就能可视爬取网站数据的开源工具。无需下载或安装任何东西,因为,Portia 是运行在您的 Web 浏览器中。


Scrapinghub 的 Portia 项目完全开源且可被导出,还可用于其它开源项目,为用户提供所有自由和开放源码好处。


通过点击您想爬取的页面元素创建一个爬取模板,然后,Portia 会创建一个蜘蛛,从而对网站类似页面进行爬取。具体工作原理:首先,用 Portia 注解网页,以确定希望提取的数据;然后,Portia 会基于这些注解,理解如何从类似网页爬取数据。


Portia 是 scrapyhub 开源的一款可视化爬虫规则编写工具。Portia 提供了可视化的 Web 页面,只需通过简单点击,标注页面上需提取的相应数据,无需任何编程知识即可完成爬取规则的开发。这些规则还可在 Scrapy 中使用,用于抓取页面。


Portia

运行 Portia

运行 Portia 的最简单方式,是使用 Vagrant。


自动 "批量" 挖掘 "深网 暗网" 内容的爬取 "数据采集" 工具

http://collect.digitser.cn/

http://forum.digitser.cn/thread-2253-1-1.html


软件仓库

https://github.com/digitser

https://digitser.sourceforge.io/

https://pan.baidu.com/s/1TV70__Be1ta0ney1-tudFQ

先克隆 Portia 储存库:

  1. git clone https://github.com/scrapinghub/portia
复制代码

然后,在 Portia 目录内,执行:

  1. vagrant up
复制代码

"长按二维码" 或 "扫一扫" 关注 "德云社区" 微信公众号

版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载;否则,将追究其法律责任。

路过

雷人

握手

鲜花

鸡蛋

相关阅读

最新评论

数字网页 IDE 2021 注册机 注册码生成器 附详细破解方法
数字网页 IDE 2021 注册机 注册码生成器 附详细破解方法 完整 完美破解补丁 注册机 注册码生成器,破解后与 VIP 客户在功能方面没有任何区别。 数字 Python IDE 目前还在[8/前天 14:49]
数字翻译 2021 注册机 注册码生成器 内存破解器 附详细用法
数字翻译 2021 注册机 注册码生成器 内存破解器 附详细用法 完整 完美破解补丁 注册机 注册码生成器 内存破解器,破解后与 VIP 客户在功能方面没有任何区别。 数字 Pytho[49/2021-03-26]
乐数软件2021版应用 IDE 正式对外发行 2020.5版程序停止维护
乐数软件2021版应用 IDE 正式对外发行 2020.5版程序停止维护 2021 年 3 月 21 日乐数软件正式对外发行 2021 版应用 IDE 共 6 款大应用及与之配套的很多小应用,包括大家所[53/2021-03-26]
MicroPython 1.14 官方中文文档编制 帮助手册 人工翻译 在线手册
MicroPython 1.14 官方中文文档编制 帮助手册 人工翻译 在线手册 目前上传的最新 zh-CN 人工翻译版本为 MicroPython 1.14。 MicroPython 1.14 中文文档编制采用机器辅助 +[59/2021-03-18]
MicroPython 1.14 官方中文文档编制 帮助手册 人工翻译 更新日志
MicroPython 1.14 官方中文文档编制 帮助手册 人工翻译 更新日志 目前上传的最新 zh-CN 人工翻译版本为 MicroPython 1.14。 MicroPython 1.14 中文文档编制采用机器辅助 +[24/2021-03-18]
Qt for MCUs 1.7 官方文档编制 中文手册 全人工翻译 更新日志
Qt for MCUs 1.7 官方文档编制 中文手册 全人工翻译 更新日志 目前上传的最新 zh-CN 人工翻译版本为 Qt for MCUs 1.7。 Qt for MCUs 1.7 中文文档编制采用机器辅助 + 全人[28/2021-03-17]
Qt for MCUs 1.7 官方文档编制 中文教程 全人工翻译 在线手册
Qt for MCUs 1.7 官方文档编制 中文教程 全人工翻译 在线手册 目前上传的最新 zh-CN 人工翻译版本为 Qt for MCUs 1.7。 Qt for MCUs 1.7 中文文档编制采用机器辅助 + 全人[32/2021-03-17]
数字 Python IDE 2021 注册机 注册码生成器 附详细破解方法
数字IDE 注册机 注册码生成器 内存破解器 附详细使用方法 完整 完美破解补丁 注册机 注册码生成器 内存破解器,破解后与 VIP 客户在功能方面没有任何区别。 数字 Python [106/2021-02-21]
Qt 6.0精减WebEngine SerialPort Multimedia等成为半残GUI框架一览 何解
Qt 6.0精减WebEngine SerialPort Multimedia等成为半残GUI框架一览 何解 由于 Qt 集成了大量成熟模块,使之成为 C++ 领域中最好用的开源技术跨平台 GUI 开发框架。 基于 Q[62/2021-02-16]
Qt 6.0.1 官方中文文档编制 中文手册 中文帮助 更新日志
Qt 6.0.1 官方中文文档编制 中文手册 中文帮助 更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Qt 6.0.1。 Qt 6.0.1 中文文档编制[76/2021-02-15]
Qt 6.0.1 官方中文文档编制 中文手册 中文帮助 全人工翻译
Qt 6.0.1 官方中文文档编制 中文手册 中文帮助 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Qt 6.0.1。 Qt 6.0.1 中文文档编[132/2021-02-15]
Visual Studio Build Tools 2017 2019 en-US for Windows VCTools C/C++编译工具
Visual Studio Build Tools 2017 2019 en-US for Windows VCTools C/C++编译工具包 主要针对 MicroSoft Windows 7 8 10 平台为进行 C/C++ 代码编译而构建的官方离线编译工[86/2021-02-11]
Windows7 Visual Studio 2017 2019 修正 vs_installer.opc certificate is invalid
Windows7 Visual Studio 2017 2019 修正 vs_installer.opc certificate is invalid Windows7 SP1 for Visual Studio Installer 2017 2019 离线安装包有时会无声自动退出,[45/2021-02-11]
Windows7 SP1如何修正Visual Studio 2017 2019 certificate is invalid 问题
Windows7 SP1如何修正Visual Studio 2017 2019 certificate is invalid 问题 Windows7 SP1 无法安装 Visual Studio 2017 2019 离线安装包的主要问题,是系统需要安装特定补[66/2021-02-11]
Windows7 修正 Visual Studio 2017 2019 安装程序清单签名验证失败
Windows7 修正 Visual Studio 2017 2019 安装程序清单签名验证失败 Windows7 SP1 for Visual Studio Installer 2017 2019 离线安装包弹出 安装程序清单签名验证失败 提示对[61/2021-02-11]

Archiver|Sitemap|小黑屋|德云社区   

GMT+8, 2021-4-15 23:37 , Processed in 0.031260 second(s), 28 queries .

工业和信息化部: 粤ICP备14079481号-2

技术支持 乐数软件     版权所有 © 2014-2021 德云社区    

返回顶部