python html5 bootstrap 视频教程
德云社区 门户 行业资讯 行业标准 智控标准 查看内容

Portia - 用 Python 编写 无需编程知识的开源可视爬虫工具

2018-6-8 23:00| 发布者: digitser| 查看: 802| 评论: 0|原作者: google

摘要: Portia - 用 Python 编写 无需编程知识的开源可视爬虫工具 Portia 是一个用 Python 编写无需任何编程知识,就能可视爬取网站数据的开源工具。无需下载或安装任何东西,因为,Portia 是运行在您的 Web 浏览器中。 Sc ...
AI人工智能 语音助理 人工翻译 教程
Portia - 用 Python 编写 无需编程知识的开源可视爬虫工具

Portia 是一个用 Python 编写无需任何编程知识,就能可视爬取网站数据的开源工具。无需下载或安装任何东西,因为,Portia 是运行在您的 Web 浏览器中。


Scrapinghub 的 Portia 项目完全开源且可被导出,还可用于其它开源项目,为用户提供所有自由和开放源码好处。


通过点击您想爬取的页面元素创建一个爬取模板,然后,Portia 会创建一个蜘蛛,从而对网站类似页面进行爬取。具体工作原理:首先,用 Portia 注解网页,以确定希望提取的数据;然后,Portia 会基于这些注解,理解如何从类似网页爬取数据。


Portia 是 scrapyhub 开源的一款可视化爬虫规则编写工具。Portia 提供了可视化的 Web 页面,只需通过简单点击,标注页面上需提取的相应数据,无需任何编程知识即可完成爬取规则的开发。这些规则还可在 Scrapy 中使用,用于抓取页面。


Portia

运行 Portia

运行 Portia 的最简单方式,是使用 Vagrant。


自动 "批量" 挖掘 "深网 暗网" 内容的爬取 "数据采集" 工具

http://collect.digitser.cn/

http://forum.digitser.cn/thread-2253-1-1.html


软件仓库

https://github.com/digitser

https://digitser.sourceforge.io/

https://pan.baidu.com/s/1TV70__Be1ta0ney1-tudFQ

先克隆 Portia 储存库:

  1. git clone https://github.com/scrapinghub/portia
复制代码

然后,在 Portia 目录内,执行:

  1. vagrant up
复制代码

"长按二维码" 或 "扫一扫" 关注 "德云社区" 微信公众号

版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载;否则,将追究其法律责任。

路过

雷人

握手

鲜花

鸡蛋

相关阅读

最新评论

QtGui QTextCharFormat() QPlainTextEdit() 最好在使用时才设置
QtGui QTextCharFormat() QPlainTextEdit() 最好在使用时才设置 当实例化 QPlainTextEdit() QTextEdit() 使用 QtGui QTextCharFormat() 与 setCurrentCharFormat() 设置要[157/2020-11-04]
PySide6出来了 PySide2却还未完全稳定 不能用于生产环境
PySide6出来了 PySide2却还未完全稳定 不能用于生产环境 PySide6 正式成为官方文档名 (见下方链接),何时成为官方工程名称,等 Python for Qt 6 正式对外发布就可知。 Ren[145/2020-11-03]
psutil 5.7.0 官方中文文档编制 中文手册教程 人工翻译
psutil 5.7.0 官方中文文档编制 中文手册教程 人工翻译 网页背景为黑色以保护视力,未上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译为 psutil 5.7.0。 psu[205/2020-10-19]
psutil 5.7.0 中文文档编制 中文手册教程 人工翻译 更新日志
psutil 5.7.0 中文文档编制 中文手册教程 人工翻译 更新日志 网页背景为黑色以保护视力,未上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译为 psutil 5.7.0。[29/2020-10-19]
PyQt 4.11.4 for Qt 4.8.7 中文文档编制 手册 人工翻译 更新日志
PyQt 4.11.4 for Qt 4.8.7 中文文档编制 手册 人工翻译 更新日志 最近把网页背景由白色改为黑色,保护视力,不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工[31/2020-10-19]
数字 IDE 网页 2019 - HTML Bootstrap网站站群 集成开发环境 编辑器
数字 IDE 网页 2019 - HTML Bootstrap网站站群 集成开发环境 编辑器 数字化 Web 网页 IDE 采用 应用 + 小程序 方式架构,结合 精确-模糊 批量查找-修改-比对 多文件-多工程[246/2020-10-08]
JavaScript Web-API DOM 官方中文文档编制 中文手册教程 人工翻译
JavaScript Web-API DOM 官方中文文档编制 中文手册教程 人工翻译 网页背景为黑色以保护视力,未上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译为 2020 年 9[60/2020-10-05]
JavaScript Web-API DOM 官方中文文档编制 中文手册教程 更新日志
JavaScript Web-API DOM 官方中文文档编制 中文手册教程 更新日志 网页背景为黑色以保护视力,未上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译为 2020 年 9[32/2020-10-05]
Cython 0.29.6 官方中文文档编制 官方教程 人工翻译 更新日志
Cython 0.29.6 官方中文文档编制 官方教程 人工翻译 更新日志 Cython 0.29.6 中文文档编制采用机器辅助 + 全人工翻译,完全采用 数字翻译 的文档翻译流程进行汉化 (未采用[139/2020-08-08]
Cython 0.29.6 官方中文文档编制 官方教程 手册 全人工翻译
Cython 0.29.6 官方中文文档编制 官方教程 手册 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Cython 0.29.6。 Cython 0.29.6 [238/2020-08-08]
Qt 4.8.7 官方中文文档编制 教程 在线手册 人工翻译 更新日志
Qt 4.8.7 官方中文文档编制 教程 在线手册 人工翻译 更新日志 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Qt 4.8.7。 Qt 4.8.7 中文文档[72/2020-08-08]
PyInstaller 3.6 官方中文文档编制 官方教程 人工翻译 更新日志
PyInstaller 3.6 官方中文文档编制 官方教程 人工翻译 更新日志 PyInstaller 3.6 中文文档编制采用机器辅助 + 全人工翻译,完全采用 数字翻译 的文档翻译流程进行汉化 (未[120/2020-08-08]
PyInstaller 3.6 官方中文文档编制 官方教程 手册 全人工翻译
PyInstaller 3.6 官方中文文档编制 官方教程 手册 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 PyInstaller 3.6。 PyInstalle[121/2020-08-08]
Qt 4.8.7 官方中文文档编制 在线手册 官方教程 全人工翻译
Qt 4.8.7 官方中文文档编制 在线手册 官方教程 全人工翻译 以后不再上传 en-US 官方原版文档编制,目前上传的最新 zh-CN 人工翻译版本为 Qt 4.8.7。 Qt 4.8.7 中文文档编[66/2020-08-08]
Python2.7.18 官方中文文档编制 标准库教程 帮助文件 更新日志
Python2.7.18 官方中文文档编制 标准库教程 帮助文件 更新日志 CPython 2.7 原定于 2020 年 01 月 停止维护, 但官方却又于 2020 年 04 月发布了 CPython 2.7.18。 感谢德[69/2020-08-05]

Archiver|Sitemap|小黑屋|德云社区   

GMT+8, 2020-11-30 21:14 , Processed in 0.097703 second(s), 28 queries .

工业和信息化部: 粤ICP备14079481号-2

技术支持 乐数软件     版权所有 © 2014-2021 德云社区    

返回顶部