WebScraper使用Integrity机制快速抓取网站,并可以以CSV或JSON格式输出提取的数据(当前)。 加上将图像上传到文件夹。
从网站收集数据或存档内容。
特点
• 快速简便的网站抓取和转义
• 可以通过 ProxyCrawl 服务对每个请求使用不同的 IP 地址、用户代理等
• 在桌面上运行的本机 MacOS 应用程序
• 多种提取数据的方法; 不同的元数据、内容(文本、HTML 或 Markdown)、具有特定类/ID 的元素、正则表达式
• 易于导出数据 – 选择所需的列
• 以 csv 或 json 格式输出数据•
能够将所有图像上传到文件夹/收集和导出所有链接
• 能够输出单个文本文件(专为存档文本内容、降价或纯文本而设计)
• 轻松设置以从网站中提取电子邮件地址
• 许多选项/设置