MediaCrawler

18 00

MediaCrawler 是开源多平台自媒体数据采集工具,用于小红书抖音等短视频与评论爬取。

MediaCrawlerMediaCrawler
百度秒哒比特指纹浏览器

MediaCrawler 是由 NanmiCoder 开发的开源多平台自媒体数据采集工具,专注于帮助开发者高效抓取主流中文社交媒体平台的公开信息。它基于 Playwright 浏览器自动化技术,无需复杂逆向工程,即可实现小红书笔记、抖音视频、快手视频、B站视频、微博帖子、百度贴吧和知乎问答等内容的爬取,支持关键词搜索、指定ID抓取、二级评论提取和创作者主页数据采集,广泛应用于自媒体内容分析、数据研究和学习场景,提供低门槛的短视频数据采集解决方案。

核心功能
多平台公开数据抓取:支持小红书、抖音、快手、B站、微博、百度贴吧、知乎等主流平台,采集笔记、视频、帖子、问答等公开内容,满足短视频爬虫和小红书爬虫等多样化需求。
关键词搜索与指定ID爬取:通过关键词快速搜索平台内容,或直接输入帖子ID精准抓取详情数据,提升数据采集的针对性和效率。
二级评论与词云生成:完整提取评论包括二级回复,支持生成评论词云图,帮助用户快速洞察用户反馈和热点话题。
创作者主页数据采集:抓取指定用户主页信息,包括发布内容、粉丝互动等,为自媒体运营和竞品分析提供全面数据支持。
登录态缓存与IP代理池:缓存登录状态避免重复扫码,集成IP代理池应对访问限制,确保爬虫长时间稳定运行。
多种数据存储与导出:支持JSONL、CSV、JSON、Excel、SQLite、MySQL等多种格式导出,方便后续数据分析和集成。
WebUI可视化界面:提供可选WebUI操作界面,无需命令行即可轻松配置和运行爬虫任务,降低使用门槛。

MediaCrawler 项目以其强大兼容性和简易操作,成为自媒体数据采集领域的热门开源工具。它通过 Playwright 无头浏览器模拟真实用户行为,绕过复杂加密算法,让程序员和研究者零门槛上手多平台爬虫任务。在实际应用中,该工具帮助用户快速采集抖音视频评论、小红书笔记数据、快手内容等公开信息,用于内容趋势分析、市场调研或学习实践。其模块化设计支持灵活配置,结合代理池和登录缓存机制,有效提升爬取成功率和稳定性。该项目强调仅供学习研究使用,严格遵守相关法律法规,避免大规模商业滥用。通过持续社区贡献,MediaCrawler 不断优化对主流平台的适配,满足从简单关键词搜索到复杂数据管道的各类需求。在数据驱动的自媒体时代,选择 MediaCrawler 意味着获得一套高效、可靠的短视频数据采集方案,帮助用户节省开发时间,专注于数据价值挖掘与业务创新。其高星级认可度也反映出在开发者社区的实用性和影响力,助力更多人高效处理社交媒体公开数据,实现从采集到分析的完整流程优化。