MediaCrawler

139 00

MediaCrawler 是开源多平台自媒体数据采集工具，用于小红书抖音等短视频与评论爬取。

打开网站替代方案

GitHub/AI开源

MediaCrawler

打开网站

MediaCrawler 是由 NanmiCoder 开发的开源多平台自媒体数据采集工具，专注于帮助开发者高效抓取主流中文社交媒体平台的公开信息。它基于 Playwright 浏览器自动化技术，无需复杂逆向工程，即可实现小红书笔记、抖音视频、快手视频、B站视频、微博帖子、百度贴吧和知乎问答等内容的爬取，支持关键词搜索、指定ID抓取、二级评论提取和创作者主页数据采集，广泛应用于自媒体内容分析、数据研究和学习场景，提供低门槛的短视频数据采集解决方案。

核心功能
多平台公开数据抓取：支持小红书、抖音、快手、B站、微博、百度贴吧、知乎等主流平台，采集笔记、视频、帖子、问答等公开内容，满足短视频爬虫和小红书爬虫等多样化需求。
关键词搜索与指定ID爬取：通过关键词快速搜索平台内容，或直接输入帖子ID精准抓取详情数据，提升数据采集的针对性和效率。
二级评论与词云生成：完整提取评论包括二级回复，支持生成评论词云图，帮助用户快速洞察用户反馈和热点话题。
创作者主页数据采集：抓取指定用户主页信息，包括发布内容、粉丝互动等，为自媒体运营和竞品分析提供全面数据支持。
登录态缓存与IP代理池：缓存登录状态避免重复扫码，集成IP代理池应对访问限制，确保爬虫长时间稳定运行。
多种数据存储与导出：支持JSONL、CSV、JSON、Excel、SQLite、MySQL等多种格式导出，方便后续数据分析和集成。
WebUI可视化界面：提供可选WebUI操作界面，无需命令行即可轻松配置和运行爬虫任务，降低使用门槛。

MediaCrawler 项目以其强大兼容性和简易操作，成为自媒体数据采集领域的热门开源工具。它通过 Playwright 无头浏览器模拟真实用户行为，绕过复杂加密算法，让程序员和研究者零门槛上手多平台爬虫任务。在实际应用中，该工具帮助用户快速采集抖音视频评论、小红书笔记数据、快手内容等公开信息，用于内容趋势分析、市场调研或学习实践。其模块化设计支持灵活配置，结合代理池和登录缓存机制，有效提升爬取成功率和稳定性。该项目强调仅供学习研究使用，严格遵守相关法律法规，避免大规模商业滥用。通过持续社区贡献，MediaCrawler 不断优化对主流平台的适配，满足从简单关键词搜索到复杂数据管道的各类需求。在数据驱动的自媒体时代，选择 MediaCrawler 意味着获得一套高效、可靠的短视频数据采集方案，帮助用户节省开发时间，专注于数据价值挖掘与业务创新。其高星级认可度也反映出在开发者社区的实用性和影响力，助力更多人高效处理社交媒体公开数据，实现从采集到分析的完整流程优化。