独立开发者做AI项目时,最容易忽略的数据来源

最近半年在研究 AI 内容生成。

一开始关注的是:

  • LLM
  • 提示词
  • Agent

后来发现:

大家都在研究模型。

但很少有人研究数据。

实际上。

高质量数据比模型更重要。

常见数据来源

  • 搜索结果
  • 用户评论
  • 社区讨论
  • 视频互动数据

其中评论区往往最有价值。

因为里面包含大量真实需求。

我的做法

目前会定期整理:

  • 抖音评论
  • 小红书评论
  • 热门视频互动数据

用于:

  • 内容分析
  • 用户研究
  • AI训练

为了节省时间,后来直接使用 GeoDataClaw 这类工具整理数据。

这样可以把更多精力放在分析而不是采集上。

posted @ 2026-06-02 21:05  272623186  阅读(5)  评论(0)    收藏  举报