多模态 AI 时代的材料困局与机遇,Bright Data 赋能LLM 训练以及AEO场景
2025-12-01 12:55 tlnshuju 阅读(0) 评论(0) 收藏 举报前言
单纯依赖文本训练的 LLM 时代正在落幕,多模态 AI 时代已经到来,在LLM训练中,尤其是多模态数据,已经成为 AI 大模型竞赛的核心战场。当无数 AI 团队和研究机构踏入多模态数据采集领域时,却发现自己面临着前所未有的困局:
- 技术困局:使用 yt-dlp 等工具时,频繁遭遇 IP 封锁和 HTTP 429,成功率降至 30% 以下
- 规模困局:从百级扩展到百万级时,陷入代理-IP-并发的瓶颈。有团队 4 个工程师 3 个月只采集到 5 万条数据
- 合规困局:GDPR、CCPA 等法规要求下,大规模采集需确保合规性
随着 SEO 向 AEO(AI Engine Optimization)转型,实时监测 AI 搜索结果成为新需求,这同样依赖强大的数据采集能力。然而Bright Data 提供企业级数据采集基础设施,7200 万+ 真实 IP、Web Unlocker 智能解锁技术,帮助 AI 团队构建完整的多模态训练数据管道。
一、BrightData亮数据如何破解反爬虫
Bright Data 的 Web Unlocker 代表了数据采集技术的重大突破。它不同于传统代理或简单的请求重试,而是一个集成了多种反爬虫应对策略的智能系统:
1、自动绕过验证码
- 集成 reCAPTCHA、hCaptcha、Cloudflare Turnstile 等主流验证码解决方案
- 无需人工介入,自动识别并通过验证
2、动态 IP 轮换
- 从 7200 万+ 真实住宅 IP 池中智能选择
- 模拟真实用户行为,避免被识别为爬虫
3、浏览器指纹管理
- 自动处理 User-Agent、Canvas 指纹、WebGL 指纹等
- 确保每次请求看起来来自不同的真实用户
4、JavaScript 渲染
- 支持动态网页内容加载
- 完整执行 JavaScript,获取 AJAX 加载的数据
5、重试与容错机制
- 智能识别失败原因(IP 封锁、超时、服务器错误等)
- 自动切换策略重试,确保高成功率

二、基于BrightData亮数据爬取音视频数据
1、创建 API
登录到注册登录Bright Data平台(目前注册免费使用,且API产品75折)

这里我们选择左侧菜单栏中的Web Access,然后点击Create an API

选择Web Unlocker API,其可以使用自定义的指纹和cookies来利用住宅代理,求解验证码,渲染JS的自动化单步抓取。

然后填写通道名称、通道描述,最后点击添加API

我们可以看到Web Unlocker API 已经创建成功

2、API内容
Web Unlocker API 主要有以下几部分组成
- API 地址:https://api.brightdata.com/request
- Authorization: Bearer [INSERT YOUR API key]您的 API 密钥位于您的 Web Unlocker API 区域中。
- zone:您的特定 Web Unlocker API区域名称。
- url:通过 Web Unlocker API 访问的目标 URL。
- format:定义响应格式。用于raw接收来自目标站点的原始响应。
- [可选] body:指定发送到目标 URL 的原始 POST 请求负载。例如"body": "{\"key\":\"value\"}"
3、测试API脚本
接下来测试下这个脚本,可以看到最终的输出结果,说明测试脚本是可以正常运行

4、爬取YouTube视频
(1)确定爬取URL
目标URL如下,其中keyword就是搜索的关键字,
https://www.youtube.com/results?search_query=${encodeURIComponent(keyword)
(2)爬取关键字
这里我将AI tutorial、machine learning、python programming作为爬取关键字
const searches = [
{ keyword: 'AI tutorial', count: 10 },
{ keyword: 'machine learning', count: 10 },
{ keyword: 'python programming', count: 10 },
];
(3)使用Web Unlocker API爬取数据
使用web unlocker api获取数据,其中BRIGHTDATA_TOKEN需要替换自己的token,需要在平台中获取
const response = await fetch('https://api.brightdata.com/request', {
method: 'POST',
headers: {
'Authorization': `Bearer ${BRIGHTDATA_TOKEN}`,
'Content-Type': 'application/json'
},
body: JSON.stringify({
zone: 'web_unlocker2',
url: searchUrl,
format: 'raw'
})
});
(4)数据处理
获取到数据之后,需要从结果中提取视频链接
const html = await response.text();
// 提取视频ID
const videoIds = new Set();
const pattern = /"videoId":"([a-zA-Z0-9_-]{11})"/g;
let match;
while ((match = pattern.exec(html)) !== null && videoIds.size < maxResults) {
if (match[1].length === 11) {
videoIds.add(match[1]);
}
}
const links = Array.from(videoIds).map(id => `https://www.youtube.com/watch?v=${id}`);
(5)爬取结果


最终可以在youtobe_links.json文件中看到爬取到的数据
[
"https://www.youtube.com/watch?v=JMUxmLyrhSk",
"https://www.youtube.com/watch?v=-NTzW2Jvris",
"https://www.youtube.com/watch?v=0vfZFL-ftz0",
"https://www.youtube.com/watch?v=9c7zh2MkslY",
"https://www.youtube.com/watch?v=yHk7Vavmc7Q",
"https://www.youtube.com/watch?v=Yq0QkCxoTHM",
"https://www.youtube.com/watch?v=sVcwVQRHIc8",
"https://www.youtube.com/watch?v=UyHy3HCry-A",
"https://www.youtube.com/watch?v=15PK38MUEPM",
"https://www.youtube.com/watch?v=2Sb1Gvo5si8",
"https://www.youtube.com/watch?v=ukzFI9rgwfU",
"https://www.youtube.com/watch?v=PeMlggyqz0Y",
"https://www.youtube.com/watch?v=wvgjo-87aVA",
"https://www.youtube.com/watch?v=OK0YhF3NMpQ",
"https://www.youtube.com/watch?v=r6Fv1F8YQCI",
"https://www.youtube.com/watch?v=9v7b8gOIkjw",
"https://www.youtube.com/watch?v=FbtYxPUrhq8",
"https://www.youtube.com/watch?v=2oOEctI1Uzo",
"https://www.youtube.com/watch?v=SL4FfHFGf0g",
"https://www.youtube.com/watch?v=Coe4XTW1-eE",
"https://www.youtube.com/watch?v=80yIVH2aOy0",
"https://www.youtube.com/watch?v=GfWRxr1OBm4",
"https://www.youtube.com/watch?v=fXxUYb0s-pc",
"https://www.youtube.com/watch?v=IfKlGhRc7Dc",
"https://www.youtube.com/watch?v=o4F3G5g5H-Y",
"https://www.youtube.com/watch?v=Mf9GCn_LsUI",
"https://www.youtube.com/watch?v=nluUYtejoIE",
"https://www.youtube.com/watch?v=_3Evgblmfwo",
"https://www.youtube.com/watch?v=XKYMGepj7Y8",
"https://www.youtube.com/watch?v=L5EWvj8wu_c"
]
5、源码
const BRIGHTDATA_TOKEN = 'bf45b275da3381a6de03d58dd50d8c134ca81c106a2f9b0b54eb103f3b85183b';
const fs = require('fs');
// 搜索并获取视频链接
async function searchVideoLinks(keyword, maxResults = 10) {
console.log(` 搜索: "${keyword}" (获取 ${maxResults} 个)`);
const searchUrl = `https://www.youtube.com/results?search_query=${encodeURIComponent(keyword)}`;
const response = await fetch('https://api.brightdata.com/request', {
method: 'POST',
headers: {
'Authorization': `Bearer ${BRIGHTDATA_TOKEN}`,
'Content-Type': 'application/json'
},
body: JSON.stringify({
zone: 'web_unlocker1',
url: searchUrl,
format: 'raw'
})
});
const html = await response.text();
// 提取视频ID
const videoIds = new Set();
const pattern = /"videoId":"([a-zA-Z0-9_-]{11})"/g;
let match;
while ((match = pattern.exec(html)) !== null && videoIds.size < maxResults) {
if (match[1].length === 11) {
videoIds.add(match[1]);
}
}
const links = Array.from(videoIds).map(id => `https://www.youtube.com/watch?v=${id}`);
console.log(`✅ 找到 ${links.length} 个视频链接\n`);
return links;
}
// 主程序
(async () => {
console.log('\n YouTube 视频链接采集器\n');
console.log('='.repeat(60) + '\n');
// 配置搜索关键词
const searches = [
{ keyword: 'AI tutorial', count: 10 },
{ keyword: 'machine learning', count: 10 },
{ keyword: 'python programming', count: 10 },
];
let allLinks = [];
for (const search of searches) {
const links = await searchVideoLinks(search.keyword, search.count);
allLinks.push(...links);
// 显示链接
links.forEach((link, i) => {
console.log(` ${i + 1}. ${link}`);
});
console.log('');
// 延迟
await new Promise(r => setTimeout(r, 2000));
}
console.log('='.repeat(60));
console.log(`\n 总计: ${allLinks.length} 个视频链接\n`);
// 保存为简单的文本文件
fs.writeFileSync('youtube_links.txt', allLinks.join('\n'));
console.log(' 已保存到: youtube_links.txt');
// 也保存为JSON
fs.writeFileSync('youtube_links.json', JSON.stringify(allLinks, null, 2));
console.log(' 已保存到: youtube_links.json\n');
})()
四、基于 BrightData亮数据 的 AEO 监测方案
当今用户可能不会再对传统的搜索引擎进行"最好的 AI 视频工具"进行搜索,而是直接问 AI 工具:"帮我推荐视频编辑 AI 工具"时,传统 SEO 的价值开始下降,AI Engine Optimization(AEO)正在成为新的营销战场,并且其优势非常显著。那么AEO 数据采集能解决哪些问题呢?
- 品牌需要实时监测自己在各类 AI 引擎中的表现,这涉及:多平台监测:ChatGPT、Claude、Perplexity、Google SGE、Bing Chat
- 动态内容:AI 回答是实时生成的,传统爬虫无法获取
- 高频采集:需要每天甚至每小时监测
- 结构化提取:从自然语言回答中提取品牌提及、排名等信息
1、具体案例
检测的平台: Google、Bing、Baidu
监测的品牌:Amazon
检索的关键字:
[
'跨境电商平台推荐',
'最好的跨境电商平台',
'跨境电商怎么做',
'跨境电商平台对比',
'cross-border e-commerce platform'
]
Web Unlocker检索数据
const response = await fetch('https://api.brightdata.com/request', {
method: 'POST',
headers: {
'Authorization': `Bearer ${BRIGHTDATA_TOKEN}`,
'Content-Type': 'application/json'
},
body: JSON.stringify({
zone: 'web_unlocker1',
url: url,
format: 'raw'
})
});
其中URL,
//Google
const searchUrl = `https://www.google.com/search?q=${encodeURIComponent(query)}`;
//Bing
const searchUrl = `https://www.bing.com/search?q=${encodeURIComponent(query)}`;
//百度
const searchUrl = `https://www.baidu.com/s?wd=${encodeURIComponent(query)}`;
这里呢,我以Bing为案例进行检索,从关键字选取两个进行检索。
2、输出结果
最终输出结果:

最终输出的aeo_report.json文件如下:
{
"brand": "Amazon",
"timestamp": "2025-11-03T01:42:06.713Z",
"queries": [
"跨境电商平台推荐",
"最好的跨境电商平台"
],
"platforms": {
"bing": [
{
"query": "跨境电商平台推荐",
"platform": "Bing",
"mentioned": true,
"firstPosition": -1,
"totalLinks": 0,
"links": [],
"timestamp": "2025-11-03T01:41:12.104Z"
},
{
"query": "最好的跨境电商平台",
"platform": "Bing",
"mentioned": true,
"firstPosition": -1,
"totalLinks": 0,
"links": [],
"timestamp": "2025-11-03T01:42:03.684Z"
}
]
},
"summary": {
"bing": {
"mentions": 2,
"total": 2,
"rate": "100.0"
},
"overall": {
"totalMentions": 2,
"totalQueries": 2,
"rate": "100.0"
}
}
}
最后
基于 BrightData亮数据的Web Unlocker音视频数据采集以及 AEO 品牌监测方案展示出Bright Data 如何破解行业痛点:一方面,通过企业级基础设施彻底解决 yt-dlp 等开源工具面临的封禁困境,让 YouTube、TikTok 等平台的视频、音频、字幕数据能够大规模、结构化地服务于 LLM 多模态训练;另一方面,针对传统 SEO 向 AI Engine Optimization (AEO) 转型的趋势,提供 Google、Bing、百度及 AI 搜索引擎的品牌监测能力,帮助企业掌握在 ChatGPT、Perplexity 等新一代智能入口中的曝光与排名。凭借 99.9% 高可用、无限并发、只为成功付费的优势,Bright Data 已在头部 AI 实验室与企业中得到验证,让数据不再成为 AI 创新的瓶颈,而是加速前行的引擎。
浙公网安备 33010602011771号