Meta 悄然发布新网络爬虫,为人工智能模型收集数据

admin

北京时间8月21日,Meta公司近日悄然发布了一款新的网络爬虫,用于搜索互联网并收集大量数据来支持其人工智能模型。

_模型爬虫什么意思_模型采集

据三家跟踪网络爬虫的公司称,Meta 上个月推出的新型网络爬虫机器人 Meta External Agent 与 OpenAI 的 GPTBot 类似,可以从网络上抓取 AI 训练数据,例如新闻文章中的文本或在线讨论组中的对话。

模型采集__模型爬虫什么意思

根据使用情况历史记录,Meta 确实在 7 月底更新了公司面向开发人员的网站,添加了一个标签来表明新爬虫程序的存在,但 Meta 尚未公开宣布其新爬虫程序。

模型采集_模型爬虫什么意思_

Meta 的 Llama 是最大的 LLM 之一,虽然该公司没有透露其模型最新版本 Llama 3 所使用的训练数据,但该模型的初始版本使用了从其他来源(例如 Common Crawl)收集的大型数据集。

模型采集_模型爬虫什么意思_

今年早些时候,Meta 联合创始人兼首席执行官马克·扎克伯格在一次财报电话会议上宣称,该公司的社交平台已经积累了“比 Common Crawl 还要大”的 AI 训练数据集。

_模型采集_模型爬虫什么意思

新爬虫的存在表明,Meta 的庞大数据库可能已不再足够,因为该公司将继续致力于更新 Llama 和扩展 Meta AI,而这通常需要新的高质量训练数据来不断提高能力。

Dark Visitors 的数据显示,目前全球近 25% 的最受欢迎的网站屏蔽了 GPTBot,但只有 2% 的屏蔽了 Meta 的新爬虫机器人。

广告声明:文章内所含的外部跳转链接(包括但不限于超链接、二维码、密码等)是为了传递更多信息、节省选择时间,结果仅供参考,IT之家所有文章均含此声明。