Meta 悄然发布新网络爬虫，为人工智能模型收集数据_烟台资讯

北京时间8月21日，Meta公司近日悄然发布了一款新的网络爬虫，用于搜索互联网并收集大量数据来支持其人工智能模型。

_模型爬虫什么意思_模型采集

据三家跟踪网络爬虫的公司称，Meta 上个月推出的新型网络爬虫机器人 Meta External Agent 与 OpenAI 的 GPTBot 类似，可以从网络上抓取 AI 训练数据，例如新闻文章中的文本或在线讨论组中的对话。

模型采集__模型爬虫什么意思

根据使用情况历史记录，Meta 确实在 7 月底更新了公司面向开发人员的网站，添加了一个标签来表明新爬虫程序的存在，但 Meta 尚未公开宣布其新爬虫程序。

模型采集_模型爬虫什么意思_

Meta 的 Llama 是最大的 LLM 之一，虽然该公司没有透露其模型最新版本 Llama 3 所使用的训练数据，但该模型的初始版本使用了从其他来源（例如 Common Crawl）收集的大型数据集。

模型采集_模型爬虫什么意思_

今年早些时候，Meta 联合创始人兼首席执行官马克·扎克伯格在一次财报电话会议上宣称，该公司的社交平台已经积累了“比 Common Crawl 还要大”的 AI 训练数据集。

_模型采集_模型爬虫什么意思

新爬虫的存在表明，Meta 的庞大数据库可能已不再足够，因为该公司将继续致力于更新 Llama 和扩展 Meta AI，而这通常需要新的高质量训练数据来不断提高能力。

Dark Visitors 的数据显示，目前全球近 25% 的最受欢迎的网站屏蔽了 GPTBot，但只有 2% 的屏蔽了 Meta 的新爬虫机器人。

广告声明：文章内所含的外部跳转链接（包括但不限于超链接、二维码、密码等）是为了传递更多信息、节省选择时间，结果仅供参考，IT之家所有文章均含此声明。

Meta 悄然发布新网络爬虫，为人工智能模型收集数据