Semalt:什么是内容搜寻?网上刮取的4种Web内容

内容抓取是手动或通过多种工具复制网站内容。大多数网站管理员和博客作者都根据版权法保护其内容,将被盗信息作为原始内容发布是严重的犯罪行为!

不幸的是,Web内容大多是出于可疑和非法目的而被抓取的,例如工业间谍、,窃和数据盗窃。但是,内容抓取的合法和真实目的是数据输入,内容管理,数据迁移,竞争情报,声誉管理或业务分析。

在互联网上抓取的四种不同类型的内容:

一些网站管理员和博客作者使用信誉良好的网站和博客中的内容,因为认为增加其网站上的页面数量有助于提高搜索引擎排名。实际上,任何内容都容易被抓取,但是以下提到了四种主要的抓取内容。

1.数字出版商和目录:

数字出版商和在线目录通常是程序员和开发人员的目标,他们的目的是从这些平台上为自己的私人博客抓取内容。 Yell.com就是这样一个例子。这家跨国互联网服务提供商和在线目录在最近几个月中获得了巨大的成功。该网站上的许多内容已被抓取, 垃圾邮件发送者总是在寻找方法来抓取更多页面。同样,Manta是著名的网站,超过2000万个品牌已注册用于营销目的。不幸的是,它的大部分内容已被删除,并且大量的机器人被用于此目的。

2.房地产:

几年前,房地产中介公司遭到内容搜刮工具的攻击,而回收工作使他们损失了超过1000万美元。

3.旅行:

似乎几乎所有旅行门户网站的内容都已被废弃。这些公司不仅提供有关世界上最佳目的地的信息,而且还为其客户提供旅行服务。旅游网站是内容搜寻器的简单目标。受到威胁的一些领先在线代理商是皮划艇,TripAdvisor,Priceline,Trivago,Expedia和Hipmunk。他们建立了数十亿美元的元搜索业务,其内容经常在小型网站和博客上被抓取并重新使用。

4.电子商务:

的确,电子商务网站的内容不容易被删除,但是像eBay和Amazon这样的网站仍在被删除以获取价格和产品说明。

mass gmail