Oxylabs 首席商务官 Tomas Montvilas 访谈录。
Tomas,咱们先介绍一下您工作的公司吧。Oxylabs 是一家网络情报采集基础设施提供商,简单来说,这到底是一家什么样的公司,为哪些公司服务?
简单来说,我们帮助各规模的企业大规模采集公开可用的网络数据。这可以是从友商实时定价到消费者评论的任何内容,而这种外部数据对于获得有竞争力的商业洞察极其有用。
Oxylabs 提供了高质量的代理和爬虫,供客户实时获取大量公开网络数据,为其减轻执行重复手动任务和处理人为错误的负担。自动化数据采集每天可交付数百万个数据点,并生成实时的数据流,这样公司可以获取网上刚出现的信息。企业可以节省很多时间和金钱,能够专注于更好的数据管理、处理和分析。
今天,我们的客户包括了中型企业、初创企业以及《财富》全球 500 强公司。Oxylabs 的典型客户是大型跨国公司,他们必须收集和分析大数据以增强运营和商业产品服务。
管理、处理和分析内部公司巨量数据面临许多挑战。采用外部数据在这些过程的基础上又增加了一层额外的复杂度。为什么公司利用外部数据很重要,他们如何从中提取价值呢?
您说得对,许多公司依赖 CRM、软件日志和其他传统内部来源或高级内部数据,例如直接从消费者采集的第一方和零方数据。但是,越来越多的企业在设法利用散布于整个互联网中的大数据的威力,因为它带来了增强决策制定、优化商务流程和赢得竞争的替代方式。
新冠疫情加速了各行各业的数字化进程,也催生了大量 DaaS 公司。之前,提取公开网络数据是大公司才能享有的奢侈品,这些公司拥有专门处理检索和抓取任务的高度专业的团队。如今,外部数据的获取十分便利,因为许多 DaaS 提供商提供了数据采集基础设施或数据本身。我在自己的一篇文章中称之为一场“革命”,这绝非虚言。数据是全球市场的新宝藏,替代数据行业的产值已经接近 30 亿美元(大约 20 亿元),并且仍在增长。多年来,大数据一直是一个被热炒的话题,但网络抓取实际上带来了挖掘和利用大数据的各种方法。
虽然许多行业仍然只是在蜻蜓点水,但网络抓取已经实现了大量用例,从市场情报到网络安全、广告验证、背景广告、SEO 监控、提取替代金融数据以制定投资决策,以及采集信息用于学术或调查研究。非传统外部数据可以为几乎任何数字企业带来好处,以便扩大运营或助推增长。
详细谈一谈电商行业吧。为什么这个行业如此杰出,这些公司是如何利用网络抓取的?
纯电商、零售和数字营销情报公司是网络抓取技术的早期采用者,如今是这个领域最积极、最富于经验的参与者。在这些行业,网络抓取已经是主流的活动。
对于电商公司来说,公开网络数据对于了解市场趋势、消费者行为和友商策略至关重要。消费者情绪、实时定价、产品名单、类别、关键词、库存波动,所有这些数据都可以通过网络抓取自动收集。
价格情报和标杆管理是最流行的用例,涉及的范围很广泛,从跟踪特定产品的定价趋势,到根据供应限制或实时友商价格比对实施动态定价,不一而足。采用网络抓取可以带来更多背景信息和洞察,帮助解决常见的动态定价问题——“争夺底价”的价格比对。
另一个热门应用是通过抓取产品相关信息(例如现有库存)并识别品类空缺,优化产品选项。网络抓取可以为电商公司提供与友商业绩相关的数据,例如产品和服务详细说明、配送政策、库存信息、品牌提及、关键词排名,等等。
AI 对你们的产品和服务有何贡献?
AI 及其子集——机器学习(ML)很可能是数据科学发展背后的最主要推动力量。抓取活动也不例外,其中有很多复杂的部分,使用 ML 实现起来轻松得多。Oxylabs 已经在最新产品“网页解锁器”(Web Unblocker)和最近的爬虫 API 功能“自适应解析器”(Adaptive Parser)中集成了 ML。
网页解锁器是由 AI 驱动的代理解决方案,可模仿人类浏览行为,能够绕开哪怕最先进的反机器人系统。它牵涉到由 ML 驱动的代理管理和响应识别。
业内领先的自适应解析器有力地扩充了我们的爬虫,它可以优化数据结构化过程。为每个电商网站编写自定义解析器既耗时又复杂。基于 ML 的自适应解析器可轻松适应网站的布局,将原本混乱难度的电商数据转变为人类可理解的 JSON 格式。
值得注意的是,对于电商公司来说,AI 不仅让提取部分变得更轻松,还帮助进行数据分析。深度学习算法、NLP 和语义语境化的进展为情绪分析、品牌监控和促销定位带来了全新的可能性。
Oxylabs 将继续重金投入 AI 和 ML 相关的研发工作,因为这是让我们从众多友商中脱颖而出的特性之一。我们并不是普通的 SaaS 公司,Oxylabs 解决方案有几十个专利作为支撑。我们还有五位领先的商业和学术专家组成的委员会为我们提供咨询顾问,带来麻省理工、美国航空航天局、Stripe 等组织机构的有用知识。我相信,AI 将在未来几年起到巨大的作用,让网络抓取不仅更高效,而且能够更加普及、便利。
在您看来,如今主要的数据抓取挑战有哪些?您怎么看待 Oxylabs 和整个行业的未来?
网络抓取行业的潜力才刚刚崭露头角。除了我之前提到的当今热门用例——定价情报、市场研究、旅游比价和消费者情绪跟踪,还有其他很多应用,它们的社会价值十分巨大。例如,网络安全测试、品牌假冒、检测非法和恶意内容或获取公开可用信息进行调查性报道。甚至还可以跟踪令人担忧的游说情况或在线抓取激进组织。
由于数据抓取是相对年轻的行业,其最紧迫的挑战是法律障碍。代理和机器人的名声都不太好,因为在过去,它们被不负责任的人滥用了。为了让网络抓取走出阴影地带,Oxylabs 正在推动实施全行业内的合规标准和行为准则。我相信,完全的公开合法性将通过与政府机构和学术界通力合作来实现。
向整个市场培训来认识合规网络抓取做法,仍将是我们在近期未来的主要目标之一。Oxylabs 积极致力于各种各样的公益性计划。例如,我们开发了由 AI 驱动的爬虫,用于识别互联网上的有害和非法内容,帮助立陶宛政府机构开展工作。数据抓取不仅仅是企业可以用于扩大利润的途径,实际上还可以为公益做出贡献。
而另一个网络抓取挑战就是便利性。今天,网络抓取主要由开发人员和数据科学家利用,但它在技术上仍然过于复杂,无法推广到更广泛的普通运用。然而,我相信这一挑战很快将被克服,因为 AI 和 ML 应该会支持用于大数据采集的低代码和无代码工具更快大量涌现。
毫无疑问,技术创新将继续成为 Oxylabs 的带路先锋。我们与我们的 AI 和 ML 顾问委员会密切合作,通过最先进的 ML 和深度学习技术推动代理行业发展,支持有效、有意识地和富于洞察力地使用巨量的公开网络数据。
关于 Tomas 的更多信息
多年来,Tomas Montvilas 担任了营销、数字化转型和大数据领域的各种管理职位。他在管理咨询领域开始职业生涯,其中他负责制定市场进入策略,以及为电信、媒体和 CPG 行业的客户推出新的投资项目。Tomas 因此得以应对来自多个行业和地理区域的不同商业挑战,从在塞拉利昂推出新的移动运营商,到在法国为某个软饮料品牌制定市场进入策略。
此后,Tomas 转向技术行业,负责领导大规模数字化转型,其中涉及开发由 AI 驱动的客户数据管理和分析解决方案。作为 Oxylabs 的首席商务官,Tomas 目前负责监督销售和营销部门,并寻求新的增长方式。
关于 Oxylabs 的更多信息
Oxylabs 成立于 2015 年,是一家高级代理和更快网络数据获取解决方案提供商,支持各规模的公司利用大数据的威力。Oxylabs 不断进行创新,拥有大量专利,并高度重视合规,已成为数据获取行业的全球领导者,并与几十家《财富》全球 500 强公司建立了密切联系。2022 年,Oxylabs 在《金融时报》的 FT 1000 名单中被认定为欧洲成长最快的公开数据采集解决方案公司。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。