中国IDC圈12月9日报道:近日,搜狗浏览器对外宣布成功实现了12306图形验证码的自动识别,用户借此可以实现全自动抢票的体验。据悉,搜狗浏览器之所以成为市面上首款、也是唯一一款实现了新版12306验证码自动识别的浏览器软件,正是借助了深厚的搜狗识图搜索技术积淀,和强大的大数据处理能力, 打出了“OCR技术+图像分类技术”相结合的组合拳。

与以往的文字、数字验证输入不同,中国铁路客户服务中心(12306)推出的新版图形验证码,要求用户在填写好登录名和密码之后,需要根据文字提示,识别并点击验证图片中的对应选项,只有准确地选取图形验证码才能登陆成功。由于识别难度较大,该方式一经推出,随即引发不少网友吐槽:买火车票前,还得先测智商?

该验证系统推出后,虽然不少抢票软件声称不受影响,但选图仍需用户手动操作完成,事实上新版图形验证码对于抢票软件而言,着实带来了一道难题。通常,该类软件会借助光学字符识别技术(简称:OCR技术),支持自动验证码输入,为用户节省登录时间,提高抢票效率。而对于此前12306的文字、数字验证码来说,OCR技术更为适用。而12306推出新版图形验证码以后,仅凭OCR技术来解决新问题,就显得有些“捉襟见肘”了。

究其原因,首先需要了解OCR其背后的技术原理。通常,OCR识别包括预处理、二值化、去噪、倾斜校正、字符切割、字符识别、后处理等几个步骤。简言之,通过捕捉图像并识别文字,OCR技术使得电脑可以像人一样阅读。

而12306新举措,使得验证码输入由传统相对简单的字母数字识别输入,升级为用户需要根据描述文字从候选多张图片中勾选对应类别的一个选择过程。也就是说,12306新验证码识别由原来的填空题,升级为多选题,由于答案的个数是不确定的,可以说变成了一个不定项选择题。那么,这一问题就不难理解了,原本基于文字就能获得较高识别率的OCR技术,却无法解决候选图片的类别判定,因此就不能破解新版图形验证码。

针对这一难题,搜狗识图搜索率先提出解决方案,打出“OCR技术+图像分类技术”相结合的组合拳,加之以搜狗深度学习技术和大数据分析处理功力,实现了对12306新版图形验证码的自动识别。

在OCR技术的基础上,搜狗识图搜索更进一步,借用了图像分类的思想,首先将经过变形处理的描述文字图像通过OCR技术识别成文本,再通过图像分类技术,对于多张候选图像识别出其分类信息,然后将文本和分类信息进行自动匹配,从而实现验证码的自动识别过程。这样,凭借“OCR技术+图像分类”这套组合拳,搜狗识图搜索就完成了图像识别最为关键的第一步,有效解决了OCR技术无法实现图像识别的问题。

当然,在初步识别图像的基础上,想要准确地选取图形验证码,还需要提高识别精度。目前,搜狗识图搜索对于大部分的12306图形验证码能够实现自动破解,其图像识别精度在该技术领域,已经达到了国内领先水平。

而取得这一成绩的背后,依靠的正是搜狗深度学习技术和大数据积累。目前,伴随互联网科技高速发展,“深度学习”这一被机器学习大师Hinton等人于2006年提出的新概念,其覆盖领域愈来愈广泛,它通过多层次的学习而得到对于原始数据的不同抽象层度的表示,进而提高分类和预测等任务的准确性。此次,搜狗识图搜索成功将其应用于图像识别领域,通过模拟人认知图片的过程,多层次地模拟和学习,大幅提高了图片分类和识别的准确性。截至目前,搜狗深度学习技术已经积累千万量级的模拟训练数据,达到了行业领先水平。

另一方面,搜狗面向全网图像标注而积累的大数据,也同样起到了非常重要的作用。如果说,深度学习技术是急先锋的角色,那么大数据则是充实补给的后方阵地,对于深度学习而言,需要大量数据,正如康奈尔大学创意机器人实验室主任胡迪。利普森所言,深度学习极度“数据饥渴”,如果它们得到越多的数据,就学习得越快越好。“目前,搜狗全网图像标数据库已经沉淀了数千万量级的数据,而这也为搜狗图像识别精度大幅提升奠定了坚持基础,并使其实现图形验证码识别真正成为可能。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>
2022-12-26 09:43:37
大数据资讯 贵阳大数据交易所年度交易额突破3.59亿元
据悉,下一步,阳大数据交易所将持续完善数据流通交易产业链,强化政策扶持和数据供给,构建数据流通交易市场体系,促进数据交易规范化、 市场化,推动数据要素实现有序流 <详情>