在森林中徒步时,你发现了一只色彩斑斓的小鸟。你基本确定这是雀类——但具体是哪一种?iNaturalist应用正是为这类场景而生:全球用户通过它记录和识别户外观察到的生物。如今,由某中心云服务赋能的人工智能正逐渐参与这些观察结果的分类工作。
iNaturalist始于约十年前,由加州大学伯克利分校三名学生的硕士项目演变而来。迄今该应用已聚集了150万科学家和自然爱好者组成的社区,用户上传的照片涵盖从熊蜂到棕熊等各种生物。作为某科学院与某地理学会的联合项目,iNaturalist最初完全依赖社区成员进行物种鉴定,而现在计算机已开始提供协助。
独特的计算机视觉挑战
康奈尔鸟类学研究工程师Grant Van Horn与爱丁堡大学机器学习助理教授Oisin Mac Aodha五年前开始与iNaturalist合作解决数据相关挑战。他们当时均任职于加州理工学院,专注于研究计算机视觉如何加速和验证用户的人工鉴定。
Van Horn指出,iNaturalist对研究人员的吸引力在于它向计算机视觉社区提出了独特挑战。例如构建雀类识别模型时,从网络抓取的训练图像多为姿态优美的静态鸟类照片,而与iNaturalist上主要由业余爱好者拍摄的多样化照片形成鲜明对比——徒步者可能只捕捉到飞鸟的模糊影像,或背景干扰严重的画面。
这还仅是自然相关计算机视觉挑战的冰山一角。许多物种外观极度相似,存在科学名与俗名双重命名体系,且同一物种的雌雄个体、卵与幼虫等不同生命阶段形态迥异。
新型机器学习竞赛
2017年起,Van Horn和Mac Aodha开始在计算机视觉与模式识别会议(CVPR)的细粒度视觉分类研讨会上举办iNaturalist数据竞赛。参赛团队需对数据集进行分类准确率比拼,错误率最低者获胜。
初期,iNaturalist数据的基础分类体系就给团队带来了学习曲线。Van Horn表示:“世界上并不存在统一的分类权威机构”,他们花费大量时间学习分类学、清洗数据,为首届竞赛整理了包含85.9万张图像的数据集。第二届竞赛则采用了更具长尾分布特征的数据集,2019年数据集精简为26.8万张高度相似类别但在多样场景下拍摄的图像。
经过去年暂停,2021年iNat竞赛以包含1万种物种、270万张图像的训练集回归。本届竞赛于3月8日启动,5月28日结束。更大的数据集有望推动机器学习领域探索无监督学习新方向,让模型通过寻找数据内在模式进行学习,而无需依赖标签。
向开放数据迈进
大规模图像分类能力为解答栖息地、行为及种内变异等科学问题开辟了道路。基于此,Mac Aodha和Van Horn创建了自然世界任务新数据集(NeWT),超越物种分类范畴,探索照片中展现的行为与属性特征。相关成果将亮相今年CVPR会议,并计划举办聚焦这些衍生问题的模型泛化能力竞赛。
目前竞赛优胜方案尚未直接部署于iNaturalist应用,因最低错误率代码与手机端运行效率间存在权衡。但Mac Aodha指出,竞赛数据集已在计算机视觉与机器学习领域广泛引用,过去几年累计引用约300次。
为保证竞赛公平性,全球参赛者均需能访问处理数百万量级的图像数据。竞赛及iNaturalist应用现已成为某中心云服务开放数据计划组成部分,Van Horn称赞该平台“使数据访问变得极其便捷”。
2020年,iNaturalist获得某中心机器学习研究奖,提供非限制性资金与云服务积分支持学术研究。今年3月,该应用正式入驻某中心云服务开放数据注册平台,确保其6000万条观察记录持续向全球用户免费开放。
某中心研究奖项计划高级技术项目经理表示:“iNaturalist通过汇聚科学家与普通公民推动生物多样性与环境科学认知的工作至关重要。我们非常欣喜地看到某中心云服务正通过开放数据平台与机器学习服务赋能其拓展服务范围与前沿研究。”
如今,iNaturalist已从完全依赖人工鉴定发展为常规提供机器生成识别,这些技术成果正开始揭示新的潜在研究路径。Mac Aodha强调:“确保数据长期可访问而非仅限竞赛期间使用至关重要,为这些数据集建立稳定家园具有非凡价值。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码