一文了解计算机视觉未来的走向

CV技术指南

    前言:
    目前,计算机视觉面临几大问题:
    1.需要大算力,需要大数据用于训练,因此导致成本太高。
    2.应用场景单一,目前仅用于无人驾驶,安防监控等少数领域。
    3.对CV人来说,内卷严重,市场接近饱和。
    在知乎上,很多大牛从技术的角度上谈了关于计算机视觉未来的走向,受益匪浅。结合前几日看到的另一个问题,为什么很多人现在不看好商汤科技,在这里,我想从一个社会的角度来谈一谈我对计算机视觉未来走向的看法。
    日新月异,用它来形容现在社会的变化真是再恰当不过,而推动这个变化的是科技的高速发展。
    我对技术的看法是,技术必须服务于人,必须对社会有益,推动社会进步,而负责实现这件事的正是企业,企业必须将技术落地应用,变成产品,为人类服务,为社会服务。
    因此,说起我为什么不看好商汤科技,是因为我觉得它没有完成这件事。
    作为一个技术人员,我平常看的东西算是比较多,不仅是技术方面,产品方面也比较关注。经常看到商汤旷世又发了什么论文,却几乎没见过它们研发出了什么新产品。在我的印象里,它们就像是一个研究所的存在。
    然而,世界上已经有了这么多高校实验室研究所在搞学术研究,还差一个商汤旷世吗?
    在我看来,这与格力声称要做格力手机如出一辙。市面上已经有了苹果,小米,华为,OV等这么多做的很好的手机,还差一个格力手机吗?
    所以董明珠如果要做手机,最合适的就是自己做操作系统,或者自己搞芯片,做点对社会对市场有益的事情。但格力明显没有这个打算,我对它当初说要做手机就一直是冷眼相看。四五年过去了,就目前来看,还真没看错它。
    企业还是应该做企业该做的事情,那就是将学术研究落地应用,变成产品。
    在《下一个倒下的会不会是华为》中有这样一段话:
    “我们一定要做商人。科学家可以什么都不管,一辈子只研究蜘蛛腿的一根毛。对科学家来说,这是可以的。但是对我们呢?我们只研究蜘蛛腿,谁给我们饭吃?因此,不能光研究蜘蛛腿,要研究客户需求……”
        这番话讲于2002年,其时,“狮子”朗讯科技快要倒下了,“巨狮”摩托罗拉也病恹恹的……
        朗讯科技最核心的资源——贝尔实验室,正是以研究“蜘蛛腿”“蝴蝶翅膀”“马尾巴的功能”等这些基础课题见长的,它既是朗讯科技的成长助推器,也是朗讯科技的包袱;摩托罗拉以巨资投入铱星系统研发,结果尖端技术成为它走向衰败的滑铁卢……这两家公司以及众多的“巨狮”都患上了资本和技术的“富营养病”,所以到头来都被优势资源所拖累、所诅咒。
    商汤旷世在这一点上像极了朗讯和摩托罗拉,忽视了技术的最终目的是服务于人,服务于社会。
    谈及我对计算机视觉的看法,技术和产品的关系就像是硬件与软件的关系。当硬件发展到一定水平时,如果软件的发展速度跟不上,那么硬件就毫无作用。当软件发展起来后,又受到硬件水平的限制,软件要进一步提高,需要提升硬件水平。
    从目前的环境来看,学术研究已经达到了一定的程度,而落地应用的领域或者说产品很少,因此导致了计算机视觉的饱和。、
    当应用的领域被逐渐开发,产品逐渐增多,现在的饱和就变成了暂时性的饱和。从产品,市场的层面上也会进一步推动学术研究的发展。
    那有待开发的领域和产品有哪些呢?
    借用何同学的思考方式,我们对计算机视觉的应用还只局限于当下,我们正因为它目前需要庞大的数据集训练,昂贵的算力,才限制了我们对它的应用场景和产品的想象。
    当日后算力成本降低,数据不足的问题得到缓解,我们会发现,其实计算机视觉可应用的场景非常多。
    从我的角度来看,它在未来一定能与机器人结合,我指的机器人并不只是人形机器人,主要是各种智能化设备,如场景监控,服务机器人,无人驾驶,医疗设备,嵌入式设备等。
    想想很多科幻电影,机器人可以对一个环境进行各种分析,然后做出相应行为。当然,这对人类来说,赋予机器人电影中的这些能力是一件很可怕的事情,就目前来说,也不现实。
    不过,一些小范围的能力我们是可以给的。
    目前已经有的一些应用是对监控进行分析,检测到如车祸,火灾,枪击案,养老院的老人摔倒等异常事件后自动报警。无人驾驶上的视觉。
    京东启动一个对猪脸识别的项目,对猪的健康状况进行检测,斯坦福对人的粪便识别检测,从而判断人的健康状况。
    以后可以有以下应用:
    对二手车进行全面扫描,识别型号,给出新旧程度分析,从而给出相应报价。
    对脸部扫描,分析脸部皮肤情况,给出适合其皮肤的护理方案。对头发扫描,推荐相应的护发产品与护发方案。
    对农田进行实时监控,提醒农场主目前农田的情况,如虫子,作物生长状况,分析该地区往年气候,给出对该地区农田的最优打理方案。
    家庭服务机器人,扫描茶几沙发,自动清理并将物品放到本该在的位置。
    学跳舞,将老师的跳舞输入作为模板,对学生学舞视频进行分析,给出跳的不对的地方。
    ……     ……
    还可以有很多很多的应用,我给的都是些很细很具体的想法。
    我个人经历有限,设想也不够全面,但我相信社会上还存在很多可以用视觉来解决的事情。
    这些事情都需要有一个共同的基础,就是可以将视觉用于移动端设备,嵌入式设备。
    从我的理解来看,日后硬件水平会有较大发展,用于深度学习的专用处理器会有较好的性能。因此,计算机视觉未来的应用场景很广泛,我们需要对每一个具体的应用场景设计一个很小的,专一的,可以用于嵌入式设备的模型。模型小型化,轻量化,检测实时化。
    商汤和旷世,作为AI四小龙的一份子,作为一个企业,将技术落地应用是它们的责任,不管是从规模上,人才供给上,资金上,它们也完全有能力去将计算机视觉与机器人,移动端,嵌入式设备端结合开发新领域,研发新产品。
    就目前互联网企业来说,AI四小龙也是最适合做这件事的。
    欢迎关注公众号CV技术指南。专注于计算机视觉的技术总结,最新技术跟踪。