毫末联合清华AIR,会带来哪些自动驾驶干货?
(相关资料图)
毫末智行是长城汽车旗下一家人工智能初创公司,名字取自“合抱之木,生于毫末”,而滋养“毫末”的养料,正是大数据。
清华智能产业研究院 (AIR ) 图灵报告厅,国内自动驾驶初创公司毫末和清华智能产业研究院 (AIR ) 联合召开了一场自动驾驶公开课,而此次课程的重点,可以概括为自动驾驶数据处理的方法论进化。现今最火热的大数据概念非ChatGPT莫属,实际上GPT就是生成式预训练Transformer。毫末认为,大模型首先肯定是Transformer,是一个训练的范式,第二个它的参数量一定要非常大,所以才叫大模型。它的数据量也非常大,具体用什么语料训练的,用在什么行业,用在什么功能上,跟具体的业务相关。在自动驾驶领域,毫末认为整个行业大概分为三个技术演进阶段。第一阶段以硬件方式来驱动,智能驾驶试验车要布上很多激光雷达,整车自动驾驶硬件成本高达上百万。第二阶段,是软件驱动的时代,模型和算法被引入来解决这些问题,不过虽然引入了一些模型,但仍是非常小的模型,而且训练数据也非常少,所以毫末称之为小模型,少数据。第三阶段,则是数据驱动的时代,其与2.0时代的特点差异就是Transformer千亿大模型,而在大参数、大模型和大数据下,算力就成为必要条件。
搞懂自动驾驶大模型概念,可以类比语言大模型发展,其最早在NLP领域出现,模式类似于做词法、句法和语义分析等,通过十几个,甚至几十个模型组合在一起,完成一个质量分析和相关排序的大任务,进而推动搜索、广告、推荐业务。业务背后包含很多模型。2018年底左右,大模型转向Transformer的另一结构BERT,运作模式类似于完形填空,将中间词抠掉,如果模型预测中间词正确,就证明理解了这句话,理解力自然超过NLP。而到了如今的GPT,就相当于给出一个标题和限定句,让模型自己去写作文,其理解能力明显优于BERT。GPT是更好的,能力更强大的训练范式,但相对来讲训练成本也非常高,要吃大量的数据和算力,甚至有报道称,早期ChatGPT训练一次,成本高达1200万美元。
回到自动驾驶领域,差不多过去20年时间,基本都在按照与NLP非常接近的方式来做,车上解决一个问题,要先做场景拆分,再识别车道线、障碍物和红绿灯等。就比如识别车道线,要先采集各种各样的车道线数据,再进行人工标注,用标注完成后的数据训练一个模型,这个模型才可以识别各种各样的车道线,最后把模型部署到车上去。很显然车上有很多业务,这就会部署很多模型,之后再把模型的结果全部拿出来做一个融合,结合业务的规则,去控制这个车,可以看得出来,这个模式跟NLP基本上是一样。现在自动驾驶也遇到了NLP一样的困境,就是车卖到全国后,覆盖各种各样路况,用户回馈一个case,再向之前一样,根据这个特点寻找一个场景,基于这个场景采集数据,标数据,去解决这个场景的问题,再把这个场景的模型下载到车上,这个过程非常漫长,整个开发的流程大概几个月到一年。
而且,即使有这么做的打算,我们会发现,各种场景非常之多,根本建设不完,甚至有些场景,根本采不到数据。例如,我们能够识别货车,并标注了各种各样的货车,小货车、大货车、商用货车都可以识别,但是货车上运了一个东西,就对识别的准确率有非常大的影响,运的东西小还好,如果运了一棵树,把这个车完全盖住了,摄像头照过去,就是一个叶子,没法识别的载树货车,就是我们常说的corner case。这时大数据和大模型就成了解题之选,大模型有泛化能力,可以覆盖全国各地、各种各样的视频,采集这些视频之后,大模型有希望从海量的图片里面自动地学会什么叫做货车、货车运了各种各样的货车也叫货车,即使把车斗盖住了也是货车。从这个去年发布的AI发布的框架图我们可以看到,毫末已经在用5个大模型惊醒场景覆盖和训练。
这其中,第一个是视觉自监督,目的在于取代我们的眼睛,众所周知我们人看东西的时候,看完了我就知道,这是什么,例如前面看到一个东西叫电驴子,中间是一个行人,那边是一个红绿灯,这些都是基于图片的纹理识别的,在视觉大模型化后,就通过识别图片纹理,识别这个图片里这些东西是什么,并进行标注。第二个是多模态的互监督大模型,而这是受特斯的拉占据网络的启发。目前智能驾驶车上多了配备激光雷达,激光雷达扫过之后,并不是像图片那样获得清晰的物品照片,而是一个轮廓的空间点云,一般只能知道空间上有一个东西。而把激光雷达作为监督信号,希望我们摄像头和视觉系统能够学习到空间被占用的信号,就相当于一个标注员,并进行学习,这样的话,未来在车上就不需要激光雷达了,能够大幅度降低自动驾驶硬件成本。除了正常的数据使用之外,整个空间也在试着被重建出来,我们人类开车时,收集的是三维立体信息,不是平面二维图片,所以可以判断障碍物离我有多远,朝我们的角度是怎样的,它的速度是怎样的。三维重建完后,这个虚拟三维空间里有一个好处,就是可以对虚拟空间进行更多的编辑和生成,比如说我们在虚拟空间里面,可以加上各种各样的东西,做各种各样的调整,就类似于打游戏,给未来数据带来很大的好处。但毫末认为这个规划还是保守了,毫末如今的设计是把五个大模型整合到一起,变成一个端到端的大模型。这样处理后好处是,在清理了输入冗余后,训练数据量下降,训练成本会大幅降低。
另外,大模型跟车端配合也在优化,回到大货车载树的case,有了大模型之后,云端库里有百亿图片,通过多模态的大模型,能够直接标注运树的货车,这样就可以几秒内找出图库里面所有跟运了树的货车,大幅度提升数据筛选能力,进而再训练、反馈回车端。其实可以看出,融合一个端到端的大模型,首要处理的问题是数据的快速标注。过去,在多个摄像头、多个视频片段和激光雷达的复杂环境下标注,涉及上千张图片,包括点云,成本非常高,高达几千元,标注clips是不划算的,大模型可以来解决标注的问题。大模型具体在做的事情,是对图片的纹理做一些识别,识别之后我们可以对这个图片中各种各样的东西做标注,包括车道线、行人和障碍物做对比。大模型做标注和人工做标注的差异在于,可以进行定向的修改,例如可以修改红绿灯,生成黄灯,避免之前采集数据中出现的绿灯和红灯比较多,但黄灯偏少的不正常现象。
当然,数据标注改正和空间重构只是数据驱动的时代下的策略调整之一,端到端大模型的建立也不是一朝一夕之举,但方向无疑是光明的,数据已经是科技和经济发展的关键因素,毫末也将在这条路途上前行下去,正在考虑于明年赴港上市,集资3亿至4亿美元,为大数据跑马圈地时代募集粮草。
本文作者为踢车帮 孙小树
标签:
为您推荐
广告
- 毫末联合清华AIR,会带来哪些自动驾驶干货?
- 跟男友同居后,他提出不想戴套,说安全期可以避孕,这是真的吗
- 明日内蒙古大部雷雨在线 局地雨势较强需防强对流
- 京东科技ESG报告:用技术服务社会,助力乡村振兴和民生建设
- 三星Galaxy Z Fold5图赏:7.6英寸大屏幕堪比iPad mini
- 组合港来了!大湾区联手打造临海“朋友圈”
- 一边火热一边倒闭,网红化的社区食堂何去何从?
- 复兴大街滹沱河特大桥主塔塔冠顺利吊装完成
- 北京:个人公积金贷款购二星级以上绿色建筑拟给予适当政策支持
- 国投集团“四措施”推进重点项目建设
- 《莲花楼》探究江湖奇案
- 宜昌市本周晴雨相间气温走高 最高气温将达37℃
- 华夏保险商洛中支参加商洛保险业“7.8全国保险公众宣传日”活动
- 穿“针”引“线” 共筑成都都市圈创新平台
- 科技赋能 路空协同推动智慧交通高质量发展
- 周黑鸭和绝味都在狂推小龙虾 只因“做鸭”太难了
- 机械酷鹰怎么抓_酷鹰机器人怎么样
- 引领低度化潮流,酒企应该这样做
- 暑期档动画电影盘点:数量、票房如何?都谁在投?
- 深圳疾控提醒暑假出境游小心登革热
广告
- 飞龙股份:目前公司已有多个液冷项目正在进行中 部分项目已经量产
- 2023年下半年征兵开始了,火热军营,期待您的加入!
- 丑耳和银耳哪个好一点
- 九洲集团:光大证券、国盛证券等多家机构于7月10日调研我司
- 东吴证券:给予佳禾食品买入评级
- Linux 6.5第一个候选版本发布:新功能代码已冻结
- 逆水寒手游舞阳城老六打法详解
- 哥哥批判
- 7月22日,贵阳孔学堂《琴为何物·唐》专场音乐会重磅上演!
- 争做新时代“四有”好老师 河南财政金融学院举办2023年师德教育巡回报告
- 用电负荷创新高 四川电网全力以赴战高温保供电
- 光伏板块震荡走弱 亿晶光电触及跌停
- 我市60周岁以上老年人有77.73万人,占全市总人口的19.92%
- 国际海事组织通过“2023年船舶温室气体减排战略”
- 再见姆巴佩!恭喜内马尔!巴黎强挖曼联顶星,赛季造39球,当老二
- 皖维高新07月10日获沪股通增持19.53万股
- 专家:应进一步优化房地产金融政策
- 分数普遍上涨!浙大、复旦、交大“三一”录取结果发布
- 红米k30s和小米10哪个好
- 马凡舒被夸漂亮(被赞最美主持人)