谢谢王老师的介绍,各位老总,各位朋友们,大家好!
今天我介绍的就是aigc,大家知道aigc这个领域自从有了chat gpt以后非常火,我们介绍一下我在这里面做的工作。昨天李彦宏在西丽湖论坛讲到一个问题,现在是模型太多,应用太少,我也这么认为,所以我今天讲的就是我们做的应用,但是我们做的应用是在chat gpt以前就做,所以不是吹牛,是追赶潮流。我来介绍一下,当前chat gpt是一个程序,是aigc里面的一个东西,现在我们用aigc来产生音乐、图像都很好,当然我们也有很多大模型,特别是meta的模型都不错,大家都在用。有些公司用llama。我觉得这是操作模型,我们用模型没关系,把自己的应用做得好才是标准。
我讲一下aigc的问题,原来人工智能只能做1和0的区别,aigc突然可以产生内容了,老百姓用得更好,写一个文本确实非常好,也可以搞电影,搞音乐,甚至产生话语,这是改革性的革命,非常好,所以我们现在的大模型很多,每个公司都在搞,包括清华的唐杰的模型也不错,但是我没有测试过他的模型,是否跟chat gpt一样,我不清楚。昨天李彦宏说要支持大模型,要去用文心一言,我觉得对,只是去用才能鉴别哪个好,哪个不好,我们现在用的是open ai的chat gpt为主的模型。
华为的云盘古大模型也是这样的情况,里面包括很多模块,它也是底层逻辑加上上面的行业逻辑,再加上应用逻辑,我今天要讲的是有了底层逻辑与行业逻辑,比如农业和医疗里面,医疗里面还有场景,我们要怎么样去做。在一月份的时候,chat gpt出来的时候,有一个对我的采访,我当初就说chat gpt肯定是太消耗cpu了,今后的可能性一定是专有的gpt,比如写个诗歌,你就把李白、杜甫的诗歌放进去产生的新诗歌。我和黄旭东在新加坡讨论,他给我一个例子,他说专用gpt很好,但是有缺点,比如lawgpt是法律的,涉及到医疗还需要配合bio gpt。律师找相关资料需要用law gpt和biogpt。我平时用自己的lawgpt,需要的时候出去用chatgpt调用一下资料,问题导回来以后再用law gpt,可以省钱。他的意思就是一个臭皮匠合成诸葛亮的概念,这个概念很好,文心一言做不好的地方,可以到别的地方调用信息来做,这是一个方法。 最近美国有一个4岁的孩子,看了很多的医生,17个医生看不懂一个病,chat gpt诊断以后出来了诊断。这个案例告诉我们,chat gpt有一个功能,但是一定要有一个检查功能,以后我们问题产生后,我们要有一个检查功能,比如说最近美国有一个法律的律师的证据是假的,我们要一个辅助工具帮助,我们医生是abcd六种疾病,chat gpt判断出第七种,医生要去检查是否是真的。现在哈佛有一个实验,chat gpt给出的癌症治疗建议有62%还是比较不错的,也就是说chat gpt还是给出建议,哪怕有50%有错误,人工进行检查之后还可以用,但是不能百分之百的信赖,它的东西还是有错误的。这里面是具体的数据,60%是怎么得来的,很多东西还是比较准的,请看这个表。比如哪个时候吃药、休息等等。
大模型有很多优势也有很多挑战,我最近提出一个问题,人工智能的挑战在哪里呢?除了算法、算力、数据三驾马车,我又加了三个,叫赋知识识、可解释、低能耗,为什么叫赋知识?就是我在能源上用的ai和医疗不一样,你不懂医疗就做不好,所以大模型只是一个框架,一定要在行业和领域用得好。我今天举两个例子,我们把我们做的工作给大家介绍一下。我们biotech里面的生成式内容有数据恢复、信息学、文献摘要、创新药设计等等。我现在用了两个例子,比如说文献摘要,你把这个文章灌进去以后,它给你产生的内容给你记录。创新药我举一个例子,我今天讲的是这么一个故事,我们做了一个自闭症的语言模型的向量库的系统,底下是llm,模型是别人的,我们在应用。比如一个自闭症的家长问一个问题,医生的知识是有限的,比如问他自闭症是父母产生的吗,自闭症跟家族有关系吗,是哪一年产生的?chat gpt都可以回答。我们做了一个什么系统呢?因为chat gpt有一些胡说八道的问题,我们用专业只是的文章,我们不看别的文本,我们输入一百篇专业知识有关联的自闭症的文章,我们这个系统做出来以后,回答出来的东西就比较准确,也就是说它要么回答不出来,当然说不知道。还有可能就回答出来基本上准的,因为它是一百篇文章搜集出来的东西。当然也有缺点,缺点就是知识面局限,只有这一百篇文章。chat gpt的文献是几十万的文献进去的,它都有各自的问题,我们下一步要做的就是看看我们的系统和chat gpt究竟好还是不好,这个质量很难判断,比如我有一个系统产生一个答案,chat gpt产生的好,还是我们好,这是人类很难回答的问题,因为我们不能用数量来回答,因为这个是文字的,所以今后也可能用五个专家来评分,如果五个专家有四个认为好,我们就可以确定。我们最终是一百篇自闭症的综述、文件输入进去,我们来训练。我们这个系统的好处是模型是别人的,我们只有一百篇论文,数量比较少,时间比较短,还是有优点的,大家可以从这个意义上学一下,从这方面看还是有很多好的好处,至少时间训练少。
下面我要讲的是一个药。大家知道制药是很费钱的,今后ai制药,你看这个曲线,今后是ai制药来预测药和制造药方面,ai制药也是时间长,钱花得多等等。今天我要讲的故事是用aigc,就是chat gpt出来以前我们已经做的工作,我们用药物数据库、蛋白质数据库、疾病数据库、集成数据库等等产生药,这就是我们的先进性,chat gpt还没有产生,我们已经做了。大家设想一下,这个故事就是这样,chat gpt再造就是一个模型再造,我们的输入的李白的诗歌产生一个新的诗歌,无非就是把老的诗歌打乱产生一个新诗歌,这个药也是一样。我们看看这个药怎么做呢?我们用了深度学习等等,什么叫药?药实际上就是有一个靶标,有一个匹配的分子给它吻合,就是非常融合得好,这就是药。再举一个例子就是咬合点,蛋白的一个靶标,这个靶标是生物学家告诉你,药就是把它怎么咬合,就是这样找到这个药。
这里面我举一个例子,这个药就是一个钥匙,靶标有了,药有了,我怎么找到这个钥匙开这个锁,这个钥匙就是用生物做实验,要做几万次、几亿次,一个一个去做太花时间,计算机怎么做?我就一个一个试,很快试出来,很快做好了,钥匙找到了,生物学家就做实验了。这个故事就是这样,我们现在蛋白质已经有预测的结构,ai设计的蛋白质也已经有很多的算法,怎么去设计ai算法。
我今天讲三个故事,匹配的项目、作用、预测,也就是这个蛋白质跟我的匹配,我们这篇文章就是我们的ai可以预测这个靶标和里面的关系预测,我们的文章牛,牛在哪儿?意思是我们质量高,做好了以后,下面人家找不到的小分子,我们找到了,这个不具体讲。接下来我讲的是筛选药,我们biotech上面找到筛选的药。还有是新冠病毒的s蛋白和ace2蛋白质,我们用8888个小分子库,进入以后,经过我们的筛选以后减成5个,最后一个一个层次,每个软件层次减少,什么叫减少呢?有没有紧密,紧密了,我们放进去。有没有稳定性?什么叫稳定性?就是它的能量很低,稳定很好,放进去,能量很高,稳定性不好就抛弃,最后找到5个。5个以后就做生物试验,两个红的是最后成功了,就是生物试验告诉我们这两个紧密合作,也就是说ai起的作用是原来8888个要做几年,要花费几亿才能找到这两个,现在ai马上找到5个,做出两个就成功,这个就是我们要做的工作。
下面我来讲讲小分子问题,我们知道假如说这是一个chat gpt,诗歌进去产生新的诗歌,同样的内容呢?想想别人的小分子已经找到了,癌症有关小分子,我把它打乱,把它小分子弄成一段一段小的,把它输入进去以后产生新的小分子,新的小分子有可能是更好的药,李白的诗歌进去产生诗歌,当然有可能是臭的诗歌,比他差,当然也是一个新型的诗歌,也不错。我们的药也是一样,老的进去打乱产生新的药,这就是小分子设计的概念。这个工作我们在2021年做了,在2022年发表了文章,是在chat gpt以前恩。大家可以看到这个关键就是小分子进去产生新的小分子,新的小分子也有可能产生新的药,所以我们用了三个概念,三篇文章,这三篇文章都是2022年发表的,意味着chat gpt还没火,我们用aigc,人工智能产生内容,我们已经产生新药,设计药。设计药什么意思呢?这个概念就是把老药打进去以后,我们始终在那儿转,产生新的小分子,产生一万个新的小分子,很可能都是旧的,但是这一万个其中有两个跟靶标契合,我们就成功了。也就是李白的诗歌进去了,产生一万个诗歌,但是有一个诗歌王族喜欢,这个诗歌比李白更好,有一个诗歌李总认为更好,就够了,我们的靶标无非就是有一个诗歌,有一个小分子跟靶标匹配就行了。我们最后发现有有的小分子产生确实生物试验还是不错,就是匹配得很好。当然一个药匹配只是万里长征的第一步,最后还要毒性等等,还要很多的系统做。
下面是多肽药和小分子不一样,它是比小分子大一点的药,我们也可以把它一段一段放进去,就像诗歌把它弄成一个一个词汇,词汇弄进去打乱之后产生新的词汇,就是新的诗歌。以后凯发app可以让我们所有的体外实验、动物实验、临床实验用数字来做,也许能更好。所以今天我讲的人工智能生成内容就是用在医疗上,第一个我产生的文本比chat gpt有可能质量高,但是计算量少得多,因为一百篇,当然今后有一千篇跟自闭症有关的输入。chat gpt是输入所有的东西,我是一百篇好的文章。第二是内容生成,我进来是旧的小分子,我产生一个新的小分子,有可能产生新的药,药库里面有四万种药,我产生一个新的小分子,有可能跟靶标匹配。
这就是我讲的内容,谢谢大家。