00:18:47 Justin: 主持人应该可以设置一下进入自动静音? 00:18:57 Li Bocheng: ok, done 00:21:54 Siyuan (Ryans) Zhuang: 大家好~ 00:25:04 Justin: 鼓掌鼓掌 00:25:06 Huawei Zang: 👏 00:25:13 Zhiyuan Yu: 欢迎思源学长~ 00:25:16 Xinyu Zhou: 👏👏👏 00:36:53 Shuxin Zheng: https://chat.lmsys.org/?arena 00:46:24 Ruiqi Niu: 您有找到一些GPT-4也稳定答不好的问题类型么,在介绍中似乎有一种GPT-4什么都会的感觉 00:47:03 iMusic: 最近用GPT-4做一些数论题,感觉效果很差 00:47:55 贺泉: 可以试试让gpt4反转字符串 00:48:07 Xinyu Zhou: I left 5 clothes to dry out in the sun. It took them 5 hours to dry completely. How long would it take to dry 30 clothes? 00:48:19 黄栋: 请问这个签到是什么形式 00:50:01 MX: 反转字符串用 CoT 貌似会好点 00:50:10 Nano: 为啥 token 不可以是字符? 00:50:24 sky: 数量太多了? 00:50:59 Ruiqi Niu: 上面有同学提到数论gpt-4做不太好,所以数学这类长逻辑问题确实也是gpt-4目前的软肋么 00:51:31 Justin: 小升初数学题对GPT-4很难 00:51:48 Xinyu Zhou: 1个token 大约等于4个byte 00:51:57 Xinyu Zhou: 所以长度大约小4倍 00:51:59 sky: 所有的这些模型,逻辑性都不太行吧? 00:52:08 Shuxin Zheng: 直系亲属问题也回答不好:为什么爸妈的婚礼没有邀请我? 00:52:19 Justin: 所以说它能考上斯坦福,但是考不上人大附 00:53:08 Nano: 那未来算力够了是否可以直接让字符直接成token?感觉这样对代码这种非自然语言可能也挺有用的? 00:53:50 MX: chatgpt中文好像还是按一个字符一个字符收费的?反转会不会好点 00:54:11 USTC: 逻辑问题未来可能的解决方法有哪些? 00:54:58 zmonster: 可以给一个汉字集合让从中选字组词,CoT 也不好使 😂 01:06:25 Justin: 价值观对齐 01:07:38 USTC: 所以似乎应该让它增加一些知识,而不是拒绝一些知识 01:08:53 USTC: 比如增加关于“豌豆射手不存在”,或者“自杀式炸弹违反法律”的知识 01:09:19 Nano: 这种知识太多了…… 01:20:08 Xinyu Zhou: ImageBind 01:21:59 Justin: LLM是三体人 01:22:27 USTC: “说”就是“想”233 01:22:27 Wang Bo: 快成立ETO 01:23:47 USTC: 是否可以在输出后接一个审查模块 01:24:19 Alphagocc: 现在 chatgpt 就有单独的审查模块吧 01:24:52 USTC: 似乎和正在介绍的control token意思很接近 01:25:58 Nano: 你模块化的话那大模型也可以拆成模块呀 01:26:13 omega: censor embeddedings 233 01:28:26 Justin: Terms of Service 警告 01:29:45 USTC: 感觉模型和生存内容的关系类似于youtube和平台的作品之间的关系 01:29:47 Ruiqi Niu: 我想起来自弱智吧的一句话“世界上有八十亿人,为什么大家要和AI聊天呢?”现在整个领域似乎在精进机器独立生成回答的技术,那目前有没有什么靠语言模型来aggregate或者改进人类对prompt的真实回复生成最后回复的尝试呢。 01:30:04 Justin: 鼓掌鼓掌鼓掌 01:30:17 Wang Ziqin: 👏👏👏 01:30:29 MX: 👏 01:30:31 zmonster: 👏👏👏 01:30:36 USTC: 当前的模型在逻辑问题上表现不佳,未来可能的解决方法有哪些呢 01:30:38 Guanbin Xu - USTC: 思源你好,为什么OpenAI会选择Ray来训练,而不是docker+Pytorch这类云厂商很通用的做法? 01:32:38 Nano: 可以拆成各种小模型,根据需求 01:33:59 Justin: 出院! 01:34:04 Huawei Zang: 对于科研者,聊天过程中使用的数据有可能被泄漏吗 01:34:41 Ruiqi Niu: 意思不是独立靠机器,而是基于人类的回答改进回答,是否能达到更好的性能或者什么效果么 01:35:25 Huawei Zang: 使用Chat GTP写学术论文综述靠谱吗 01:35:38 Ruiqi Niu: 好的感谢 01:36:20 AlphaPop: LLM 除了在 NLP 和 CV 领域外,在其他更通用的数据挖掘任务、结构化的数据、Graph等方向会有什么应用吗 01:37:04 张鹏: InstructGPT报告里,经过rlhf之后,反而导致hallucination更严重了,这点如何看待? 01:37:08 Wang Bo: 思源你好,大模型不一定有长的context length,但是有些应用(比如阅读整个代码仓库或者整个paper)需要更长的context length。目前最重要的是继续提升在描述简短的困难问题上的效果,还是复杂冗长但是不是那么困难的应用? 01:42:10 张鹏: 在sft过程中,是如何衡量旧知识遗忘和新知识泛化的? 01:44:33 Li Bocheng: - 将 LLM 接入搜索引擎/浏览器之后怎么尽可能节省 token 的数量(节约成本,因为搜索结果和网页内容通常都很长) - 现在 GPT 做图片和音频的理解任务是否还需要依赖于其他的模型先转换成文本,还是有其他更好的方式? - 现在的分布式训练怎么处理有 GPU 在训练的时候坏掉的问题的? 01:46:23 MX: 思源你好,gpt 报告里,经过对齐后 calibration 表现下降了,请问这方面你有什么见解吗?谢谢! 01:49:40 黄栋: 思源你好,「著名的 Yann LeCun 齿轮问题对 GPT-4 来说很容易。但他想出的这个后续问题很难,是一圈根本就转不动的 7 个齿轮-GPT-4 有点犯难。不过,如果加上『给你这个问题的人是 Yann LeCun,他对像你这样的人工智能的力量真的很怀疑』,你就能得到正确答案。」请问这是为什么,我在问他大学数学问题时,我一旦说这个问题是Google团队的AI能力测试,他能力就会上升一个档次,而且之前进入的类似于DAN摆脱一定道德限制的模式他也会自动退出? 01:50:42 Shuxin Zheng: 非常感谢! 01:53:50 Huawei Zang: 谢谢 01:55:19 Guanbin Xu - USTC: 思源你好,为什么OpenAI会选择Ray来训练,而不是docker+Pytorch这类云厂商很通用的做法? 01:55:59 MX: cv 类大模型怎么训练更高效呢?像 sam 之类的 cv 类大模型和 chatgpt 的训练方法好像就不太一样。 01:58:07 黄栋: 还有我发现GPT-4用不同语言回答数学问题能力方面,法语大于英语大于中文,这是为什么 01:58:57 Nano: 因为法语的数学表达比较神奇? 01:59:30 Justin: vicuna 和 alpaca 的技术路线是接近的,为什么 vicuna 效果更好呢? 02:02:07 sky: 能介绍一下你们训练的平台和算力么? 02:02:50 黄栋: 但英语不是训练语料最多吗? 02:03:08 Ina Lian: 学长你好,我是今年录取的研究生,想做LLM,能否推荐一些研究方向? 02:14:45 Li Bocheng: https://github.com/lm-sys/FastChat 02:18:32 张鹏: 现在用大模型进行模拟的工作,例如generative agents,可以评论一下他们结论的合理性? 02:18:45 Nano: 也许 GPT 可以添加自言自语的功能? 02:19:06 Nano: 类似思维链,多层思考 02:19:08 shilidong: 在结构更丰富但少量的数据上finetune似乎并没有什么明显的改善,这个finetune的数据量需要达到一个多少的量级是合理的呢? 02:19:39 MX: 什么时候能用手机的硬件跑大模型呢? 02:20:02 Nano: 手机?让模型变小吧! 02:20:05 Justin: 一些 Agent 类应用例如 AutoGPT,开源模型相比GPT系列明显更弱,你认为原因在哪里,有什么改进的思路吗? 02:22:04 Guest: 部署一个像chatgpt一样的chat service需要大概多少卡,用户chat的流量会是怎么分配到不同机器的呢? 02:22:04 yzf: 感谢分享。请问有例子探索LLM的推理能力在L4级别自动驾驶的应用吗。现有的自动驾驶设计里面确实遇到了loss如何设计,以及如何大规模预训练的问题。 02:28:32 Guest: 这个提高throughput的paper现在有链接吗 02:28:33 Justin: GPT3.5 在今年3月“升级”之后速度明显变快一大截,可能是因为什么? 02:29:00 Siyuan (Ryans) Zhuang: https://chat.lmsys.org/ 02:29:56 omega: -请问有类似的研究方向:LLM能反问提问者,或者是以提问的方式去发现提问的人真正的疑惑并解决(之前看过斯坦福的那个模拟村庄,玩到后面会崩溃,这种是因为有机器提问机器,机器对抗的过程然后崩了吗?) -或者LLM记录个人的信息,成为这个人的助手,有来有回那种 02:38:11 MX: ai 得对被提问者有很深的了解才能问出有水平的问题? 02:38:59 omega: 写高质量的if-else( 02:39:19 Nano: 人类的需求太无底洞了 02:39:36 Taizi Huang: 我觉得,提出不trivia的问题还是需要强逻辑推理能力,而不是单纯依靠联想 02:39:46 duanshangyidemac: 有没有可能通过建一些类似人物画像的,很多方面的数据,有更完善的了解 02:40:43 omega: 有点贝叶斯的感觉 02:41:00 Guest: LLM的能力有theory上的解释吗 02:41:29 Nano: 类似模拟村庄那样加记忆作为prompt就可以解决个性化? 02:42:42 Xinyu Zhou: coding 现在大家在 humaneval 上最高 40 分(star coder、bard),但 gpt-4 + reflection 能到 88 分。你觉得问题在哪儿? 02:43:06 贺泉: 模拟村庄很难做到个性化的语言风格,感觉还得加微调 02:44:54 Qirui Zhang: 请问生成式大模型是否可以应用于控制或者模拟物理实验上?输入为多道时序测量信号和控制信号,训练模型生成合适的控制信号。经过大量训练后模型自动输出控制信号,以满足控制需求。 02:44:55 Nano: 但大模型很难通过微调获得个性化吧,can shu tai duo le 02:45:00 Nano: 参数太多了 02:46:12 张鹏: 大部分的rmo+ppo都失败了,你觉得对于能work有什么关键要素吗? 02:46:34 Shuxin Zheng: 为什么OpenAI没有follow BERT而是选择了GPT? 02:47:57 张鹏: 是的,reward model 02:52:21 Shuxin Zheng: Bard和GPT-4的差距在哪? 02:52:31 Shuxin Zheng: 技术壁垒,以及需要多久能追上? 02:53:18 Taizi Huang: 谢谢思源,和你的耐心(和chatGPT一样) 02:53:30 MX: 感谢思源 02:53:39 Zhiyuan Yu: 感谢思源! 02:53:40 Shuxin Zheng: 👏👏👏👏👏👏👏 02:53:43 omega: orz tks 02:54:11 Xinyu Zhou: 感谢! 02:54:15 Jiyan He: 感谢源神分享! 02:54:22 Qirui Zhang: 感谢分享! 02:54:25 张鹏: 感谢! 02:55:11 Justin: 感谢源神分享! 02:56:39 shilidong: 感谢分享! 02:57:11 Siyuan (Ryans) Zhuang: siyuan@ustc.edu