ChatGPT是一种大型的自然语言处理模型,目前是基于GPT-3.5模型(也有4.0模型),由OpenAI开发。它拥有极强的自然语言处理能力,可以用于各种任务,如文本生成、文本分类、问答系统、语言翻译和对话系统等。
几年前,alpha GO 击败了柯洁,几乎可以说明,强化学习如果在适合的条件下,完全可以打败人类,逼近完美的极限。强化学习之所以能比较容易地应用在围棋以及其它各种棋牌游戏里,原因就是对于 alpha Go 而言,环境就是围棋,围棋棋盘就是它的整个世界。模型就是不断根据棋盘的状态以及输赢状况调整策略,战胜了柯洁。
强化学习非常像生物进化,模型在给定的环境中,不断地根据环境的惩罚和奖励(reward),拟合到一个最适应环境的状态。NLP 所依赖的环境,是整个现实世界,整个宇宙万物,都可以被语言描述,也就都需要针对模型输出的质量进行 reward 评价,它完全无法设计反馈惩罚和奖励函数。除非人们一点点地人工反馈。OpenAI 的 ChatGPT就是采用大量的人工进行标注的方法,这种带人工操作的 reward,被称之为 RLHF(Reinforcement Learning from Human Feedback)。
通过我的测试来看,向ChatGpt提问时,尽量保证所提的问题是正确的,问题没有错才能尽可能的保证ChatGpt给的答案没有错,否则会出现下面的情况
但是,它给的答案有时确实让人费解,为什么给出错得这么离谱的答案
我搭建了一个基于GPT-3.5模型的ChatGpt服务,你可以在博客顶栏我的分享
里点击ChatGpt
菜单,你也可以点击此处来体验ChatGpt。(这个服务目前是http访问,如果自动跳到https,将网站栏里的https改成http)
评论