01 什么是模型 (Model)「模型」这个词可以说是和闭环、赋能、产业互联网、打法、去中心化等并列近年热门(hui bao)词汇了。词汇本无措,是人们用错了地方才让词汇背了锅,今天我们来聊下「模型」这个词的意思、使用现状和错误示范~
按照wiki的定义,模型是指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式
这里要划的重点是:抽象!模型是可以简化人们的认知成本,有助于人们拨开庞杂细节和迷雾,理解客观事物的。
比如说我们看这个胖橘猫,可以每个爱撸猫的盆友都觉得自家的橘猫天下最美、独一无二,但是在一个对猫无感的人眼中,橘猫的各种特点就集合为两个词:橘色、胖,于是如果让这个人画一个橘猫(「建模」), TA有可能画了一个类似加菲猫的喵~ (这就引出后面会说的话题,引入不完全或者错误的特征变量会导致模型的解释度不高)。
模型这个词英文叫model, 和中文中模特也是一个意思,其实很好理解,再回想模型的定义——对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。
模特的身材大概率符合传统美学,可以很好的展示衣物的特质,是不是就可以对客观事物(衣服)可以进行抽象化表达了,人们的注意力可以放在衣服上(解释为什么很多模特走秀时不笑)。
我觉得一个好模特应该是可以为不同风格品牌走秀的,比如我很喜欢的大表姐刘雯,可以走大牌秀,本土的品牌例如Dazzle、鄂尔多斯、运动品牌Puma也驾驭的很好。
左dazzle 右维密
02 模型和建模听起来高深啊,是不是我八辈子都学不会啊!不,你会!而且从小学开始解一元一次方程就会!
曾经我也以为建模很难,但其实我们都接触过,建模这个概念不难理解,但是如何用模型来解释、预测客观世界的复杂难题就另说了。
建模就是建立数学模型(modeling) 简单理解呢就是小学应用题列方程/公式的过程,把客观抽象为符号表述。我们看下面计算基础代谢率的例子,基础代谢率可以简化理解成如下:
y=ax1 bx2 cx3 d 的函数
其中:y是要计算的基础代谢率,是因变量(dependent variable)
x1、x2、x3是自变量(independent variable/argument),分别代表 体重、身高、年龄
a、b、c是系数(parameter)a=9.6说明体重每涨一公斤,基础代谢率上升9.6
d是常数项
在我研究生上的统计建模课上,我们组最后的final project作用应用了课上学的因子、聚类、决策树模型和逻辑回归模型,选题是预测休克概率。
我记得因变量有各种血压、血糖等医学指标,分析和后面的presentation做的还满好的,得到了老师的邮件表扬。
刚刚讲到了建模、参数、因变量、自变量等基本概念,现在讲讲什么才是一个好的模型呢?
我们本文的技术顾问小斐如是说:
理解好问题,找到合适的方法,有些固定的场景 比如推荐,那就主要是算法里面的问题,要最优和计算效率,还有数据 一定要有充分的数据 才能做好模型!数据决定模型的上限,算法决定模型的下限。
我们来理解一下,除了数据,其实我觉得建模也是很需要想象力和敏感度的,比如去做假设,基础代谢率是不是还跟其他变量有关:头发长短、手指长度、眼睛大小等等(别怀疑,我在一本正经的胡说八道,举个例子)所以模型也是要不断迭代跟进才能更好的拟合已有数据(训练数据)和做预测的~
为什么数据建模师会戏称自己会调参侠呢?
因为模型需要迭代,通过训练数据调整模型参数,使模型对于数据的拟合程度提高~
通过这个案例,可以看出模型的作用有:
- 抽象简化:有一些现实中的过程,比较复杂,难以理解或预测。我们设法对其做一些简化,抽象成一个数学能够处理的模型,比如基础代谢率的计算。
- 描述/预测:抽象成模型后,处理这个模型可以进行预测,或者对已有的现象提出机理上的解释。模型会帮助解释一个系统,研究不同组成部分的影响,以及对行为做出预测。
好模型不一定很复杂,根据奥卡姆剃刀原理,相同解释度的情况下,选择越简单的模型越好。
03 是不是只有数学模型啊?怎么老板让我做各种看不懂的英文字母的模型分析啊!!
不得不说模型这个词有被滥用的趋势,不是整几个英文单词,弄个缩写就可以叫做模型的,Sxxx Bxxx 不能叫SB模型,SB最多是个缩写。
但是在社会科学中,确实有商业分析模型、认知模型和思维模型等等,回归定义,建模的本质在于抽象,即将你关注的事物的特点提取出来,构造出一个想象中的事物去解释或者预测客观事物,这个事物也就称作模型。
以行业模型分析为例,框架可以简单理解为模型的集合。
题图制作:偶尔动脑公众号
我觉得模型的使用不能僵化,否侧就会造成你有把锤子看什么都是钉子的感觉,还是要从问题出发,灵活应用方法模型的,如果你能直接问到某个公司的研发收入,何必再用各种财务模型等来推算呢?
我觉得模型/框架最大的作用就是可以不重不漏的来收集信息,对行业各个属性进行描点了,做好了这一步最多完成60分,后续的连线建立联系、画面总结共性才是真正考验功力的。
题图制作:偶尔动脑公众号
04 模型的活学活用今天下午朋友组局我玩了人生第二场德州扑克,真是个好玩的游戏,虽然我最后输的精光还和”银行”贷款,但是“花钱”买到的教训还蛮多~德州的输赢可以简化为以下的函数
f (手中的牌、已经翻的牌、还没翻的牌、对手的牌性、对手的牌、bluffing吹嘘的能力,别人对你吹嘘的信任度、座位位置…..)
每一局的影响因素都不一样,这就是德州吸引我的地方。
免责说明:虽然我研究生学的是统计专业,但是我半路出家、学艺不精、荒废多年。
本文由@iris 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
,