R语言:从数据思维到数据实战

朱雪宁 等
推荐序一 王汉生(熊大) 编程语言之于数据分析是必不可少的。对于一个数据科学的新兵,应该从哪门语言开始?摆在面前的选择很多:R,SAS,Python,C,JAVA,甚至Fortran。它们各有优势,也有不足。如果一定要选一个,我推荐R。有两个重要原因:第一,R是免费的,全球镜像,非常方便。第二,R的分析建模能力很强,部分得益于基础模块的完善,部分得益于整个统计学社区的支持。很多最新的分析方法、统计模型都是用R首先实现,并被开发封装成为程序包的。当然,这绝不是说R语言是完美的。它显然不完美,还有很多缺陷。但是,这丝毫不妨碍它成为你学习数据分析的第一门语言。正因如此,狗熊会(微信公号)决定要写一本关于R语言的书,要写一本带有狗熊会强烈DNA印记的R语言入门教材。但是,谁来写?谁来当这个“倒霉蛋”呢? 这个“倒霉蛋”不能是我。在狗熊会的团队里,我岁数最大,有耍赖皮的特权,当然不会“压榨”自己,我更擅长“压榨”其他小伙伴。那该“压榨”谁?只能是布丁(朱雪宁)。在狗熊会的联合创始人团队里,布丁的R编程能力公认是最强的。说来惭愧,我是布丁的博士导师,但布丁的理论功底似乎比我还好,而编程能力更比我高出不知几个量级。有时,我会有点懵圈,似乎没教过布丁什么东西,怎么就当了布丁的老师呢?她是怎么成长得如此优秀的呢?思来想去,或许我的一丢丢贡献在于点燃(或者加强了)布丁在数据分析中获得快乐。 布丁天生乐观,而且,她把数据分析的快乐完美地带入了R语言编程。单就汉字分词、频数统计,布丁竟然将之跟《张无忌到底爱谁》扯上了关系。这成了狗熊会第一个阅览量过万的推文。我和小伙伴们都惊呆了!说句实话,对此我很困惑。我认真看过这篇推文多遍,实在看不明白布丁在说什么。我对该作品的印象就是语无伦次,逻辑混乱,不知所云,各种差评。但是奇怪,熊粉们怎么就这么喜欢呢?也许是我老了吧。不得不承认,代沟是存在的。但是,我能…