Scala机器学习

暂无评价
阅读
¥25.00
  • 导言
  • 目录
  • 作品信息

这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据。本书后面将介绍关于Hadoop的内容。最初它能在廉价硬件上处理大量的信息,因为当时传统的关系数据库不能处理这样的信息(或能处理,但是代价过高)。大数据这个话题太大了,而Spark才是本书的重点,它是Hadoop MapReduce的另一个实现,Spark提高了磁盘上持久化保存数据的效率。通常认为使用Spark有点贵,因为它消耗更多的内存,要求硬件必须更可靠,但它也更具交互性。此外,Spark使用Scala工作(也可以使用Java和Python等),但Scala是主要的API语言。因此Spark用Scala在数据管道的表达方面有一定的协同性。

作者:(美)亚历克斯·科兹洛夫

  1. 译者序
  2. 前言
  3. 第1章 探索数据分析
  4. 1.1 Scala入门
  5. 1.2 去除分类字段的重复值
  6. 1.3 数值字段概述
  7. 1.4 基本抽样、分层抽样和一致抽样
  8. 1.5 使用Scala和Spark的Notebook工作
  9. 1.6 相关性的基础
  10. 1.7 总结
  11. 第2章 数据管道和建模
  12. 2.1 影响图
  13. 2.2 序贯试验和风险处理
  14. 2.3 探索与利用问题
  15. 2.4 不知之不知
  16. 2.5 数据驱动系统的基本组件
  17. 2.5.1 数据收集
  18. 2.5.2 数据转换层
  19. 2.5.3 数据分析与机器学习
  20. 2.5.4 UI组件
  21. 2.5.5 动作引擎
  22. 2.5.6 关联引擎
  23. 2.5.7 监控
  24. 2.6 优化和交互
  25. 2.7 总结
  26. 第3章 使用Spark和MLlib
  27. 3.1 安装Spark
  28. 3.2 理解Spark的架构
  29. 3.2.1 任务调度
  30. 3.2.2 Spark的组件
  31. 3.2.3 MQTT、ZeroMQ、Flume和Kafka
  32. 3.2.4 HDFS、Cassandra、S3和Tachyon
  33. 3.2.5 Mesos、YARN和Standalone
  34. 3.3 应用
  35. 3.3.1 单词计数
  36. 3.3.2 基于流的单词计数
  37. 3.3.3 Spark SQL和数据框
  38. 3.4 机器学习库
  39. 3.4.1 SparkR
  40. 3.4.2 图算法:Graphx和GraphFrames
  41. 3.5 Spark的性能调整
  42. 3.6 运行Hadoop的HDFS
  43. 3.7 总结
  44. 第4章 监督学习和无监督学习
  45. 4.1 记录和监督学习
  46. 4.1.1 Iirs数据集
  47. 4.1.2 类标签点
  48. 4.1.3 SVMWithSGD
  49. 4.1.4 logistic回归
  50. 4.1.5 决策树
  51. 4.1.6 bagging和boosting:集成学习方法
  52. 4.2 无监督学习
  53. 4.3 数据维度
  54. 4.4 总结
  55. 第5章 回归和分类
  56. 5.1 回归是什么
  57. 5.2 连续空间和度量
  58. 5.3 线性回归
  59. 5.4 logistic回归
  60. 5.5 正则化
  61. 5.6 多元回归
  62. 5.7 异方差
  63. 5.8 回归树
  64. 5.9 分类的度量
  65. 5.10 多分类问题
  66. 5.11 感知机
  67. 5.12 泛化误差和过拟合
  68. 5.13 总结
  69. 第6章 使用非结构化数据
  70. 6.1 嵌套数据
  71. 6.2 其他序列化格式
  72. 6.3 Hive和Impala
  73. 6.4 会话化
  74. 6.5 使用特质
  75. 6.6 使用模式匹配
  76. 6.7 非结构化数据的其他用途
  77. 6.8 概率结构
  78. 6.9 投影
  79. 6.10 总结
  80. 第7章 使用图算法
  81. 7.1 图简介
  82. 7.2 SBT
  83. 7.3 Scala的图项目
  84. 7.3.1 增加节点和边
  85. 7.3.2 图约束
  86. 7.3.3 JSON
  87. 7.4 GraphX
  88. 7.4.1 谁收到电子邮件
  89. 7.4.2 连通分量
  90. 7.4.3 三角形计数
  91. 7.4.4 强连通分量
  92. 7.4.5 PageRank
  93. 7.4.6 SVD++
  94. 7.5 总结
  95. 第8章 Scala与R和Python的集成
  96. 8.1 R的集成
  97. 8.1.1 R和SparkR的相关配置
  98. 8.1.2 数据框
  99. 8.1.3 线性模型
  100. 8.1.4 广义线性模型
  101. 8.1.5 在SparkR中读取JSON文件
  102. 8.1.6 在SparkR中写入Parquet文件
  103. 8.1.7 从R调用Scala
  104. 8.2 Python的集成
  105. 8.2.1 安装Python
  106. 8.2.2 PySpark
  107. 8.2.3 从Java/Scala调用Python
  108. 8.3 总结
  109. 第9章 Scala中的NLP
  110. 9.1 文本分析流程
  111. 9.2 Spark的MLlib库
  112. 9.2.1 TF-IDF
  113. 9.2.2 LDA
  114. 9.3 分词、标注和分块
  115. 9.4 POS标记
  116. 9.5 使用word2vec寻找词关系
  117. 9.6 总结
  118. 第10章 高级模型监控
  119. 10.1 系统监控
  120. 10.2 进程监控
  121. 10.3 模型监控
  122. 10.3.1 随时间变化的性能
  123. 10.3.2 模型停用标准
  124. 10.3.3 A/B测试
  125. 10.4 总结

作者〔美〕亚历克斯·科兹洛夫

译者罗棻刘波

类别 图书 / 非虚构

出版社机械工业出版社

出版日期

提供方华章数媒

标签互联网(1098)计算机(1380)美国(1987)程序设计(171)

    还没有读者为它写评论