<a id="Header1_HeaderTitle" class="headermaintitle HeaderMainTitle" href="https://www.cnblogs.com/apachecn">龙哥盟

用 Matplotlib (SWMat)讲故事 :

— — — — — — — — — — — — -

import matplotlib.pyplot as plt
from SWMat.SWMat import SWMat**swm** = SWMat(plt) # Initialize your plot**swm**.hist(data, bins=10, ***highlight***=[2, 9])
**swm**.title("Carefully looking at the dependent variable revealed 
           some problems that might occur!")
**swm**.text("Target is a bi-model dependent feature.\nIt 
          can be <prop fontsize='18' color='blue'> hard to 
          predict.<\prop>");**#** **Thats all!** And look at your plot!!

1) Normal Matplotlib, 2) Seaborn, 3) Matplotlib Power, 4) Storytelling With Matplotlib

3.关系图 ^

Photo by Vincent van Zalinge on Unsplash

关系图对于获取两个或多个变量之间的关系非常有用。这些关系可以帮助我们更好地理解我们的数据，并可能帮助我们从现有的变量中产生新的变量。

这是Data Exploration和Feature Engineering中的重要一步。

a)线条图

b)散点图

c) 2D 直方图、十六进制图和等高线图

d)配对图

a)线条图: ^

线图对于检查两个变量之间的线性关系，甚至二次关系、指数关系和所有此类关系非常有用。

(:提示# 3:)<>

5) 你可以通过使用参数'color ' / ' c'，'alpha，'edgecolors ' / ' edgecolor'来给你的剧情一个美学的外观。

6) Seaborn在它的大多数绘图方法中都有一个参数“hue”，您可以用它来显示这些图中分类变量的不同类别之间的对比。

你应该用较浅的颜色来画出你想画的部分，但它们不是你想画的重点。

****plt**.plot('AveRooms', 'AveBedrms', data=data, 
         label="Average Bedrooms")**plt**.legend() # To show label of y-axis variable inside plot
**plt**.title("Average Rooms vs Average Bedrooms")
**plt**.xlabel("Avg Rooms  ->")
**plt**.ylabel("Avg BedRooms  ->");**

您也可以像这样手动对它们进行颜色编码:

****plt**.plot('AveRooms', 'AveBedrms', data=data, c='lightgreen')
**plt**.plot('AveRooms', 'AveBedrms', data=data[(data['AveRooms']>20)], 
         c='y', alpha=0.7)
**plt**.plot('AveRooms', 'AveBedrms', data=data[(data['AveRooms']>50)], 
         c='r', alpha=0.7)**plt**.title("Average Rooms vs Average Bedrooms")
**plt**.xlabel("Avg Rooms  ->")
**plt**.ylabel("Avg BedRooms  ->");**

**# with seaborn
_ = **sns**.lineplot(x='AveRooms', y='AveBedrms', data=train_df)**

********

— — — — — — — — — — — — -

****swm** = SWMat(plt)**swm**.line_plot(data_x, data_y, line_labels=[line_lbl], highlight=0, 
         ***label_points_after***=60, xlabel=xlbl, point_label_dist=0.9,    
         ***highlight_label_region_only***=True)
**swm**.title("There are some possible outliers in 'AveRooms' and 
           'AveBedrms'!", ttype="title+")
**swm**.text("This may affect our results. We should\ncarefully
          look into these and <prop color='blue'>finda\n 
          possible resolution.<\prop>", 
          position="out-mid-right", fontsize=20, 
          btw_line_dist=2.2);# '**point_label_dist**' (to adjust distance between points' labels and 
# lines) in `.line_plot` method and '**btw_line_dist**' (to adjust lines
# between two lines in text) in `.text` method are only used when
# result given by library is not what you want. Most of the times
# this library tries to give the right format, but still some
# mistakes can happen. I will try to make it fully automatic in 
# future.**

1) Normal Matplotlib, 2) Seaborn, 3) Matplotlib Power, 4) Storytelling With Matplotlib

b)散点图: ^

并非两个变量之间的每一种关系都是线性的，实际上只有少数是线性的。这些变量中也有一些随机成分，这使得它们几乎是线性的，而其他情况下有一种完全不同的关系，我们很难用线性图来显示。

此外，如果我们有很多数据点，散点图可以方便地检查大多数数据点是否集中在一个区域，是否有任何异常值 w.r.t .这两个或三个变量，等等。

如果我们对 3D 图中的第四个变量进行颜色编码，我们可以绘制两个或三个甚至四个变量的散点图。

(:提示# 4:)<>****

7) 你可以用两种方式设置你的地块的大小。您可以从matplotlib中导入figure并使用类似于:figure(figsize=(width, height))的方法，或者您可以在使用类似于figure, plots = plt.subplots(rows, cols, figsize=(x,y))的面向对象接口时直接指定figsize。

当你试图用数据传达信息时，你应该简明扼要。

**from matplotlib.pyplot import figure
figure(figsize=(10, 7))**plt**.scatter('AveRooms', 'AveBedrms', data=data, 
            edgecolors='w', linewidths=0.1)**plt**.title("Scatter Plot of Average Rooms and Average Bedrooms")
**plt**.xlabel("Average Bedrooms  ->")
**plt**.ylabel("Average Rooms  ->");**

**# With Seaborn
from matplotlib.pyplot import figure
figure(figsize=(10, 7))**sns**.scatterplot(x='AveRooms', y='AveBedrms', data=train_df, 
                label="Average Bedrooms");**

(:提示 5:)<>****

8) 在.text和.annotate方法中有一个参数bbox，它使用一个字典来设置文本周围的框的属性。对于bbox，几乎所有情况下都可以用pad、edgecolor、facecolor、alpha蒙混过关。

9) 在.annotate方法中有一个用于设置箭头属性的参数，如果设置了xytext参数，就可以设置这个参数，它就是arrowprops。它以一个字典作为参数，你可以用arrowstyle和color蒙混过关。

10) 你可以使用matplotlib的fill_between或fill_betweenx来填充两条曲线之间的颜色。这可以方便地突出曲线的某些区域。

你应该花时间考虑如何绘制数据，以及哪个特定的图能最大程度地传达你的信息。

**from matplotlib.pyplot import figure
figure(figsize=(10, 7))**plt**.scatter('AveRooms', 'AveBedrms', data=data)
**plt**.plot(train_df['AveRooms'], Y, linewidth=1, color='red', 
         linestyle='-', alpha=0.8)**plt**.xlabel("Avg Rooms  ->")
**plt**.ylabel("Avg BedRooms  ->")# Adding annotations:
**plt**.annotate("Possible outliers", xy=(144, 31), xytext=(160, 34),
             arrowprops={'arrowstyle':'-[,widthB=4.0', 'color': 
                         'black'},
             bbox={'pad':4, 'edgecolor':'orange', 'facecolor': 
                   'orange', 'alpha':0.4})**plt**.annotate("Regression Line", xy=(80, 12), xytext=(120, 3),
             arrowprops={'arrowstyle':'->', 'color': 'black', 
                         "connectionstyle":"arc3,rad=-0.2"},
             bbox={'pad':4, 'edgecolor':'orange', 'facecolor': 
                   'orange', 'alpha':0.4});**

********

— — — — — — — — — — — — -

****swm** = SWMat(plt)
**plt**.scatter(x, y, edgecolors='w', linewidths=0.3)
**swm**.line_plot(x, *Y*, highlight=0, highlight_color="#000088", 
              alpha=0.7, line_labels=["Regression Line"])
**swm**.title("'AveBedrms' and 'AveRooms' are highly correlated!", 
          ttype="title+")
**swm**.text("Taking both of them in regressioin process\nmight not be 
          necessary. We can either\n<prop color='blue'>take one of 
          them</prop> or <prop color='blue'>take average.</prop>",
          position='out-mid-right', btw_line_dist=5)
**swm**.axis(labels=["Average Rooms", "Average Bedrooms"])# 'SWMat' has an `axis` method with which you can set some Axes
# properties such as 'labels', 'color', etc. directly.**

1) Normal Matplotlib, 2) Seaborn, 3) Matplotlib Power, 4) Storytelling With Matplotlib

c)二维直方图、十六进制图和等高线图: ^

2D 直方图和 Hex 图可用于检查特定位置数据的相对密度。

等值线图可用于绘制 2D 的 3D 数据，或绘制 4D 的 3D 数据。轮廓线(或填充轮廓中的色带)告诉我们函数具有常数值的位置。它让我们熟悉绘图中使用的所有变量。例如，它可以用于绘制深度学习中不同θ的成本函数。但是要做到准确，你需要大量的数据。至于绘制整个景观，你需要该景观中所有点的数据。如果你有一个关于那个景观的函数，你可以很容易地通过手动计算值来绘制这些图。

**from matplotlib.pyplot import figure
figure(figsize=(10, 7))**plt**.hist2d('MedInc', 'target', bins=40, data=train_df)
**plt**.xlabel('Median Income  ->')
**plt**.ylabel('Target  ->')
**plt**.suptitle("Median Income vs Target", fontsize=18);**

但是seaborn中没有单独的十六进制绘图/2D-历史绘图方法，您可以使用jointplot方法的kind参数来制作十六进制绘图。更多信息请查看seaborn上的联合图。

(:提示# 6:)<>****

一个colorbar需要一个Mappable对象。默认情况下，Contour、Scatter和hist2d等图给出了它们。你可以简单地调用plt.colorbar()，它会在你的图旁边显示一个colorbar。对于其他图，如果需要，您可以手动制作一个colorbar。[在 Jupyter 笔记本的“历史”部分提供了一个例子。]

E】总是尽量选择一个简单的，群众容易理解的情节。

**# Hexbin Plot:
from matplotlib.pyplot import figure
figure(figsize=(10, 7))**plt**.hexbin('MedInc', 'target', data=train_df, alpha=1.0, 
           cmap="inferno_r")**plt**.margins(0)
**plt**.colorbar()
**plt**.xlabel('Median Income  ->')
**plt**.ylabel('Target  ->')
**plt**.suptitle("Median Income vs Target", fontsize=18);**

**from matplotlib.pyplot import figure
figure(figsize=(10, 7))

**plt**.hist2d('MedInc', 'target', bins=40, data=train_df, 
           cmap='gist_heat_r') 
**plt**.colorbar()
**plt**.xlabel('Median Income  ->')
**plt**.ylabel('Target  ->')
**plt**.suptitle("Median Income vs Target", fontsize=18)# Adding annotations:
**plt**.annotate("Most Blocks have low med.\nincome and lower target.", 
             xy=(5, 1.5), xytext=(10, 2),
             arrowprops={'arrowstyle': '->', 'color': 'k'},
             bbox={'facecolor': 'orange', 'pad':4, 'alpha': 0.5, 
                   'edgecolor': 'orange'});**

等高线图 : 等高线图是在 2D 图上可视化 3D 数据的一种方式。在matplotlib中有两种方法可用，即.contour和.contourf。第一个制作线条轮廓，第二个制作填充轮廓。您可以传递 z 值的 2D 矩阵，也可以为 X 值和 Y 值传递两个 2D 数组 X，Y，为所有相应的 z 值传递一个 2D 数组。

**# For **contour plot**
from matplotlib.pyplot import figure
figure(figsize=(10, 7))**plt**.contourf(Z, levels=30, cmap="gist_heat_r")
**plt**.colorbar()**plt**.suptitle("Target Contour", fontsize=16)
**plt**.title("(with Medium Income and Population)", 
          position=(0.6, 1.03))
**plt**.xlabel("Medium Income  ->")
**plt**.ylabel("Population  ->")**

d)配对图: ^

seaborn提供了一个方法pairplot,你可以用它一次绘制出所有可能的关系图。它可以用于快速查看数据中所有变量之间的关系，以及每个变量的分布。

**_ = **sns**.pairplot(train_df)**

4.分类图 ^

Photo by Sharon McCutcheon on Unsplash

分类图在数据探索步骤中也是必要的，因为它们告诉我们不同类别的变量在数据集中是如何分布的。如果我们有足够的数据，我们就可以从这些曲线图中得出该变量不同类别的结论。

因为 *seaborn* 我在这里加了箱子剧情和小提琴剧情。在 *seaborn* 中有一些参数，您可以使用这些参数对不同的分类变量使用这些方法。

a) 条形图

b) 方框图

c) 小提琴剧情

一)条形图 ^

条形图可用于类别之间的对比，其高度代表特定于该类别的某些值。

**from matplotlib.pyplot import figure
figure(figsize=(10, 7))**plt**.bar(np.sort(data.unique()), data.value_counts().sort_index(), 
        alpha=0.7) **#** You might need to sort; Be carefully with
                   **#** which values are being plotted with each 
                   **#** other.**plt**.xlabel("Target  ->")
**plt**.ylabel("Frequency  ->");**

(:提示# 7:)<>****

12) 如果在每个matplotlib和seaborn函数的输出中有你想要改变属性的补丁或对象，你可以通过使用.set函数将属性名作为字符串和属性值传递给它来改变它，或者你可以直接对那个属性使用 set 函数，如set_color、set_lw等。

有近 8%的男性是色盲，近 1/10 的女性是色盲。但你还是应该小心他们。对比对他们中的大多数人都有效。

**# Seaborn
from matplotlib.pyplot import figure
figure(figsize=(10, 7))**sns**.barplot(np.sort(data.unique()),data.value_counts().sort_index())**plt**.xlabel("Target  ->")
**plt**.ylabel("Frequency  ->");**

**from matplotlib.pyplot import figure
figure(figsize=(10, 7))**plt**.bar(np.sort(train_df['target_int'].unique()), 
        train_df['target_int'].value_counts().sort_index(), 
        alpha=0.7, width=0.6)**plt**.grid(True, alpha=0.3)
**plt**.xlabel("Target  ->", fontsize=14)
**plt**.ylabel("Frequency  ->", fontsize=14)
**plt**.title("Target Frequencies", fontsize=18)# Remove top and left spines:
ax = **plt**.gca() # Get current axis (gca)
**ax**.spines['right'].set_visible(False)
**ax**.spines['top'].set_visible(False)# Adding annotations:
counts = train_df['target_int'].value_counts().sort_index()
**plt**.annotate(str(counts[0]), xy=(0, counts[0]), 
             xytext=(0,counts[0]+400), ha = 'center',
             bbox={'boxstyle': 'round', 'pad': 0.5, 'facecolor': 
                   'orange', 'edgecolor': 'orange', 'alpha': 0.6},
             arrowprops={'arrowstyle':"wedge,tail_width=0.5", 
                         'alpha':0.6, 'color': 'orange'})
**plt**.annotate(str(counts[1]), xy=(1, counts[1]), 
             xytext=(1, counts[1]+400), ha = 'center',
             bbox={'boxstyle': 'round', 'pad': 0.5, 'facecolor': 
                   'orange', 'edgecolor': 'orange', 'alpha': 0.6},
             arrowprops={'arrowstyle':"wedge,tail_width=0.5", 
                         'alpha':0.6, 'color': 'orange'})
**plt**.annotate(str(counts[2]), xy=(2, counts[2]), 
             xytext=(2, counts[2]+400), ha = 'center',
             bbox={'boxstyle': 'round', 'pad': 0.5, 'facecolor': 
                   'orange', 'edgecolor': 'orange', 'alpha': 0.6},
             arrowprops={'arrowstyle':"wedge,tail_width=0.5", 
                         'alpha':0.6, 'color': 'orange'})
**plt**.annotate(str(counts[3]), xy=(3, counts[3]), 
             xytext=(3, counts[3]+400), ha = 'center',
             bbox={'boxstyle': 'round', 'pad': 0.5, 'facecolor': 
                   'orange', 'edgecolor': 'orange', 'alpha': 0.6},
             arrowprops={'arrowstyle':"wedge,tail_width=0.5", 
                         'alpha':0.6, 'color': 'orange'})
**plt**.annotate(str(counts[4]), xy=(4, counts[4]), 
             xytext=(4, counts[4]+400), ha = 'center',
             bbox={'boxstyle': 'round', 'pad': 0.5, 'facecolor': 
                   'orange', 'edgecolor': 'orange', 'alpha': 0.6},
             arrowprops={'arrowstyle':"wedge,tail_width=0.5", 
                         'alpha':0.6, 'color': 'orange'})
**plt**.xticks(ticks=[0, 1, 2, 3, 4], labels=["0 - 1", "1 - 2", "2 - 3",      
           "3 - 4", "4 - 5"], fontsize=12)
**plt**.ylim([0, 9500]);**

********

— — — — — — — — — — — — -

****swm** = SWMat(plt)
**swm**.bar(cats, heights, highlight={"cat": [-1]}, highlight_type=
        {"data_type": "incrementalDown"}, cat_labels=["0-1", "1-2",
        "2-3", "3-4", "4-5"], highlight_color={"cat_color":
        "#FF7700"}, annotate=True)
**swm**.axis(labels=["Target values", "Frequency"])
**swm**.title("About most expensive houses in California...")
**swm**.text("California is a sea-side state. As most\nexpensive houses 
         are at sea-side we\ncan easily predict these values if 
         we\nsomehow <prop color='blue'>combine 'Latitude' 
         and\n'Longitude' variables </prop>and separate sea\nside 
         houses from non-sea-side houses.",
         btw_text_dist=.1);**

1) Normal Matplotlib, 2) Seaborn, 3) Matplotlib Power, 4) Storytelling With Matplotlib

b)方框图 ^

箱线图是分布图的统计版本。它给出了不同的四分位数，平均值和极值的范围。一些可能的用例是，如果某些点超出了盒须线的范围，您可以使用它来识别可以发现异常值的变量，或者您可以通过图中中间盒的相对位置来检查分布中的偏斜。

**from matplotlib.pyplot import figure
figure(figsize=(15, 7))**plt**.boxplot(train_df['target'], vert=False)**plt**.xlabel("<-  Target Values  ->")
**plt**.ylabel("Target");**

**# With Seaborn:
from matplotlib.pyplot import figure
figure(figsize=(15, 7))sns.boxplot(train_df['MedInc']);**

(:提示# 8:)<>****

13) 您可以通过使用plt.xlim、plt.ylim、ax.set_xlim、ax.set_ylim功能来改变您的Axes的 x 极限、y 极限。您还可以通过将plt.margings或ax.margins用作plt.margins(x=2, y=-3)来放大和缩小您的绘图。

14) 您可以从plt.style.available中为您的图形使用不同的样式，为您的图形赋予不同的外观，并将其激活为plt.style.use(stylename)。最常用的款式是'fivethirtyeight'和ggplot。

15) seaborn和matplotlib有许多可用的色彩映射表，可用于设置连续变量图的颜色。你可以在这里找他们，在这里找他们。

只突出你想引起观众注意的情节部分，只突出那些部分。

**from matplotlib.pyplot import figure
figure(figsize=(20, 7))bp = **plt**.boxplot([x1, x2], vert=False, patch_artist=True,
              flierprops={'alpha':0.6, 'markersize': 6,
                   'markeredgecolor': '#555555','marker': 'd',
                   'markerfacecolor': "#555555"}, 
              capprops={'color': '#555555', 'linewidth': 2},
              boxprops={'color': '#555555', 'linewidth': 2},
              whiskerprops={'color': '#555555', 'linewidth': 2},
              medianprops={'color': '#555555', 'linewidth': 2},
              meanprops={'color': '#555555', 'linewidth': 2})**plt**.grid(True, alpha=0.6)
**plt**.title("Box Plots", fontsize=18)
**plt**.xlabel("Values  ->", fontsize=14)
**plt**.ylabel("Features", fontsize=14)
**plt**.yticks(ticks=[1, 2], labels=['MedInc', 'Target'])bp['boxes'][0].set(facecolor='#727FFF')
bp['boxes'][1].set(facecolor="#97FF67")# Adding Text:
**plt**.text(11, 1.5, "There are many potential\nOutliers with respect 
         to\nMedian Income", fontsize=18,
         bbox={'facecolor': 'orange', 'edgecolor': 'orange', 
               'alpha': 0.4, 'pad': 8});**

********

用 Matplotlib (SWMat)讲故事 :

— — — — — — — — — — — — —

****swm** = SWMat(plt)
bp = **plt**.boxplot([x1, x2], vert=False, patch_artist=True,
              flierprops={'alpha':0.6, 'markersize': 6,
                   'markeredgecolor': '#555555','marker': 'd',
                   'markerfacecolor': "#555555"}, 
              capprops={'color': '#555555', 'linewidth': 2},
              boxprops={'color': '#555555', 'linewidth': 2},
              whiskerprops={'color': '#555555', 'linewidth': 2},
              medianprops={'color': '#555555', 'linewidth': 2},
              meanprops={'color': '#555555', 'linewidth': 2})
**plt**.xlabel("Values  ->", fontsize=14)
**plt**.ylabel("Features", fontsize=14)
**plt**.yticks(ticks=[1, 2], labels=['MedInc', 'Target'])
bp['boxes'][0].set(facecolor='#727FFF')
bp['boxes'][1].set(facecolor="#97FF67");**swm**.title("Many unusual outliers in 'MedInc' variable...")
**swm**.text(("It may be because of acquisition of sea side\n"
        "places by very wealthy people. This <prop 
           color='blue'>aquisition\n"
        "by many times greater earners</prop> and yet not much\n"
        "number has made box plot like this."),btw_line_dist=.15,    
         btw_text_dist=.01)**

1) Normal Matplotlib, 2) Seaborn, 3) Matplotlib Power, 4) Storytelling With Matplotlib

c)小提琴剧情 ^

小提琴情节是盒子情节的延伸。它也有均值、极值的指标，也可能有不同的四分位数。除此之外，它还显示了两边变量的概率分布。

**from matplotlib.pyplot import figure
figure(figsize=(10, 7))**plt**.violinplot(train_df['target'])**plt**.title("Target Violin Plot")
**plt**.ylabel("Target values  ->");**

**# With Seaborn
from matplotlib.pyplot import figure
figure(figsize=(10, 7))**sns**.violinplot(train_df['target']);**

(:提示# 9:)<>****

16) 您可以使用plt.axhline、plt.axvline或ax.axline、ax.axvline功能在绘图区内绘制垂直线或水平线。

做一个善于讲故事的人，用大众容易理解的方式通过故事传达你的发现。

**from matplotlib.pyplot import figure
figure(figsize=(10, 7))vp = **plt**.violinplot(train_df['target'], vert=False, showmeans=True, 
                     showmedians=True)**#** Returns a dictionary with keys : ['bodies', 'cbars', 'cmaxes', 
**#**                                   'cmeans', 'cmedians', 'cmins']
**#** Using these we can tinker with our plot:
vp['bodies'][0].set_edgecolor("k")
vp['bodies'][0].set_linewidth(2)
vp['bodies'][0].set_alpha(1.0)
vp['bodies'][0].set_zorder(10)vp['cmeans'].set_linestyle(":")
vp['cmeans'].set_color("r")
vp['cmeans'].set_zorder(101)
vp['cmeans'].set_segments(np.array([[[2.06855817, 0.7], [2.06855817, 1.3]]]))vp['cmedians'].set_linestyle("--")
vp['cmedians'].set_color("orange")
vp['cmedians'].set_zorder(100)
vp['cmedians'].set_segments(np.array([[[1.797, 0.7], [1.797, 1.3]]]))vp['cbars'].set_zorder(99)
vp['cbars'].set_color("k")
vp['cbars'].set_linewidth(0.5)vp['cmaxes'].set_visible(False)
vp['cmins'].set_visible(False)# Legend:
**plt**.legend(handles=[vp['bodies'][0], vp['cmeans'], vp['cmedians']], 
           labels=["Target", "Mean", "Median"], handlelength=5)
**plt**.title("Target Violin Plot")
**plt**.xlabel("Target")
**plt**.yticks([])
**plt**.grid(True, alpha=0.8)# Adding Text
**plt**.text(x, y, f"({train_df['target'].median()}) Median",
         bbox={'facecolor':'orange', 'edgecolor': 'orange', 'pad':4, 
               'alpha': 0.7}, zorder=12)
**plt**.text(x2, y2, f"Mean ({np.round(train_df['target'].mean(),3)})",
         bbox={'facecolor':'red', 'edgecolor': 'red', 'pad':4, 
               'alpha': 0.6}, zorder=11);**

********

[1]https://www . sky sports . com/football/news/15205/11657461/保罗-莫森斯-预测-阿森纳-曼联-切尔西-狼队-还有更多

— — — — — — — — — — — — —

**TK Work in Progress...**

1) Normal Matplotlib, 2) Seaborn, 3) Matplotlib Power, 4) Storytelling With Matplotlib

5.多个地块 ^

Photo by Ricardo Gomez Angel on Unsplash

您可以使用plt.subplots方法或通过指定方框坐标手动添加Axes到图形中，或使用plt.GridSpec()方法，根据需要绘制任意多的图形。即

要么使用:fig, axess = plt.subplots(ncols=2, nrows=4)然后你可以通过访问这些Axes中的任何一个作为axess[col_num][row_rum]来绘制它们，然后使用任何Axes方法来绘制它们。
或通过使用plt.axes()方法给出四个百分比值的列表，给出Axes的【左、下、宽、高】以在figure中制作。比如:plt.axes([0.1, 0.1, 0.65, 0.65)。
或者使用plt.GridSpec()方法。如grid = plt.GridSpec(n_row, n_col)。现在，当通过plt.subplot()方法制作Axes时，您可以使用此grid作为 2D 阵列来选择使用多少和哪些栅格来制作电流，一个，Axes。例如plt.subplot(grid[0,:])将选择整个第一行作为一个Axes。如果你愿意，你也可以留下一些。

****plt**.figure(1, figsize=(10, 8))
**plt**.suptitle("Hist-Distribution", fontsize=18, y=1)# Now lets make some axes in this figure
axScatter = **plt**.axes([0.1, 0.1, 0.65, 0.65]) 
                **#** [left, bottom, width, height] in percent values
axHistx = **plt**.axes([0.1, 0.755, 0.65, 0.2])
axHisty = **plt**.axes([0.755, 0.1, 0.2, 0.65])**axHistx**.set_xticks([])
**axHistx**.set_yticks([])
**axHisty**.set_xticks([])
**axHisty**.set_yticks([])
**axHistx**.set_frame_on(False)
**axHisty**.set_frame_on(False)
**axScatter**.set_xlabel("MedInc  ->")
**axScatter**.set_ylabel("Population  ->")# Lets plot in these axes:
**axScatter**.scatter(x, y, edgecolors='w')
**axHistx**.hist(x, bins=30, ec='w', density=True, alpha=0.7)
**axHisty**.hist(y, bins=60, ec='w', density=True, alpha=0.7, 
             orientation='horizontal')
**axHistx**.set_ylabel("")# Adding annotations:
**axScatter**.annotate("Probably an outlier", xy=(2.6, 35500), 
                   xytext=(7, 28000),
                   arrowprops={'arrowstyle':'->'}, 
                   bbox={'pad':4, 'facecolor':'orange', 'alpha': 
                         0.4, 'edgecolor':'orange'});**

(:提示# 10:)<>****

17) seaborn有自己的网格/多点对象，即Facet Grid、Pair Grid和Joint Grid。他们有一些方法，如.map、.map_diag、.map_upper、.map_lower等，你可以研究一下，只在 2D 网格中的那些位置绘制图形。

读一读科尔·奈弗利克的《用数据讲故事》。这是一本很好的读物，它用一个著名的数据通信者的例子涵盖了每个方面。

**from matplotlib.pyplot import figure
figure(figsize=(10, 8))**sns**.jointplot(x, y);**

6.互动剧情 ^

Photo by Ricardo Gomez Angel on Unsplash

默认情况下，matplotlib中的交互式绘图是关闭的。这意味着只有在您发出最后的plt命令或使用了触发plt.draw的命令(如plt.show())后，该图才会显示给您。您可以通过ion()功能打开交互式绘图，通过ioff()功能关闭交互式绘图。打开它，每个plt功能都会触发plt.draw。

在现代 Jupyter 笔记本/IPython 世界中，有一个魔法命令可以打开这些笔记本中的交互/动画功能，那就是%matplotlib notebook，要关闭它，您可以在使用任何plt功能之前使用魔法命令%matplotlib inline。

matplotlib与许多用户界面工具包(wxpython、tkinter、qt4、gtk 和 macosx)配合使用，以显示交互式绘图。对于这些交互图，matplotlib使用event和事件处理程序/管理器(fig.canvas.mpl_connect)通过鼠标或键盘捕捉一些事件。

这个事件管理器用于将一些内置的事件类型查看器连接到一个自定义函数，如果特定类型的事件发生，该函数将被调用。

有许多可用的事件，如'按钮 _ 按压 _ 事件'，'按钮 _ 释放 _ 事件'，'绘制 _ 事件'，'调整大小 _ 事件'，'图形 _ 输入 _ 事件'，等。可以像fig.canvas.mpl_connect(event_name, func)一样连接。

对于上面的例子，如果event_name事件发生，所有与该事件相关的数据都将被发送到您的函数func中，在这里您应该已经编写了一些代码来使用所提供的数据。该事件数据包含 x 和 y 位置、x 和 y 数据坐标、是否在Axes内点击等信息。如果它们与您的事件类型event_name相关。

**%matplotlib notebook
# Example from matplotlib Docs**class** LineBuilder:
    **def** __init__(self, line):
        self.line = line
        self.xs = list(line.get_xdata())
        self.ys = list(line.get_ydata())
        self.cid = line.figure.\
                canvas.mpl_connect('**button_press_event**', self) **def** __call__(self, event):
        print('click', event)
        if event.inaxes!=self.line.axes: return
        self.xs.append(event.xdata)
        self.ys.append(event.ydata)
        self.line.set_data(self.xs, self.ys)
        self.line.figure.canvas.draw()fig = plt.figure()
ax = **fig**.add_subplot(111)
**ax**.set_title('click to build line segments')
line, = **ax**.plot([0], [0])  # empty line
linebuilder = LineBuilder(line)**# It worked with a class because this class has a __call__
# method.****

Random lines drawn using above code (by consecutive clicking)

7.其他人 ^

Photo by rawpixel on Unsplash

3D 绘图
地理地块
字云剧情
动画

3D 剧情: ^

matplotlib的 3D 图不在普通库中。在mpl_toolkits中是因为matplotlib开始只有 2D 图，后来在mpl_toolkits中增加了 3D 图。可以导入为from mpl_toolkits import mplot3d。

导入后，您可以通过将projection='3d'传递给任何Axes初始化器/maker 函数来制作任何Axes 3D 轴。

****ax** = **plt**.gca(projection='3d') # Initialize...# Data for a three-dimensional line
zline = np.linspace(0, 15, 1000)
xline = np.sin(zline)
yline = np.cos(zline)
**ax**.plot3D(xline, yline, zline, 'gray')# Data for three-dimensional scattered points
zdata = 15 * np.random.random(100)
xdata = np.sin(zdata) + 0.1 * np.random.randn(100)
ydata = np.cos(zdata) + 0.1 * np.random.randn(100)
**ax**.scatter3D(xdata, ydata, zdata, c=zdata, cmap='Greens');**

(:提示# 11:)<>****

18) 在执行绘图功能之前，您可以通过运行%matplotlib notebook来交互查看 3D 绘图。

有许多 3D 绘图可用，如line、scatter、wireframe、surface、contour、bar等，甚至还有subplot可用。你也可以用text功能在这些图上写字。

**# This import registers the 3D projection, but is otherwise unused.
from mpl_toolkits.mplot3d import Axes3D# setup the figure and axes
**plt**.figure(figsize=(8, 6))
**ax** = plt.gca(projection='3d')**ax**.bar3d(x, y, bottom, width, depth, top, shade=True)
**ax**.set_title('Bar Plot')**

地理剧情: ^

要用matplotlib绘制地理图，你必须安装另一个由matplotlib开发的名为Basemap的软件包。安装并不容易，在这里寻找官方说明，或者你可以使用conda命令，如果你已经安装了 Anaconda:conda install -c conda-forge basemap，或者如果这些对你来说也不起作用，在这里寻找(特别是最后的评论)。

**from mpl_toolkits.basemap import Basemapm = Basemap()
m.drawcoastlines()**

实际上，您可以在这里使用 matplotlib 的大多数原始函数，如text、plot、annotate、bar、contour、hexbin，甚至是这些投影上的 3D 绘图。

它还有一些与地理图相关的功能，如streamplot、quiver等。

****m** = Basemap(projection='ortho', lat_0=0, lon_0=0)
# There are a lot of projections available. Choose one you want. **m**.drawmapboundary(fill_color='aqua')
**m**.fillcontinents(color='coral',lake_color='aqua')
**m**.drawcoastlines()x, y = map(0, 0) # Converts lat, lon to plot's x, y coordinates.**m**.plot(x, y, marker='D',color='m')**

***# llcrnr: lower left corner; urcrnr: upper right corner*
**m** = Basemap(llcrnrlon=-10.5, llcrnrlat=33, urcrnrlon=10., 
            urcrnrlat=46., resolution='l', projection='cass', 
            lat_0 = 39.5, lon_0 = 0.)
**m**.bluemarble()
**m**.drawcoastlines()**

**from mpl_toolkits.mplot3d import Axes3D**m** = Basemap(llcrnrlon=-125, llcrnrlat=27, urcrnrlon=-113, 
             urcrnrlat=43, resolution='i')fig = **plt**.figure(figsize=(20, 15))
ax = **Axes3D**(fig)**ax**.set_axis_off()
**ax**.azim = 270 # Azimuth angle
**ax**.dist = 6   # Distance of eye-viewing point fro object point**ax**.add_collection3d(**m**.drawcoastlines(linewidth=0.25))
**ax**.add_collection3d(**m**.drawcountries(linewidth=0.35))
**ax**.add_collection3d(**m**.drawstates(linewidth=0.30))x, y = m(x, y)
**ax**.bar3d(x, y, np.zeros(len(x)), 30, 30, np.ones(len(x))/10,
         color=colors, alpha=0.8)**

‘Target’ distribution (red -> high) in California. [From above used California Dataset]

字云剧情: ^

词云在自然语言处理(NLP)中使用，在可以是云或不是云的某个边界内，显示具有最多频率的词，其大小取决于它们的频率。它将数据中单词之间的相对频率差异绘制为其字体的相对大小。在大多数情况下，仅仅通过查看单词云也很容易找到出现频率最高的单词。但这仍然是一种有趣的方式来传达数据，因为它很好理解和容易理解。

有一个 python 包wordcloud，你可以把pip当作pip install wordcloud来安装。

你可以先设置WordCloud的一些属性(比如使用mask参数设置云的形状，指定max_words，指定stopwords等。)然后为给定的文本数据生成具有指定属性的云。

**from wordcloud import WordCloud, STOPWORDS# Create and generate a word cloud image:
wordcloud = **WordCloud**()\    # Use default properties
             .generate(text) # Display the generated image:
**plt**.imshow(wordcloud, interpolation='bilinear')
**plt**.axis("off")**

**from PIL import Image
mask = np.array(Image.open("jour.jpg")) # Searched "journalism 
                                        # black png" on google 
                                        # images...
stopwords = set(STOPWORDS)wc = **WordCloud**(background_color="white", max_words=1000, mask=mask,
               stopwords=stopwords)# Generate a wordcloud
**wc**.generate(text)# show
**plt**.figure(figsize=[20,10])
**plt**.imshow(wc, interpolation='bilinear')
**plt**.axis("off")
**plt**.show()**

动画: ^

你可以使用这两个类中的一个来轻松制作动画:

FuncAnimatin:反复调用函数*func*制作动画。
ArtistAnimation:使用一组固定的Artist对象的动画。

(:提示# 12:)<

始终保持对实例对象Animation的引用，否则将被垃圾回收。

20) 使用Animation.save或Animation.to_html5_video方法之一将动画保存到磁盘。

21) 您可以使用设置为True的参数blit来加速/优化动画的绘制。但是如果blit=True你将不得不返回一个由init_func重画的艺术家列表。

在FuncAnimation中，你需要传递至少一个当前的fig和一个将为每一帧调用的函数。除此之外，你还应该查看参数frames (iterable，int，generator，None 要传递给func和动画每一帧的数据源】、init_func(用于绘制清晰帧的函数，否则使用frames的第一帧)和blit(是否使用位块传输)。

**%matplotlib notebookfig, ax = **plt**.subplots()
xdata, ydata = [], []
ln, = **plt**.plot([], [], 'ro')**def** init():
    ax.set_xlim(0, 2*np.pi)
    ax.set_ylim(-1, 1)
    return ln,**def** update(frame):
    xdata.append(frame)
    ydata.append(np.sin(frame))
    ln.set_data(xdata, ydata)
    return ln,
# Always keep reference to `Animation` obj
ani = **FuncAnimation**(fig, update, frames=np.linspace(0, 2*np.pi,
                    128), init_func=init, blit=True)**

8.延伸阅读 ^

用数据讲故事——科尔·n·克纳弗里克(一本关于如何通过知名数据交流者使用图形/图表交流数据的好书)
Python 数据科学手册— Jake VanderPlas
在 Jupyter 中嵌入 Matplotlib 动画作为交互式 JavaScript 小部件— Louis Tiao
用 Python 生成单词云— Duong Vu
底图教程

9.参考文献 ^

用数据讲故事——Cole n . Knaflic(一本关于如何通过知名数据交流者使用图形/图表交流数据的好书)
Python 数据科学手册——杰克·范德普拉斯
在 Jupyter 中嵌入 Matplotlib 动画作为交互式 JavaScript 窗口小部件——Louis Tiao
用 Python 生成单词云— Duong Vu
Matplotlib 教程:Python 绘图— Karlijn Willems
底图教程
Matplotlib 文档
Matplotlib mplot3d 工具包
Matplotlib —交互式
Matplotlib —动画
Seaborn Docs

**Suggestions and reviews are welcome.
Thank you for reading!**

签名:

制作您自己的智能家庭安全摄像机

原文：https://towardsdatascience.com/make-your-own-smart-home-security-camera-a89d47284fc7?source=collection_archive---------14-----------------------

Security Camera Set-up

一台可以进行面部识别的相机，成本不到 80 美元。

Demo

不久前，我想买一台好的智能相机，但我的需求与相关成本不相称。所以，我决定用我已经有的零件做一个。

所需零件:

树莓 PI 3
网络摄像头
PIR 传感器/超声波传感器

所需知识:

计算机编程语言
OpenCV
dlib

如果你想要更多关于 OpenCV 和 dlib 的信息，那么请看看我的旧文章。

什么是 PIR 传感器？

[Source: Google]

一个被动红外传感器 ( PIR 传感器)是一个电子传感器，它测量从其视野内的物体发出的红外(IR)光。它们最常用于基于 PIR 的运动检测器。所有温度高于绝对零度的物体都以辐射的形式放出热能。通常这种辐射对人眼是不可见的，因为它以红外波长辐射，但它可以被 PIR 传感器检测到。

什么是超声波传感器？

[Source: Google]

超声波传感器是一种使用超声波测量物体距离的仪器。超声波以高于人类听觉范围的频率振动。它使用单个传感器发送脉冲并接收回波。传感器通过测量发送和接收超声波脉冲之间的时间间隔来确定到目标的距离。

方法

通俗地说，PIR 传感器将检测瞬间，摄像头将捕捉帧，Raspberry PI 将执行面部识别并提供最终输出。

更详细地说，我已经将 PIR 传感器与 Raspberry PI 连接起来，网络摄像头正对着我公寓的前门。我没有使用 AWS 或任何其他云服务来执行推理或发送通知。我正在进行局部推断，并在我的扬声器上播放关于谁进入的声音。

到目前为止，单独的 Raspberry PI 还不是一个理想的执行实时推理的嵌入式平台。因此，我使用 PIR 传感器来确定何时启动推理机并执行面部识别。你也可以使用超声波测距仪，但在我的情况下，我打算用它来完成我的另一个项目。

一旦门被打开，有人进入，PIR 传感器将开始检测。当 PIR 传感器检测到任何类型的移动时，摄像机将开始捕捉 10 秒钟的帧。与此同时，OpenCV 的“ Haar Cascades ”将开始检测人脸，dlib 的“ 68 点人脸标志检测”将检测到的人脸标志与保存的标志进行匹配，以检查它是否是入侵者？

使用 OpenCV，我们可以从网络摄像头捕捉帧，并将每个帧转换为 numpy 数组。这里，我们以 320x240 的速率记录帧。我们也可以录制全高清帧，但在 Raspberry PI 上执行人脸检测将花费大量时间。然后使用“haarcascade _ frontal face _ alt 2 . XML”模型，在给定的帧中检测人脸。一旦我们识别了所有的面孔，我们将把它们存储在一个列表中，以便将它们与保存的面孔进行比较。

我们会用 dlib 进行人脸对比。dlib 68 点人脸标志检测将为您提供给定人脸的标志。我们确实有一些已知的面部标志存储在 numpy 文件中，我们将在比较之前加载这些文件。一旦我们有了所有的地标，我们就能找到这些地标之间的距离。我们使用 0.6 作为阈值。给你阈值以下最小距离的面部标志是进入房间的已知人。如果值不低于阈值，那么它是一个入侵者！！

您可以在下面的 git 资源库中找到完整的代码，

[## smitshilu/AISecurityCamera

在 GitHub 上创建一个帐户，为 smitshilu/AISecurityCamera 开发做出贡献。

github.com](https://github.com/smitshilu/AISecurityCamera)

结论

你可以在家里开发一个智能摄像头来获取入侵者的状态。你也可以使用 AWS 或 Google Cloud 等服务向你的手机或短信发送通知。

如果你喜欢这篇文章，请关注我的**或Github或订阅我的 YouTube 频道 。****

使用并行处理让你的熊猫更快地应用函数

原文：https://towardsdatascience.com/make-your-own-super-pandas-using-multiproc-1c04f41944a1?source=collection_archive---------1-----------------------

蟒蛇短裤

超级熊猫侠

Super Panda

并行化牛逼。

我们数据科学家已经有了四核、八核、睿频的笔记本电脑。我们使用具有更多内核和计算能力的服务器。

但是我们真的利用了我们手头的原始力量吗？

相反，我们等待耗时的过程结束。有时是几个小时，当紧急的交付品就在手边的时候。

我们能做得更好吗？我们能变得更好吗？

在这个名为'Python Shorts，‘的系列帖子中，我将解释由 Python 提供的一些简单构造，一些基本的技巧和我在数据科学工作中经常遇到的一些用例。

这篇帖子讲的是利用我们手头的计算能力，把它应用到我们最常用的数据结构上。

问题陈述

我们有一个巨大的熊猫数据框，我们想对它应用一个复杂的函数，这需要很多时间。

在这篇文章中，我将使用 Kaggle 上 Quora 非真诚问题分类的数据，我们需要创建一些数字特征，如长度、标点符号的数量等。这就去。

比赛是基于内核的比赛，代码需要在 2 小时内运行。所以每一分钟都是至关重要的，有太多的时间花在预处理上。

我们可以使用并行化来提高代码的性能吗？

是的，我们可以。

仅使用单个函数的并行化

Can we make all our cores run?

让我首先从定义我想用来创建我们的特征的函数开始。是我们希望应用于数据的玩具函数。

我们可以使用下面的函数来使用并行应用。

def parallelize_dataframe(df, func, n_cores=4):
    df_split = np.array_split(df, n_cores)
    pool = Pool(n_cores)
    df = pd.concat(pool.map(func, df_split))
    pool.close()
    pool.join()
    return df

它是做什么的？它将数据帧分成n_cores个部分，并产生n_cores进程，这些进程将函数应用于所有部分。

一旦它将函数应用于所有分割的数据帧，它就将分割的数据帧连接起来，并将完整的数据帧返回给我们。

我们如何使用它？

它使用起来非常简单。

train = parallelize_dataframe(train_df, add_features)

这有用吗？

为了检查这个并行化函数的性能，我在我的 Jupyter 笔记本的 Kaggle 内核中对这个函数运行了%%timeit magic。

与只使用现有功能相比:

如您所见，我通过使用并行化功能获得了一些性能。它使用的是只有两个 CPU 的 kaggle 内核。

在实际比赛中，涉及到大量的计算，我使用的add_features函数要复杂得多。这个并行化功能极大地帮助我减少了处理时间，并获得了银牌。

这里是带有完整代码的内核。

结论

并行化不是银弹；这是铅弹。它不会解决你所有的问题，你仍然需要优化你的功能，但是它是你的武器库中的一个很好的工具。

时间一去不复返，有时我们也缺少时间。此时，我们应该能够轻松使用并行化。

并行化不是银弹，而是铅弹

另外，如果你想了解更多关于 Python 3 的知识，我想向密歇根大学推荐一门关于学习中级 Python 的优秀课程。一定要去看看。

将来我也会写更多初学者友好的帖子。让我知道你对这个系列的看法。在媒体关注我或者订阅我的博客了解他们。一如既往，我欢迎反馈和建设性的批评，可以通过 Twitter @mlwhiz 联系到我。

使用深度学习魔法让您的图片变得美丽

原文：https://towardsdatascience.com/make-your-pictures-beautiful-with-a-touch-of-machine-learning-magic-31672daa3032?source=collection_archive---------3-----------------------

想获得灵感？快来加入我的 超级行情快讯 。😎

摄像技术很美。它给了我们所有人一个保存记忆的机会，当我们在照片中再次看到它们时，我们可以重温它们。

在过去的几年里，这项技术取得了长足的进步。有了各种各样的新功能，如 4K、HDR 和色彩增强，人们可以捕捉到令人惊叹的照片。

但这是有代价的。不是每个人都能买得起最好的相机。消费级 DSLR 相机的价格从几百美元到几千美元不等。不仅如此，并不是每个人都能充分利用这些相机；毕竟我们并不都是专业摄影师！

我们大多数人只是用手机。但与高端数码单反相机相比，智能手机拍摄的照片往往非常平淡。

深度学习改变了这一切。

美化您的照片

来自苏黎世联邦理工学院计算机视觉实验室的研究展示了如何自动增强低质量相机拍摄的照片，使它们看起来像是专业摄影师用 DSLR 拍摄的。

他们是这样做的。

该团队首先收集了一组低质量(来自手机)和高质量(来自 DSLR)的照片，你可以从项目页面下载。这正是我们在这样一个增强任务中想要的数据:输入一个低质量的图像(来自手机)，并让深度网络尝试预测高质量的版本(来自 DSLR)会是什么样子。

一幅图像有几个我们可能想要增强的属性:光照、颜色、纹理、对比度和清晰度。深度网络被训练成用四种不同的损失函数来命中所有这些属性:

颜色损失:预测图像和目标图像的模糊版本之间的欧几里德距离。
纹理损失:基于生成对抗网络(GAN)的分类损失。训练 GAN 来预测灰度照片的质量是高还是低。由于使用了灰度，网络将很好地聚焦于图像的纹理而不是颜色。
内容损失:预测图像的 VGG 特征与地面真实之间的差异。这种损失确保了图像中的整体结构和对象(即图像语义)保持不变。
总变化损失:图像中的总垂直和水平梯度。这会增强图像的平滑度，这样最终的结果就不会太粗糙或太嘈杂。

最后，将这些损失加起来，训练一个端到端网络来进行预测！整体 GAN 架构如下所示。如果你也想了解更多，你可以查看的论文了解更多细节。

Architecture from the paper

代码

感谢 AI 社区开源思维的美丽，这里有一个公开可用的照片增强器的实现！这是你如何使用它。

首先克隆存储库

git clone [https://github.com/aiff22/DPED](https://github.com/aiff22/DPED)

安装所需的库

pip install tensorflow-gpu
pip install numpy
pip install scipy

所有预先训练的模型都已经在 models_orig 文件夹中的存储库中，所以没有必要下载它们！

将您要增强的照片放在以下目录中:

dped/iphone/test_data/full_size_test_images/

这是“iphone”的默认目录，但是如果你想改变它，你可以在test_model.py脚本中改变代码。它之所以说“iphone”是因为作者最初使用 3 部智能手机的照片训练了 3 个不同的模型:iphone、索尼和黑莓，所以这是你的三个选项。但是这个模型在大多数带有这些选项的照片上都能很好地工作，所以我们可以只选择一个并运行它！

最后，为了增强照片，我们只需运行一个简单的脚本:

python test_model.py model=iphone_orig \
                     test_subset=full \

瞧啊。您增强的专业照片将保存在visual_results文件夹中！

自己试试代码吧，很好玩的！查看照片增强后的效果。欢迎在下面发布链接，与社区分享您的照片。同时，这里有一些我自己测试的结果。

喜欢学习？

在 twitter 上关注我，我会在这里发布所有最新最棒的人工智能、技术和科学！

用 Python 制作 3 张简单的地图

原文：https://towardsdatascience.com/making-3-easy-maps-with-python-fb7dfb1036?source=collection_archive---------6-----------------------

在处理地理空间数据时，我经常需要以最自然的方式将这些数据可视化:一张地图。如果我们能够使用 Python 快速、轻松地创建您的数据的交互式地图，岂不是很好？在本教程中，我们将使用洛杉矶县所有星巴克咖啡店的数据集。在这篇介绍性文章结束时，您将能够创建:

洛杉矶县所有星巴克店的基本点地图
一张 choropleth 地图根据每家星巴克包含多少家星巴克来区分洛杉矶县的邮政编码
一张热图，突出了洛杉矶县星巴克的“热点”

我们开始吧！

你将需要…

蟒蛇包熊猫。这是用来在 Python 中轻松操作数据的
蟒蛇包叶子。这是用来非常容易地创建地图
洛杉矶县星巴克的经纬度电子表格(在我的 GitHub 上这里 )
一个洛杉矶县的 GeoJSON(基本上是描述复杂形状的 JSON)(此处为)和一个洛杉矶县所有邮政编码的 geo JSON(此处为 )

为了熟悉数据，下面是前几行的快照:

对于这个分析，我们只需要关心纬度、经度和邮政编码字段。

以下是所需的 Python 导入、加载 Starbucks 数据和加载 LA County GeoJSON:

基点地图

从我们的数据框架中的纬度/经度对创建洛杉矶县所有星巴克的基本点地图非常简单。

打开laPointMap.html，我们看到如下地图:

我们可以清楚地看到洛杉矶县所有的星巴克都是洛杉矶县区域内的小红点。当然，您可以自定义任何颜色和形状的点。

等值区域图

在用 Python 玩地图之前，我实际上不知道什么是 choropleth 地图，但事实证明它们在可视化聚合地理空间数据方面非常有用。

我们的 choropleth 地图将回答这个问题:“洛杉矶县哪个邮政编码有最多的星巴克？”。choropleth 地图根据其他变量的值(在我们的例子中是星巴克店的数量)对每个邮政编码进行着色。

让我们先来看看创建一个所需的基本代码:

因为我个人发现要理解如何将 choropleth 的所有组件放置到位更加困难，所以让我们来看看一个单独的视觉效果，看看它是如何工作的。

choropleth 需要知道为邮政编码 90001、填充什么颜色。它检查由数据字段引用的熊猫数据帧，搜索邮政编码的 key_on 列，并找到在列中列出的另一列，即 numStores 。然后它知道它需要填充对应于邮政编码为 90001 的 3 商店的颜色。

然后，它在由 geo_path 字段引用的 GeoJSON 中查找，并找到邮政编码 90001 及其关联的形状信息，这告诉它在地图上为该邮政编码绘制哪个形状。通过这些链接，它拥有所有必要的信息。让我们看看 laChoropleth.html 由此产生的 choropleth！

我们看到它在顶部有一个漂亮的颜色条供参考。

热图

在上面的 choropleth 地图中，我们看到洛杉矶南部地区似乎有更多的星巴克店，但我们能不能再具体一点？我们能不能找出附近哪里有很多星巴克店？基本上，让我们创建一个热图来突出显示洛杉矶县的星巴克“热点”。

热图中需要一些试错的主要参数是半径和模糊，前者控制每个星巴克店周围的圆圈有多大，后者控制圆圈“融合”在一起的程度。

较高的半径意味着任何给定的星巴克影响较宽的区域，而较高的模糊度意味着彼此相距较远的两个星巴克仍然可以对热点有所贡献。参数由你决定！

让我们看看 laHeatmap.html 的天气图。

嗯……很酷，但是看起来好像所有的东西都是红色的。如果放大，热图可能更有价值。让我们放大一点，看看我们是否能确定更具体的热点。

不错！从上面的地图可以很清楚地看出，我们有一些热点和一些非热点(notspots？)在地图里。一个突出的是在洛杉矶市中心的(可以理解)。****

也就这样了！我唯一的遗憾是，我还没有找到一种方法来嵌入这些地图的实际互动版本，所以我只能给你看截图。我强烈鼓励你通过这篇文章运行小代码来为自己玩交互式地图。这是一种完全不同的体验。

我希望这篇文章对你有所帮助，下一篇再见！

包含本分析中使用的所有代码的完整笔记本可以在我的 GitHub 这里找到。

让糟糕的图表不那么糟糕

原文：https://towardsdatascience.com/making-a-bad-graph-less-bad-b50653aff743?source=collection_archive---------38-----------------------

讲故事是人类相互交流的重要方式之一。为了讲述关于数据的故事，我们使用数据可视化，或者更简单地说，图表。

有一些可怕的图表，我们都见过。但是有更多的图表并不可怕，但仍然很糟糕。

前几天，在浏览我的脸书订阅时，我看到了《南佛罗里达州太阳哨兵报》的一篇关于枪支政治的文章。领先的数据可视化吸引了我的眼球——但不是以一种好的方式。颜色令人讨厌，东西相距太远，无法进行视觉比较，图表的风格也不太理想。

下图是:

Graphic from article in South Florida Sun Sentinel

让我们仔细看看是什么让这个图变得糟糕，看看我们是否可以让它变得不那么糟糕。

颜色

我注意到的关于视觉的第一件事是糟糕的颜色选择。虽然一开始用绿色表示“支持”和用红色表示“反对”可能有意义(就像交通灯的颜色)，但应该避免这种颜色组合——这是有充分理由的。众所周知，最常见的色盲类型是红绿色盲，即那些受影响的人不能(或有困难)区分红色和绿色。如果你不能区分这两种颜色，这个图形是没有用的，或者说是令人困惑的。12 个男人中有 1 个，200 个女人中有 1 个患有色盲，红绿组合是一个糟糕的选择。

我开始想象用其他颜色组合的图表会是什么样子。我的第一个想法是:蓝色和橙色怎么样？这是一个常用的数据可视化配对，主要是因为它看起来很简单。但是当我意识到蓝橙色不适合这个图表时，我失望地叹了口气。所代表的数据与攻击性武器禁令的支持程度有关，这是一个不可否认的政治话题。由于蓝色通常用于民主党，红色用于共和党，使用这两种颜色都不是一个好主意。虽然民主党人更可能是支持者，而共和党人更可能是反对者，但用颜色暗示这些事情总是形影不离并不是一个好主意。

所以如果我不能用红色或蓝色，还剩下什么？我可能想待在室内，因为室外的颜色有时会让人分心，所以让我们试试绿色和橙色。从美学角度来看，这不是我最喜欢的选择——但总比不好好。

对比

这个图形恳求观众进行视觉比较，但这并不总是容易做到的。在图中，有三个相关的图形。上面的图表显示了所有佛罗里达人支持和反对攻击性武器禁令的比例，以及不知道或没有答案的人的比例。这是另外两个图表的比较点，这两个图表按性别和政党显示了支持、反对和未决定的比例。但是我的眼睛很难比较。当我试图评估无党派人士的支持水平是高于还是低于所有佛罗里达人的支持水平时，我可以感觉到我的眼球上下跳动。这些项目需要更紧密地结合在一起，以使观众能够合理地做出这些判断。

我也发现比较每个小组中反对者的百分比很有挑战性。比较支持者的百分比要容易得多，因为所有这些棒线都从同一点开始，都是 0%。由于对立类别的棒线都是从稍微不同的点开始，比较它们的长度就更加困难了。支持数据比反对数据更容易比较，这一事实暗示着支持数据可能比反对数据更容易理解，我认为这是一个不公平的假设。

我看到了两种可能的选择，让对立群体之间的比较更容易理解。选项 1:切换每个条形的反对组和未决定组的顺序。该触发器将使观察者能够更快地比较相对条的长度，因为它们都是右对齐的。互换进一步改善了图表，将各组放在一个从积极到消极的尺度上，在支持和反对之间犹豫不决，因为它自然下降。

选项 2:构建一个分组条形图，而不是堆叠条形图。这种类型的图形可能会简化对立物之间的视觉比较，因为所有棒线都从 0%开始。在这个选项中，理解对立数据的重要性与理解支持数据的重要性是同等的。

相同的数据，不同的视觉

下一步是接受不好的事情，让它变得更好(嗯，至少让它变得不那么坏)。我试图改善颜色，让东西更容易比较。这是我的设想:

几个显著的变化:(1)绿色和橙色，而不是绿色和红色，以及(2)两个并排的分组条形图，用水平线显示总体比例，而不是三组堆叠的水平条形图。

我意识到在我的新视野中有些东西丢失了。从表面上看，我的版本不太圆滑。我是一名初露头角的数据科学家，在这一点上，我主要使用 matplotlib 作为我的视觉效果。更实质性的是，关于未决定的群体的信息已经没有了。为了更清楚地比较支持者和反对者，我选择放弃强调每个群体的总和总是 100%。

请让我知道你的想法！我的目标是学习，我将非常感谢任何和所有的反馈。

用 Python 制作一个让孩子学习英语并从中获得乐趣的游戏

原文：https://towardsdatascience.com/making-a-game-for-kids-to-learn-english-and-have-fun-with-python-d6b54af792ec?source=collection_archive---------21-----------------------

目标

为 2-6 岁的孩子建立一个互动游戏，学习英语词汇并从中获得乐趣。(GitHub 链接这里是)。)

这样做的原因

女朋友的姐姐有一个可爱的儿子，是幼儿园的孩子。他喜欢玩，而且精力充沛。像往常一样，就像其他孩子一样，他不喜欢阅读，更不用说说英语了。基于此，我想到为他制作一个游戏，练习他的记忆技巧，教他词汇，最重要的是，享受学习的过程。

游戏流程理念突破

好吧，这是游戏计划。

一个单词会显示几秒钟，孩子必须记住这个单词。假设这个词汇是“狗”。
将生成六个英文字符，并以随机顺序排列。例如，“A”、“C”、“G”、“D”、“P”和“O”。
孩子必须选择所显示的单词的正确顺序。
将显示 vocab 的图像并播放发音。

Game Design Paper Prototype

第一步——英语词汇列表

老话说，核桃和梨是你为你的继承人种下的。要制作这个游戏，一系列的英语词汇是必须的。除了自己从牛津词典中搜集资料，我们还可以利用他人的成果。所有的荣誉归于 gokhanyavas 。我们可以直接从这里下载词表。

*from urllib.request import urlopen
with urlopen('[https://raw.githubusercontent.com/gokhanyavas/Oxford-3000-Word-List/master/Oxford%203000%20Word%20List.txt'](https://raw.githubusercontent.com/gokhanyavas/Oxford-3000-Word-List/master/Oxford%203000%20Word%20List.txt')) as f:
    word_list = [x.decode('utf-8') for x in f.read().splitlines()]*

导入词表后，还要做一些预处理工作。

删除带有符号和空格的单词

*import re
# Substitute Symbols with Spaces
word_list= [re.sub('[-.]',' ',word) for word in word_list]# Remove Words with Spaces
word_list= list(filter(lambda x: ' ' not in x, word_list))*

把单词改成小写

*# Change to Lower Cases
word_list= [word.lower() for word in word_list]*

保留 3 到 4 个字符的单词(因为这个游戏是给孩子玩的，我们不能让单词太长，对吗？)

*# Keep the Words with 3 or 4 Characters
word_list = list(filter(lambda x: len(x) in [3, 4], word_list))*

检查单词的词性。我们只保留以下:
CD(基数)/ JJ(形容词)/ NN(名词)/ VB(动词)

*import nltk
# List of Part-of-Speech
pos_list = [nltk.pos_tag([word])[0][1] for word in word_list]
# List of Word Length
len_list = [len(word) for word in word_list]import pandas as pd
# Data Frame
word_df = pd.DataFrame({'Word': word_list, 
                        'POS':pos_list, 
                        'Len': len_list})# Keep CD / JJ / NN / VB
word_df = word_df[word_df['POS'].isin(['CD','JJ','NN','VB'])]*

最终，我们可以得到这样一个数据框:

word_df

第二步——词汇发音

有了单词列表后，我们需要词汇发音 mp3 文件，这样游戏就可以教孩子们正确地发音。简单地说，我们将充分利用谷歌文本到语音包。

*from gtts import gTTS
import os.path
if not(os.path.isdir('Audio')):
    os.mkdir('Audio')
    print('Audio is downloading. It may take a few minutes.')
    for word in list(word_df['Word']):
        audio_save_path = 'Audio/'+ word + '.mp3'
        gTTS(text=word, lang='en', slow=False).save(audio_save_path)*

English Words Audio Files

第三步——词汇卡通图片

除了声音之外，图像对于留下深刻印象和吸引孩子也至关重要。在这个游戏中，我使用从谷歌下载的图片。您也可以使用 Unsplash 或其他图像源。

*from google_images_download import google_images_download
from shutil import copyfile
from os import listdir
import shutil
if not(os.path.isdir('Image')):
    os.mkdir('Image')
    print('Audio is downloading. It may take a few minutes.')
    for word in list(word_df['Word']):
        response = google_images_download.googleimagesdownload()
        response.download({"keywords": word,
                           "limit": 1,
                           "output_directory":'Temp_Image',
                           "suffix_keywords":'cartoon image'})
    img_dir_list = listdir('Temp_Image')
    for img_dir in img_dir_list:
        initial_path = os.path.join('Temp_Image', img_dir)
        file_name = listdir(initial_path)
        if len(file_name) != 0:
            file_path = os.path.join(initial_path, file_name[0])
            final_path = os.path.join('Image', img_dir[:4].rstrip() + os.path.splitext(file_name[0])[1])
            copyfile(file_path, final_path)
    shutil.rmtree('Temp_Image')*

English Words Image Files

感谢上帝！所有的准备工作都完成了，接下来是最激动人心的部分——制作游戏。

第四步——智力游戏

在这个例子中，我使用 PyGame 来制作游戏。Pygame 是一套跨平台的 Python 模块，设计用于编写视频游戏。它包括设计用于 Python 编程语言的计算机图形和声音库。

有一些技巧，然后你可以学习和创造自己的游戏。

游戏初始化

*import pygame# Game Init
pygame.init()
win = pygame.display.set_mode((640, 480))
pygame.display.set_caption("KidsWord presented by cyda")run = True
while run:
    pygame.time.delay(100)
    for event in pygame.event.get():
        if event.type == pygame.QUIT:
            run = False
    pygame.display.update()
pygame.quit()*

要开始游戏，我们需要一个游戏窗口。有两件事情需要设置。

窗口大小-示例:(640，480)
窗口显示名称-示例:“cyda 提供的童剑”

添加背景颜色

*win.fill((59, 89, 152))*

RGB 颜色-示例:(59，89，152)

添加文本

*font_1 = pygame.font.SysFont('impact', 55)
font_2 = pygame.font.SysFont('Arial', 25)
win.blit(font_1.render('KidsWord', False,(242, 242, 242)),(215, 45))
win.blit(font_2.render('Presented by cyda', False, (212, 216, 232)), (350, 135))*

要添加文本，您必须指定以下参数。

字体样式-示例:“影响”
字体大小-示例:55
字体颜色-示例:(242，242，242)
字体位置-示例:(215，45)

添加几何形状

*pygame.draw.rect(win, (255, 255, 255), (270, 250, 85, 40))*

以画矩形为例，我们必须指定

形状颜色-示例:(255，255，255)
形状位置-示例:(x_upperleft，y_upper_left，x_bottomright，y_bottom_right)= (270，250，85，40)

添加可点击按钮

事实上，没有正式的或官方的功能让你创建一个按钮。因此，我们必须以一种巧妙的方式来做这件事。

1.定义可点击的按钮区域

*button_area = pygame.Rect(270, 250, 85, 40)*

2.定义触发功能

*def button_pressed():
    win.fill((255, 255, 255))
    win.blit(font_1.render('Page 2', False, (0, 0, 0)), (230, 240))*

3.添加鼠标点击事件

*if event.type == pygame.MOUSEBUTTONDOWN:
    mouse_pos = event.pos
    if (button_area.collidepoint(mouse_pos)):
        button_pressed()*

添加计时器

在一个游戏中，计时器是你没有机会摆脱的必要元素。例如，如果玩家不能在一定时间内完成任务，他/她可能会输掉游戏。在我的情况下，我会在时间结束后切换页面。

要设置定时器，请遵循以下步骤:

1.初始化时间参数

*font_3 = pygame.font.SysFont('impact', 120)
clock = pygame.time.Clock()
pygame.time.set_timer(pygame.USEREVENT, 1000)
page = 0
time_limit = 3*

2.更改鼠标点击事件

*if event.type == pygame.MOUSEBUTTONDOWN:
    mouse_pos = event.pos
    if (button_area.collidepoint(mouse_pos)):
        time_count = time_limit
        page = 1
        button_pressed()
if page == 1:
    if event.type == pygame.USEREVENT:
        time_count -= 1
    time_text = int(time_count)
    if time_text > time_limit:
        time_text = time_limit
    pygame.draw.rect(win, (59, 89, 152), (420, 50, 100, 160))
    win.blit(font_3.render(str(time_text), True, (242, 242, 242)), (440, 50))
    pygame.display.flip()
    clock.tick(60)
    if time_count < 0:
        win.fill((255, 255, 255))
        win.blit(font_1.render('Page 2', False, (0,0,0)), (230,240))*

添加图像

*image = pygame.image.load('car.png')
image = pygame.transform.scale(image, (600, 300))
win.blit(image, (25, 150))*

PyGame 有一个直接加载图片的功能。但是，你要提醒两件事。

不允许使用动画图像。
你最好转换图像比例，以便更好地适应你的窗口大小。

播放音频

可以导入 PyGame 支持的混音器模块来播放音频文件。

*from pygame import mixer
mixer.init()
mixer.music.load('car.mp3')
mixer.music.play()*

这些都是我用来建造这个奇妙游戏的技术。而现在，女朋友的表妹愿意坐下来，也爱学英语。

编辑的话

写一篇教程文章并不容易，而且费时。如果你喜欢阅读它，并且觉得它很有用，请分享给你的朋友。将来，我们会发布一系列的教程文章，敬请关注！=)

还有，如果你有兴趣了解更多的窍门和技巧，欢迎你浏览我们的网站:【https://cydalytics.blogspot.com/

领英:

杨皇-https://www.linkedin.com/in/yeungwong/

罗嘉丽-https://www.linkedin.com/in/carrielsc/

其他文章

如何制作一个可以查看交易图表的人工智能(并用于交易)

原文：https://towardsdatascience.com/making-a-i-that-looks-into-trade-charts-62e7d51edcba?source=collection_archive---------0-----------------------

Photo by Rick Tap on Unsplash

我们生活在一个大多数事情越来越依赖于计算机视觉和深度学习的世界。从自动标记你夏天的照片到安全摄像头的面部检测，感觉我们生活在一个反乌托邦的未来。

虽然人工智能革命仍在我们身边发生，但对我来说，2019 年的春天是有趣的时刻。在完成一门深度学习课程后，我开始修补深度学习的许多不同用例，如图像分类到自然语言处理(NLP)。在花了几个小时使用 Python 和 Keras 库之后，我训练了一个简单的卷积神经网络(CNN ),它能够区分猫和狗的图像。听起来很简单，几年前这是一个巨大的任务，我很难相信简单的神经网络如何解决一个复杂的问题！通常，如果你想使用 CV 库进行图像识别，你必须进行特征工程，开发你自己的过滤器，并将许多特征硬编码到代码中。即使经过多次尝试，你也只能得到一个大约 60-70%准确的算法，这与我们今天用机器学习所能做到的相差甚远。

Deep Learning Methods Looks into Pictures as Matrices

我完全被深度学习的简单性惊呆了。首先，我定义了一个非常简单的 CNN 架构，然后用猫和狗的图像标记我的数据集。之后开始训练，观察训练精度和验证精度的上升，直到达到令人满意的指标。就是这样！！接下来，加载您的模型和权重文件，然后使用您想要预测的文件运行 model.predict 命令。结果是正确的分数！

深度学习的简单性和准确性简直太棒了！

大约在同一时间，我对经济学和当日交易产生了兴趣。我开始阅读雷伊·达里奥的 生活和工作原则。 (如果你还没看，我只能推荐)

Principles by Ray Dalio

在他的书中，他谈到了他的公司如何创造出专有的算法，做出财务决策来管理他的对冲基金，并成为世界上最成功的基金之一。虽然这个故事非常鼓舞人心，但它让我开始思考，我们不要教计算机任何东西，让它自己解决问题怎么样。与过去计算机视觉的特征工程不同，深度学习还可以用于创建算法，这些算法决定何时买卖股票、外汇、石油以及你能想到的任何东西。

如果数据中有一个模式，你不需要自己去发现，它会被深度学习发现，这就是 Inpredo 项目的开始。

Charts, more charts!

第一步。创建培训数据:

所以在我们进去创造一个赚钱机器之前(小心我过于乐观的评论。)我们需要训练数据。很多！

感谢上帝，这不会很难，因为我们已经从上面的链接访问 CSV 数据。我们需要做的只是创建一个算法，该算法能够查看历史数据，并创建图表，然后根据工具(例如欧元/美元)价格在未来是上涨还是下跌对其进行分类。因为我们有历史数据，我们知道在数据时间范围内的任何给定时间价格发生了什么，所以很容易对生成的图表图像进行分类。

创建图表是容易的部分，我们需要几个库和我为此创建的函数，这个函数叫做 graphwerk.py(发电厂乐团，有人知道吗？)

所以 graphwerk 非常简单，你只需要以列表格式插入所选乐器的历史数据。我们将印刷覆盖 12 小时/蜡烛的图表。所以你的列表长度必须是 12。如果你想覆盖更大的时间范围，那么你需要增加你的列表长度。关于粒度，您可以选择每小时、每天甚至每分钟的数据。如果你想用更多的蜡烛来打印图表，这是完全没问题的，但是我不想在训练数据中引入太多的噪音。

import matplotlib.pyplot as plt
import mpl_finance
import numpy as npdef graphwerk(open, high, low, close, instrument):
    # Create Prefixes for correct data
    if instrument == 'XAU/USD':
        prefix = 'xau'
    elif instrument == 'USOil':
        prefix = 'USOil'
    elif instrument == 'XAGUSD':
        prefix = 'xag'
    else:
        print('Instrument prefix is not defined in graphwerk')
        return

    fig = plt.figure(num=1, figsize=(3, 3), dpi=50, facecolor='w', edgecolor='k')
    dx = fig.add_subplot(111)
    mpl_finance.candlestick2_ochl(dx, open, close, high, low, width=1.5, colorup='g', colordown='r', alpha=0.5)
    plt.autoscale()
    # Create a moving average overlay

    sma = convolve_sma(close, 3)
    smb = list(sma)
    diff = sma[-1] - sma[-2]

    for x in range(len(close) - len(smb)):
        smb.append(smb[-1] + diff)

    dx2 = dx.twinx()
    dx2.plot(smb, color="blue", linewidth=8, alpha=0.5)
    dx2.axis('off')
    dx.axis('off')

    timestamp = int(time.time())
    file_name = realtime_data + str(prefix) +str(timestamp) + '.jpg'
    plt.savefig(file_name, bbox_inches='tight')
    #Uncomment this line to see the plot right after script runs.
    #plt.show
    plt.close()
    return file_name

运行该脚本后，它将创建如下所示的图表:

XAU/USD Chart with the past 12 hours data.

我知道图像尺寸很小，但对于深度学习，你不需要 4K分辨率的照片或图表。对于大多数人工智能深度学习应用程序来说，大约 200x200 像素已经足够了。事实上，使用较小尺寸的图像是一件好事，因为为深度学习提供 4K 图像最终将需要一个超级昂贵的 GPU 集群，如新的英伟达 DGX，价格约为 2 万美元。深度学习的酷之处在于，如果你很聪明，你可以使用分辨率较低的图像来大幅降低处理能力，而这些图像仍然携带相同数量的信息:)

如果你也可能注意到了，酒吧看起来并不像现实生活中的样子。原因是我故意操纵它们，在蜡烛之间嵌入额外的信息，降低它们的透明度。这就产生了重叠的蜡烛，这些蜡烛也可以在蜡烛重叠区域的混合颜色中携带信息。

在这个半透明蜡烛的顶部有一个简单的移动平均线(SMA ),当它穿过蜡烛时，透明度也会降低，以创建附加信息。您可以随意改变形状、大小和透明度，以创建完美的训练数据集。

步骤 2:为训练数据集创建 10000 幅图像

所以上面的脚本对于创建单个图像来说是很棒的，但是我们需要更多来训练一个神经网络。我说的是这里有几千个。所以作为开发人员，我们不只是点击按钮一千次，对不对？我们需要自动以滚动时间窗口的方式检查整个 csv 文件，并自动将图表图像放置在正确的文件夹中，如“购买”和“出售”。逻辑非常简单，定义时间窗口 12，(这意味着每小时 csv 文件中的 12 小时窗口)，并在 for 循环中的每个循环中将窗口向前移动 1 小时。通过这种方式，我们将能够根据历史数据的大小创建足够数量的样本。

为了能够创建足够数量的训练数据，您只需要以下格式的干净 csv 数据，然后剩下的只是等待脚本完成对数据的完整循环。您将需要为此创建 2 个文件夹，最终将填充 2 种类型的数据:购买和出售。当最后一根蜡烛线的收盘价低于下一根蜡烛线的收盘价时，创建的图表将被保存到“买入”文件夹中。换句话说，如果最后一根蜡烛线的收盘价高于下一根蜡烛线的收盘价，那么“卖出”文件夹将包含图表图像。

第三步:训练一个简单的卷积神经网络

在创建数据集之后，我们需要定义一个神经网络架构，然后输入训练数据来训练神经网络，以区分可能的买入或卖出信号之间的差异。

如果你已经注意到，我不是在谈论任何一种策略或某种算法设计来找出这些模式。人工智能的神奇之处在于，它会自己找出模式。

目前，有许多不同种类的卷积网络架构设计用于图像分类。Xception 是获奖产品之一，但我们不会使用目前先进的产品。

我们的模型将是一个基本的卷积网络，具有丢弃层和全连接层，如下所示:

model = Sequential()
model.add(Convolution2D(nb_filters1, conv1_size, conv1_size, border_mode ='same', input_shape=(img_height, img_width , 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(pool_size, pool_size)))

model.add(Convolution2D(nb_filters2, conv2_size, conv2_size, border_mode ="same"))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(pool_size, pool_size), dim_ordering='th'))

model.add(Convolution2D(nb_filters3, conv3_size, conv3_size, border_mode ='same'))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(pool_size, pool_size), dim_ordering='th'))

model.add(Flatten())
model.add(Dense(1024))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(classes_num, activation='softmax'))

model.summary()
model.compile(loss='categorical_crossentropy',
                      optimizer=optimizers.rmsprop(),
                      metrics=['accuracy'])

结果

经过无数个小时摆弄参数和创建，减少，过滤训练数据，人工智能模型能够在 2 年的数据集内以 63%的准确率进行“猜测”！

就像所有正常人会做的那样，我把这个人工智能模型插入了 kraken 的实时交易引擎，进行 BTC 对美元的交易，希望能赚些钱，讲述暴富的故事。顺便说一下，如果你想进入 API 交易，我只能推荐北海巨妖。它们是受监管的交易所，拥有安全稳定的 API。

Have an idea regarding to AI and Machine Learning? Book a time with me and let’s see what we can do together!

非常有趣的是，它真的赚了钱在这个时间段内连续 10 天达到了%5.34 的涨幅。与此同时，BTC 兑美元下跌了%3.29！

所以最酷的是，不管市场是涨是跌。它只是根据情况来缩短或拉长乐器。因此，即使在市场上所有东西都在贬值的情况下，这种模式仍然能够赚钱。

Holy sh.t, it works moment

由于 digitalocean 的超级易用的虚拟机部署，在创建此类模型以持续运行 bot 后，我每月的总支出约为 15 美元。你也可以试试下面的促销代码并获得 100 美元的信用点数来启动一台虚拟机。这相当于 3 个月的免费使用。只需选择一个一键部署的 ubuntu 部署，并使用我在文章末尾附上的 github repo。

所以我写这篇文章的原因是想告诉你还有很多事情需要去做。预测一只股票是涨是跌只是故事的一半。如果你不知道股票上涨或下跌的百分比是多少，这不会有多大帮助，因为你不知道何时兑现你的收益。

所以显然这个人工智能模型需要随着时间的推移而改进。考虑到人工智能模型需要定期更新以适应不断变化的市场条件也是很好的。

来自《走向数据科学》编辑的提示: 虽然我们允许独立作者根据我们的 规则和指导方针 发表文章，但我们并不认可每个作者的贡献。你不应该在没有寻求专业建议的情况下依赖一个作者的作品。详见我们的 读者术语 。

如果你想自己运行代码，看看结果，看看 github 页面:https://github.com/cderinbogaz/inpredo

Have a project idea to discuss? You can book a time with me using the link above.

查看我在 Medium 上的其他项目和文章:

免责声明:如果你用我的代码用自己的钱在市场上交易，我不对你的损失负责。注意安全，不要去冒自己没有完全理解的风险。

从 Youtube 视频制作影像数据集

原文：https://towardsdatascience.com/making-an-image-dataset-from-youtube-videos-5116252d20a3?source=collection_archive---------11-----------------------

如何用逼真的图像改善你的深度学习数据集？

深度学习模型的好坏取决于你提供给它的数据。这就是为什么花足够的时间收集大量的好数据是非常重要的。我所说的“好”是根据手头的问题而变化的。确定你的数据是否合适的一个有用的技巧是考虑用户的输入会是什么样子。这是一个重要的问题，尤其是在处理图像时。光线、对比度、方向、图像质量和视角可能会有很大差异，不考虑这些差异会在预测中产生巨大的误差。例如，如果你想使用你的模型制作一个手机应用程序，不要只在专业相机拍摄的图像上训练它。尝试减少对训练数据的这种偏向的一组好的技术是数据扩充，但是我在这里不详细说明。

编辑(2021 年 2 月) : Youtube 更改了他们网站的源代码，因此get_urls功能不再工作。其余的代码工作正常(最新版本在我的 github 上),所以唯一的问题是获得一个视频 URL 列表。以下是一些建议:

手动收集一个 URL 列表，用它代替get_urls的结果。这样做可能很烦人，但肯定有效。
用 Selenium 刮 Youtube，得到一些网址。考虑到网站现在的编码方式，这可能会很复杂，但应该是可行的。
使用 Youtube API 获取给定关键字的视频列表。这个 API 非常容易使用。唯一复杂的步骤是使用谷歌账户设置凭证。

如果您需要这些建议的帮助，请联系我:)

抓取图像

这篇长长的介绍说明了数据收集的重要性，并且存在许多工具和数据来源。在这篇文章中，我把重点放在图像上，因为我最熟悉这个话题。当试图收集特定主题的图像时，首先想到的是使用 Beautifulsoup 和 Selenium 等库来抓取谷歌图像。其实我写了这样一个刮刀，你可以在这里找到。然而，在谷歌上可以找到的图片数量是有限的，而且它们通常有相似的风格，如果这种风格不是你感兴趣的风格，这可能是一个问题。

Amateur image of hockey players (left) vs pros (right)

第二个较少被讨论和使用的数据来源是 Youtube。当我从斯坦福大学的人们那里找到一个很好的数据集时，我被激励去研究这个主题，这个数据集可以在这里找到。这是一个超过 100 万个 Youtube 视频链接的集合，涉及近 500 项运动。这在正确的时间落到了我身上，因为我正在研究一个体育分类器，它是根据从谷歌上搜集的图像进行训练的。这个模型有上面提到的问题，它在干净和专业的图片上工作得很好，但在业余爱好者的图片上工作得很差。

因此，这篇文章的想法是描述我如何使用 python 从 Youtube 视频中收集图像。主要步骤是在 Youtube 上搜索一个查询，并收集一部分结果视频作为链接。然后程序下载视频(这可能需要很多时间和数据，取决于你的互联网连接)并保存在本地。然后，在删除视频之前，每个视频被用来提取一定数量的帧，这些帧被保存。这种技术让我能够收集到更真实的图像，但当然，之后还要进行一些手动过滤，因为视频包含了很多额外的视觉效果。显然，这种数据来源更受限制，但它应该对许多主题有用。

代码

这个程序的代码实际上很简单，是由我从互联网上收集的一些小片段组成的。然而，我找不到一个从头到尾都能做我想做的事情的程序，所以我不得不自己连接这些步骤。完整的代码可以在我的 github 上找到并下载。

第一步是导入运行代码所需的所有库。

大部分都是相当标准的，都是 python 自带的。只需使用 pip 就可以获得需要安装的额外组件。分别是:BeautifulSoup 抓取 Youtube 网站并提取链接，pytube 下载视频，OpenCV 从视频中提取图片。

完成后，下一步是创建第一个函数，它在 Youtube 上搜索一个单词或短语，并返回视频的 URL。

构建它的第一步是将查询词/短语转换成 url，以防它包含空格或重音符号之类的东西。Youtube 搜索是通过在 url 中包含查询来完成的，使用 urllib 和 BeautifulSoup 从结果页面中提取 html。后者再次用于查找视频的链接，并将它们添加到列表中，直到达到该函数所请求的最大数量，以便返回该列表。关于 BeautifulSoup 是如何工作的，请看这篇文章。

收集完视频的 URL 后，下一个函数将它们下载到本地系统。再次请注意，这可能会占用你的下载限制很多，如果你有一个。

这是 pytube 库的一个简单应用(参见文档)。该代码只下载特定长度的视频和. mp4。视频的长度隐藏在返回的深处，所以我必须挖掘才能找到它。有很多方法可以获得这类信息，但它们对我不起作用。视频被下载到指定位置或当前工作目录。最后，所有代码都嵌入在 try 语句中，因为有许多视频在被请求时会导致错误。在这种情况下，脚本只是不下载视频并打印错误消息。

一旦视频下载完毕，就可以使用 OpenCV 提取图像了。这是一个相当大的图像处理库，可以做很多事情，但我只用它来做一个非常基本的任务。关于这个强大工具的更多细节，我推荐这个系列教程。

这将 mp4 文件的路径和保存图像的文件夹作为输入，如果还不存在的话就创建一个。使用 OpenCV 打开视频，捕捉图像并保存到正确的位置。通过尝试打开文件进行测试，只是为了确保图像没有损坏，在这种情况下，它会被删除。然后，视频快进指定的时间量，并且该过程继续，直到拍摄了最大数量的图像或视频结束。

图像根据输入中的名称进行标记，起始编号由一个自制函数确定。这是一个非常简单的函数，可以找到像“name_##”这样命名的文件的最大标签。jpg”以便不覆盖现有的图像。代码可以在 github repo 上找到。

该程序的最后一步显然是将所有内容合并到一个函数中，该函数接受一个查询词或短语，并最终将提取的图像保存在一个漂亮的文件夹中。

该函数查找 URL 并将视频下载到当前工作目录。然后，它会检查目录中的所有. mp4 视频，并从每个视频中提取正确数量的图像。使用过的视频之后会被删除，以避免重复使用和浪费磁盘空间。为了达到这篇文章的目的，唯一需要使用的函数是 extract_images_from_word。

Example of image scraped from Youtube about hockey

用网络摄像头制作艺术品

原文：https://towardsdatascience.com/making-art-with-your-webcam-ac6d0f5504f4?source=collection_archive---------15-----------------------

一个风格转移的实现和解释，慢和快。

Starry Stanford

几千年来，人类文化的一个真正重要的特征是我们的艺术。没有其他物种能够创造出甚至有点像利奥·达芬奇或梵高的画的东西。甚至许多人在创作这种质量的艺术时都有困难。直到最近，随着神经风格转移的引入，我们能够获取一幅图像的风格，然后将其应用于另一幅图像的内容。这使得计算机有能力创建如上图所示的图像，这是一张由梵高绘制的斯坦福大学胡佛大楼的照片，以星夜为风格。在这篇文章中，我将谈论神经风格转移，然后是快速风格转移。

(Left: Starry Night by Van Gogh) — (Right: Hoover Tower)

内部运作

在计算机视觉领域，卷积神经网络一直用于从自动驾驶汽车到医疗诊断的各种应用。如果你想了解更多关于它们是如何工作的，请查看我写的关于我如何建立一个皮肤损伤分类工具的文章，这里。一旦你读过这些，你就会知道 CNN 由卷积层(检测图像中的模式和对象)和最终的全连接层(预测)组成。我们在这里真正寻找的是通过卷积层捕获的信息。

在预先训练的 CNN(如 VGG19 网络)中，前 16 层是卷积层，用于捕获特征。

Conv1_1 until Conv5_4 are all used for feature extraction. Source.

最后一对层(FC1、FC2、softmax)仅用于返回图像中存在的不同对象的概率。我们实际上不需要这些图层来进行风格转换，因为我们不会对图像进行分类。靠近网络起点的层可以学习诸如边缘和拐角之类的真正低级的特征。在网络中向上移动，我们得到诸如形状的特征，直到我们最终达到高级特征，这些高级特征是整个对象，例如人的脸或动物的形状。

Features at different levels in a CNN. Source.

我们这里的目标是将某个图像的风格，以及某个图像的内容，转移到一个新的图像风格化的图像。为了实现这种双重优化，我们需要计算两次损失。一次为风格，一次为内容。

Content Loss Function

内容损失是通过测量 CNN 的输出图像与地面真实图像的相似性(欧几里德距离)来计算的，地面真实图像是它试图达到的目标。由于 CNN 中的特征地图只是一大串数字，所以它们可以用高维向量空间来表示。这意味着计算网络输出向量与地面真实向量之间的距离非常简单。我们可以从预先训练的网络(如 VGG16 网络)中检索该特征图。根据我们从网络的哪个部分获取特征地图，输出图像看起来会有所不同。如果我们选择一个真正在网络深处的层，很有可能，我们会得到一个看起来更抽象的输出图像。

Gram Matrix

风格损失依赖于一个叫做 Gram 矩阵的数学对象。Gram 矩阵是一个向量的所有可能内积的矩阵，它非常擅长捕捉非本地化信息。因此，它从图层中的要素地图获取所有信息，并去除该信息在图像中的空间位置。基本上，这是用来提取一个图像的风格。然后，通过再次测量输出图像的 gram 矩阵与风格目标之间的相似性来计算风格损失。

Style Loss Function

我们可以改变风格和内容重建的权重，以获得风格不同的图像。

Changes in weights reflecting on output.

现在快点

很好，现在我们有了一个风格转换的方法，但是速度的问题仍然是一个问题。这是由于模型的架构，减少损失是一个缓慢的迭代过程，无法实时应用。在约翰逊等人的论文中提出了一个解决这个问题的非常聪明的方法。他们没有获得一个图像并将其优化为风格化，而是创建了一个神经网络，可以直接输出风格化的图像。这个流程在几个方面有所不同。不是输入两个图像(内容、风格)并获得风格化图像的迭代输出，而是使用快速风格转换，根据网络的训练内容，输入一个图像并获得预定风格的快速输出。当然，这意味着你仍然要训练一个网络，但是对于你想使用的每一种风格只训练一次。该网络的结构如下图所示。

The architecture of the network.

这里，我们从特定层(3)计算生成的图像和风格化图像之间的内容损失。然后我们计算每个特征图的风格损失。然后，我们将这两个损失结合起来，形成一个整体损失。我们现在可以使用梯度下降来训练这个网络，以最小化这种全局损失。这是一个非常简单的过程，但你可以从中获得一些真正令人惊叹的艺术作品！它还将图像生成过程的速度提高了 1000 倍，同时生成了与标准神经类型转移非常相似的定性结果。你可能已经注意到这个网络有两部分，图像转换网络和损耗网络。

图像变换网络

这是一个简单的 CNN，具有用于网络内下采样和上采样的残差块和步进卷积。这导致输出与输入大小相同。用特征重构感知损失而不是每像素损失来训练该网络。等等…什么是知觉丧失？与更传统的每像素损失相比，它基于从预训练网络中提取的高级图像特征表示之间的差异，而不是图像中单个像素的差异。当我们试图重建图像时，每像素损失有两个问题，它们真的很慢，即使一张照片在视觉上可能与地面真相非常相似，但在数学上它们可能相差很远。这导致在试图修复这些不可见的更改时浪费了大量资源。

损耗网络

这只是一个权重被冻结的亏损网络。我之前解释过了。这个网络基于 VGG16 loss 网络，在微软的 COCO 数据集上训练，该数据集是日常生活中成千上万个常见物体的集合。

如果你想深入了解这一切是如何运作的，你应该阅读提出这个想法的原始研究论文。

这个新网络让我们风格化、实时化。

你可以在我的网站上玩这个游戏。整个事情的代码可以在我的 Github repo 上找到，是用 ML5JS 的风格转换文档制作的，也是基于 deeplearnjs 的。

另一个非常酷的演示是 NVIDIA 的快速照片风格算法，它可以创建照片般逼真的图像，这是风格化的。你可以查看它的源代码，这里。

NVIDIA’s Fast Photo Style Algorithm

后续步骤

虽然这种技术已经很好地工作了，但在我们可以用它做什么方面仍然有一些缺点。仍然没有算法可以接受两幅输入图像并对它们进行风格转换。像这样的技术可能会导致 AR 技术领域的一些疯狂的发展，并可能成为艺术家的宝贵工具！

如果你喜欢我的文章或者学到了新东西，请务必:

在 LinkedIn 上与我联系。
给我发一些反馈和评论(aryanmisra@outlook.com)。
看看这篇文章所基于的两篇论文(这里是这里是，这里是这里是)。
去我的网站上玩一个快速风格转换的现场演示吧。

用 Python 制作艺术地图

原文：https://towardsdatascience.com/making-artistic-maps-with-python-9d37f5ea8af0?source=collection_archive---------8-----------------------

PYTHON 地图

岩石粉笔 Jayhawk！

Streets of Lawrence, Kansas colored by their length.

目的:我们将学习如何使用来自 OpenStreetMap 的数据用 Python 构建地图。

材料和方法:为了获取我们的数据，我们将使用 OSMNX Python 包。然后，我们将对检索到的数据进行解包，并根据街道的长度为每条街道分配一种颜色。然后使用 OSMNX 功能将数据可视化。最后，我们应用某些调整，使地图美观。

注意:如果你是从零开始，我会建议你按照这篇文章安装所有必要的库。这篇文章的全部内容可以在我的 GitHub 上找到。欢迎你来叉它。最后，为了更好地理解这篇文章，请在 PC 或 Mac 上用大显示器查看，这样你就可以看到地图的细节。

作者的一句话

OSMNX Python 包由 Geoff Boeing 编写，可用于从 OpenStreetMap 中检索、建模、分析和可视化街道网络和其他空间数据。

您可以尝试使用 Anaconda 安装 OSMNX 包，但是，您最终可能会获得一个旧版本的 OSMNX，并且本文中的所有代码都将无法工作。我建议你访问 Geoff Boeing Github 这里并下载这个包的最新版本到你的机器上。完成后，将 OSMNX 文件夹放在工作目录中。您的工作目录应该如下所示:

Figure 1 — Working directory with the OSMNX package.

如果你比我聪明，并且能够使用 conda 或 pip 命令安装 OS mnx 0.11 版，请发表评论。我想把这一步从流程中去掉。

导入库

让我们从导入我们需要的所有库开始。

Script 1 — Importing libraries.

如果你有任何问题，让我们用 Anaconda 安装缺失的包来解决。我将只讨论不常用的包，因为很可能你已经安装了 Pandas、Matplotlib 和其他广泛使用的包。

打开 Anaconda 提示符并导航到所需的 conda 环境。

要安装用于创建、操作和研究复杂网络的网络，请运行:

conda install -c anaconda networkx

要安装 GeoPandas 这是一个开源包，它通过允许对几何类型运行空间操作来扩展 Pandas 数据框的功能:

conda install geopandas

安装 PIL 一个用于图像处理的 Python 包:

conda install -c anaconda pillow

应该可以了。在我们继续之前，让我们运行一个健全性检查，以确保我们使用的是相同版本的包:

Scrip 2 — Checking version of packages.

脚本 2 的输出为:

The NetworkX package is version 2.3
The OSMNX package is version 0.11dev
The Request package is version 2.22.0
The PIL package is version 6.1.0

您可能使用这些包的不同版本而逃脱，但是如果您稍后得到一个讨厌的错误，罪魁祸首可能是您正在使用的不同的包。

获取我们的数据

我们将为堪萨斯州的劳伦斯市制作一张地图——一个我所热爱的城市。

为了制作地图，我们需要一些空间数据。您可以通过访问此站点下载 OpenStreetMap 数据。然而，我发现的最简单的方法是使用 OSMNX 包。让我告诉你这有多简单:

Script 3 — Grabbing spatial data.

因此，通过两行代码，您可以提取任何城市的网络。network_type变量用来描述你要抓取的网络类型。在脚本 3 中，我们将network_type变量设置为“全部”。这意味着我们将获取人行道、街道、高速公路等的数据。为了获取可行驶街道的相关数据，将脚本 3 第 8 行的network_type变量设置为“行驶”。如果您想获取人行道的数据，请将network_type设置为“步行”。

旁白:如果您想提取德克萨斯州达拉斯和德克萨斯州阿灵顿的数据，您可以运行以下脚本:

Script 3a— Grabbing spatial data for two cities.

脚本 3a 可能需要一些时间来运行，因为达拉斯地区很大。如果您想要更多城市的数据，只需将它们添加到places列表中。我建议您访问 OSMNX 示例 Jupyter 笔记本来了解关于这个包的更多功能——在本文中我几乎没有展示它的功能。

拆开我们的数据

ox.graph_from_place()方法返回的G是来自 NetworkX 类的一个MultiDiGraph对象。我们可以使用ox.plot_graph()方法来制作地图，但首先让我们打开它，这样我们就可以为网络中的每条线段分配颜色和宽度。

Script 4 — Unpacks the data from the G MultiDiGraph object.

纸条 4 拆包G。我们感兴趣的是保存在名为data的列表中。data中的每个元素都包含一个字典，该字典指定了一个段的属性，例如唯一 id、街道名称、最大速度、段的长度以及其他规范。下面是存储在data中的第一个字典的例子:

Figure 2 — The first element of the list named data.

你可以看到第一段是一条名为佛蒙特街的住宅双向街，长 81.54 米。当路段类型为人行道/小道时，公路关键字的值将为“人行道”。人行道类型的线段可能没有名称。

为网络中的每个线段指定颜色和线宽

在我们制作地图之前，我们将为每一段指定一种颜色。为此，我们将遍历data的元素。对于每个元素/片段，我们将根据其长度指定一种颜色。然后我们将这个颜色添加到一个名为roadColors的列表中，这个列表稍后将作为变量传递给制作地图的方法。

Script 5 — Assigning colors to each segment based on their length. The length is in meters.

这里是你发挥创造力的地方。例如，您可以更改颜色，添加更多 if 语句，更改每个 if 语句的条件，根据段名或速度限制分配颜色。

最后，我们还将创建一个列表，用于定义每个线段的线条粗细。为此，我们将遍历data的每个元素。数据中的项目是包含“高速公路”关键字的字典。我们将使用它来确定我们拥有的细分市场的类型。如果“highway”关键字的值是“footway ”,这意味着该线段用于步行，因此我们将为该元素指定线宽 1。任何不是“人行道”的部分，我们将指定 2.5 的线宽。根据你的地图的大小，你需要使用这个值来创建一个好看的地图。

Script 6 — Assign each segment a line width.

制作地图

我们终于准备好制作地图了。

Script 7 —Making a map for Lawrence, Kansas.

制作这张地图似乎需要做很多工作，但让我来解释一下脚本 7 中发生了什么:

第 4–6 行:这里我们指定堪萨斯州劳伦斯市的纬度和经度。这是地图的中心。你可以把地图放在任何你想要的纬度和经度的中心。

第 8–12 行:这里我们决定了地图的边界。您应该使用这条线来控制在地图上显示什么。例如，您可以通过向第 4–6 行中定义的纬度和经度分配较小的偏移量来关注城市中较小的区域，如市中心。

第 14–18 行:这里我们使用 OSMNX 包的ox.plot_graph()方法制作地图。我建议您阅读 OSMNX 软件包文档，查看所有可用的输入。我将只讨论我在这里使用的。

G:这是我们在脚本 3 中执行的ox.graph_from_place()方法的输出。

bbox:这是一个设置地图边界的元组。下面应该是语法(北界，南界，东界，西界)。

fig_height和fig_width:图形的高度和宽度，单位为英寸。

dpi:每英寸点数。

bgcolor:用于地图的背景色。默认为白色。

save:布尔型。如果是，将图形作为图像文件保存到磁盘。我们将此设置为 false，因为我们还没有准备好保存该数字。

edge_colors:线段的颜色。我们把这个设为等于roadColors。你也可以只传递你想要的颜色的字符串。

edge_linewidth:各线段的粗细。我们将其设为等于roadWidths。你也可以只传递一个你想要的线条粗细的浮点数。

第 21–47 行:这些行组成一个自定义图例。如果你熟悉 Matplotlib，你应该不会感到陌生。

第 49–50 行:我们在这里保存图形。

如果您为堪萨斯州的劳伦斯市制作一张地图，其中每条线段的长度都用颜色进行了编码，那么您应该会看到以下内容:

Figure 3 — Map of Lawrence, Kansas where each segment is colored by length.

结果真的很酷。诀窍是选择正确的颜色、线条粗细、地图边界和背景色来制作一幅好看的地图。

向地图添加边框和文本

我们基本上完成了地图。然而，我想添加一个边界和一些文字地图，使它看起来更艺术一点。我们将首先定义一些我在 StackOverflow 中发现的助手函数:

Script 8 — Helper functions to add border to map.

我们现在准备给图像添加一个边框。我们将只添加一个底部边框图像，但如果你愿意，你可以选择在顶部、左侧、右侧和底部添加边框。阅读 helper 函数的 docstring 以获得更多关于如何做的细节。

Script 9— Adding border to map.

Figure 4 — Map of Lawrence, Kansas with a bottom border.

那看起来真的很好；).

最后，让我们添加一些文本到图像的底部边框。为此，我们首先需要下载字体。游览ShareFonts.net，搜索“PMINGLIU”。下载字体并将其内容解压缩到您的工作目录中。

Script 10 — Add text to the map. The font type and size are define in line 9. The position, the text, font color, and type of font are define in line 12.

Figure 5 — Map of Lawrence, Kansas.

我们到此为止。)

结束语

为你的家乡制作地图，修改剧本 3 中的第 5 行和剧本 7 中的第 5 行和第 6 行。为了给你的城市创建一个好看的地图，你必须调整地图的边界和线条的粗细。如果你不喜欢我用的颜色，欢迎你更换。我很想看看你制作的任何地图。这里是我的 GitHub 的链接，这样你就可以获得这篇文章的全部内容。

欢迎您在 LinkedIn 上与联系。直到下一次，每天编码！

打赌:预测人工智能自动驾驶汽车何时会流行

原文：https://towardsdatascience.com/making-bets-predicting-when-ai-self-driving-cars-will-be-prevalent-10a7ccfc0ea9?source=collection_archive---------14-----------------------

无人驾驶汽车问世的基本方程式

Defining an equation for predicting when AI self-driving cars will be prevalent

我们都喜欢一个好的等式。你引用或看过多少次爱因斯坦关于物质和能量的著名方程式？

最著名的概率公式之一是著名的德雷克方程，它是由弗兰克·德雷克在 20 世纪 60 年代设计的，旨在帮助激起关于我们银河系其他地方存在生命以及我们可能能够与之交流的可能性的讨论和辩论。

在这些努力中，一个特别有争议的因素是，我们是否应该对可能存在于别处的智慧生命进行被动搜索还是更主动的搜索。被动搜索包括简单地试图捕捉任何信号的行为，然后在地球上得到内部警报，也许有什么东西在那里。主动搜索包括发出信号，让地球之外的听众知道我们在这里，我们这样做是希望引起回应。当然，引起回应对我们来说可能是好的也可能是坏的，著名的斯蒂芬·霍金曾预先警告说，我们可能会捅马蜂窝，最终导致我们自己的毁灭和灭亡。

你可能会想，除了地球以外，在我们银河系的某个地方有智慧生命的可能性有多大？

让我们首先同意，我们主要对智慧生命感兴趣，这意味着如果某个地方存在某种原始生命，而它或它们无法通过任何现代手段进行交流，我们会把这些放在一边，认为不值得去寻找。

据推测，一种智慧生命形式会发出各种各样的电磁辐射，就像我们在地球上所做的那样。20 世纪 50 年代末，天文学家弗兰克·德雷克一直在西弗吉尼亚使用大型射电天文设备扫描从我们星球反射回来的无线电波。

一亿个世界可能可以维持生命

科学家和天文学家不断猜测数字，特别是宇宙中可能有 1 亿个星球可以维持我们所知的生命。一亿这个数字是怎么得出来的？它是基于这样一种信念，即可能有 1000 亿个太阳，这些太阳中可能有百万分之一的太阳有各种各样的行星围绕太阳旋转，这些行星中可能有百万分之一的行星由孕育生命所需的方面组成。如果你把它相乘，你会得到一亿颗理论上可能有生命存在的行星。

弗兰克·德雷克选择组织一个小型会议，召集那些对智能生命的严肃追求非常感兴趣的人，并希望展开热烈的讨论。在为会议做准备时，他决定记下一种方法来预测我们银河系中存在智慧生命的可能性。

弗兰克提出的方程从那以后成为了著名的德雷克方程，这是对他推导出该方程的肯定。多年来，有许多人指出，这个等式没有包括许多其他因素，而这些因素本来应该包括在内。这很好，这不是弗兰克的断言，他的方程是最终的一切。

弗兰克·德雷克的方程式包括试图得出一个数字 N，这个数字据称是我们银河系中可能展示智慧并有可能与之交流的文明的数量。

德雷克方程是这样的:N = R-star x 因子 p x 因子 ne x 因子 1 x 因子 i x 因子 c x 因子 L

本质上，您将七个关键因素相乘，就会得到数字 n。每个因素在逻辑上都是合理的，因为您在进行这种估计时会考虑这些因素。这些因素倾向于相互建立，以考虑一种饼的方式来做，其中你可以分割一个饼，以递增的方式做，直到你得到最后一片。

我希望你能明白，德雷克方程其实很简单，很容易理解。我这样说并不是在贬低这个公式。事实上，我为这个等式易于理解而喝彩。

如果这个公式是神秘的，我怀疑它会获得如此广泛的兴趣和流行。

乘以因子得到 N

另一个有趣的方面是，这些因素都是相乘的。同样，这意味着简单。

这些因素看起来很简单，方程看起来也很简单，这使得它非常适合使用和讨论。与此同时，让我们都同意，得出这些因素的数字有点更具挑战性。事实上，关于德雷克方程的大多数争论并不是方程本身，而是人们可能插入方程中的因素的估计。

德雷克和他的同事在 1961 年根据他的公式得出的 N 是多少？这个小组决定用一个范围来表示 N 更谨慎，他们通常得出一个介于 1000 到 100000000 之间的值。

在为估计范围辩护时，你可以说他们得出了一个大于零的数字，它也小于一些真正大的数字，如估计数十亿。

德雷克方程有点像一个有用的锚。有一个主持人就像种一棵树，然后你可以看着更多的话语围绕着它生长。

这和 AI 自动驾驶汽车有什么关系？

在控制论人工智能自动驾驶汽车研究所，我们正在开发自动驾驶汽车的人工智能软件。最直言不讳的国家和世界范围内的辩论之一涉及人工智能自动驾驶汽车何时可以投入使用。这个问题不断地在会议上出现，不断地被这个领域内的人提出，也不断地被公众、监管者和许多其他利益相关者提出。

我建议我们推导出一种德雷克方程来帮助辩论。请允许我详细说明。

我想首先澄清和介绍一个概念，即人工智能自动驾驶汽车有不同的级别。最顶层被认为是第 5 层。5 级自动驾驶汽车是由人工智能驾驶的汽车，没有人类驾驶员参与。

对于低于 5 级的自动驾驶汽车，必须有一名人类驾驶员在场。人类司机目前被认为是汽车行为的责任方。人工智能和人类司机共同分担驾驶任务。

人工智能自动驾驶汽车的另一个关键方面是，它们也将在人类驾驶的汽车中行驶在我们的道路上。

预测方程的特征

回到预测人工智能自动驾驶汽车到来的话题，让我们考虑一个等式的特征，它可能有助于如此重要的努力。

首先，考虑谁对人工智能自动驾驶汽车的到来做出预测。

有各种各样的技术专家提供他们对人工智能自动驾驶汽车的看法，并提出我们何时能在街道上看到这些车辆。技术专家的一个好处是，他们有望精通技术，并能够判断人工智能和自主能力进展的有效性。

让我们也考虑一下，那些真正精通人工智能自动驾驶汽车并做出预测的技术专家可能会在没有任何有形的韵律或理由的情况下这样做。有时他们会发表“直觉”或本能宣言。

纵观科技的历史，我们肯定看到了相当多过于乐观的预测，但在规定的时间内都没有实现。这是一个容易落入的陷阱。

我们还需要澄清的是，人工智能自动驾驶汽车的技术可以双管齐下，提供实现自主的能力，但也因为缺乏迄今为止已知的方法、技术和计算工具而抑制了自主。因此，我发现考虑技术进步和它们是如何形成的是有用的，同时也考虑已知的技术障碍甚至是未知的，并将在未来的道路上被发现。

许多做出预测的技术专家通常不包括其他看似与技术无关的因素，这些因素可能会极大地影响技术的发展速度。有人可能会说，这是一种疏忽。

什么样的因素会影响 AI 自动驾驶汽车的问世？

目前，投资和监管有利于人工智能自动驾驶汽车的发展

有些经济因素要么会鼓励在人工智能自动驾驶汽车开发上的支出，要么可能会抑制和破坏这种支出，如果这些支出被抽走并用于其他目的的话。

另一个关键因素是社会和社会对人工智能自动驾驶汽车的接受或抵制。人工智能自动驾驶汽车的进展可能会面临一个艰难的选择，即让它们进入我们的公共道路，同时让它们卷入致命的车祸。

考虑监管环境以及它如何影响人工智能自动驾驶汽车的到来也至关重要。目前，关于在公共道路上使用人工智能自动驾驶汽车的法规相对宽松，并鼓励这种萌芽的创新。如果监管机构突然受到压力，要对人工智能自动驾驶汽车采取一些措施，例如当自动驾驶汽车在道路上行驶时发生死亡或受伤时，它可能会迅速转向更严格的监管环境。

不能仅仅依靠技术专家的观点

我相信你现在已经确信，任何试图预测人工智能自动驾驶汽车到来的等式都不应该仅仅依赖于技术专家的观点。我们希望包括经济视角、社会视角和监管视角。这提供了一个混合的视角，当只使用一个单一的因素时，将有望避免被意外地抓住或被暗算。

这些因素中的每一个都不一定相互独立。事实上，它们很可能会一起朝着同一个方向摆动，尽管有时会有延迟。

在探索一系列因素时，你可能会认为每个因素最终都可能成为人工智能自动驾驶汽车的支持者和推动者，或者每个因素都可能成为反对者，往往会对人工智能自动驾驶汽车的到来造成阻力或抑制。这是一种推拉式的紧张。至关重要的是将这种张力包含在用于做出这种预测的等式中的因素中。

除了核心因素之外，还有其他问题需要考虑。为了这个新方程的目的，让我们假设我们正在试图预测真正的人工智能自动驾驶汽车在公认标准的第 5 级的到来。

我还想提一下，我们需要就某个事物的出现意味着什么达成共识。如果你可以制造一辆 5 级的人工智能自动驾驶汽车，你是否已经达到了该项目的“降临”？不，我不这么认为。尽管你可能做得很好，达到了 5 级实例，但在我们有一些人工智能自动驾驶汽车在周围行驶之前，说它们已经出现似乎是有问题的。

有多少是降临？如果有几十辆真正的人工智能自动驾驶汽车在我们的街道上行驶，那将是一个降临，还是我们需要更多，比如数百辆，或者数千辆。真正的人工智能自动驾驶汽车的普及程度是多少？

有各种方法来衡量流行程度。我将使事情简单化，并建议我们用当时在用汽车的百分比来衡量。正如前面提到的，我们将逐渐看到向人工智能自动驾驶汽车的切换，这将看到传统汽车的退役和人工智能自动驾驶汽车的不断增加。

在所有汽车的总人口中，我们可能会同意，一旦某个百分比成为真正的人工智能自动驾驶汽车，我们就达到了普及。假设你愿意接受这个前提，那么我们可以讨论它是 1%，10%，20%，30%，40%，50%，60%，70%，80%，90%，甚至可能是 100%，然后你会把它称为流行率(我使用了十进制的整数，但它当然可以是 1%到 100%之间的任何数字)。

让我们设定 20%为普遍意义

我现在要用 20%。为什么？在各种研究领域，20%经常被用来表示流行程度。这来自于环境和生物学领域的研究。这似乎是一个足够大的百分比，它不是微不足道的，但也没有大到似乎有些不可能达到。

在美国现有的传统汽车数量(如上所述约为 2.5 亿辆)的情况下，人工智能自动驾驶汽车的出现将占 20%，这是一个相当令人生畏的 5000 万辆这样的汽车。这是一个令人望而生畏的数字，因为想想达到这个数字可能需要多长时间。换句话说，即使人工智能自动驾驶汽车明天就准备好了，生产那么多自动驾驶汽车也需要一段时间，这些人工智能自动驾驶汽车也需要一段时间才能购买并投入使用。

我之前预测过，一旦我们实现了真正的人工智能自动驾驶汽车，很可能会有一个相当快的采用率。我这么说是因为那些真正的人工智能自动驾驶汽车将会赚钱。当有钱可赚的时候，需求就会猛增。这不仅仅是汽车车队，正如我所说，将会有一个由个人消费者组成的完整的家庭手工业，他们将购买人工智能自动驾驶汽车，以利用这些车辆作为个人用途和赚钱。

我现在已经为建立一个方程奠定了基础，这个方程可以用来预测人工智能自动驾驶汽车的到来。

这个谜题的最后一部分是关于基督降临的基础。通过使用一个基数，然后你可以用它乘以各种因子，看看得到的 N 是等于、大于还是小于稻草人基数。我将把基地称为 B 星。

请看图 1。

我们正在尝试求解 n。有一个基本的 B 星，然后乘以八个因子。

出于定义目的:

n 是流行年数(YTP)，使用插入式 20%作为 PV(流行)因子
b 星是基本年数，然后根据每个因素进行调整

关键因素包括:

因子 TA: T 技术 A 进步，估计的分数
因素到: T 技术Ob 障碍，估计的小数
因子 EP:EeconomicPayoff，估计的小数金额
因素 ED: E 经济 D 雨，估计的一小部分量
因素 SF:So 其他 F 偏好，估计的分数
因数 SO:SOCI etalOp position，估计的小数金额
因素 RE: R 调节En 平衡，估计的小数金额
因子 RR: R 调节 R 限制，估计的小数

该等式由以下内容组成:

N (PV 为 20%)= B-star x TA x TO x EP x ED x SF x SO x RE x RR

根据我之前的讨论，有四个主要因素涉及技术、经济、社会和监管问题。对于每个因素，都有推-拉因素，这意味着每个因素都可以被解释为促进和推动人工智能自动驾驶汽车问世的一个因素，还有一个伴随因素是拉人工智能自动驾驶汽车问世的拉力。这是四个关键因素，考虑到推拉效应，总共有八个关键因素。

类似于前面关于方程可用性的评论，我将这个方程保持为 9 个元素，这与流行的神奇数字 7 加或减 2 的经验法则相当。这些因素都很容易理解。这个等式很容易理解。

它无意成为终极目标。它旨在提供一种讨论和辩论的基础。如果没有一个支点，关于这个问题的争论和讨论往往是空洞和迂回的。

请看图 2。

如图所示，我填充了一个电子表格来利用这个等式。

首先，我选择展示如果你只考虑单一因素的观点会发生什么。例如，您可能仅使用技术专家的视角，因此这些因素是唯一填充的因素(其余因素被假设为不在等式中，而不是说值为零，这当然会消除计算)。同样，我展示了一个单独的经济视角，然后一个单独的社会视角，一个单独的监管视角。

在电子表格的最后两行，我提供了一个完整的组合。

我还选择展示乐观主义者的观点和悲观主义者的观点，对每个单因素实例和全混合实例都这样做。这与试图得出一个范围的值，而不是一个单独的值是一致的。乐观观点和悲观观点分别提供了估计的下限和估计的上限。

对于基本的 B 星，问题是使用什么数字。因为有许多专家似乎在 15 年左右浮动，所以我在这个说明性的例子中使用了这个数字。我们可以用 5 年、10 年、20 年、25 年或 30 年，所有这些都在媒体上流传。据推测，无论你选择哪一个基数，这些因素最终都会“修正”它，使其趋向于“实际”预测。

我们正在实施德尔菲法，以达到实质性的下限和上限。德尔菲法是一种成熟的预测方法，通常被称为 ETE(估计-谈话-估计)。在这种情况下，一组人工智能自动驾驶汽车领域的专家已经参与了一系列的德尔福轮次。在每一轮中，被选中的专家可以看到其他专家的指示，并在他们认为合适的时候调整他们自己的估计。

虽然德尔菲法通常受到高度重视，但它可能因群体思维的潜力而受到批评，有时也会因过度的共识而被削弱。尽管如此，这很有启发性，也是引发关于这个话题的有益讨论的另一种方式。

结论

什么时候会有 AI 自动驾驶汽车的问世？一些人通过模糊的预感来回答这个问题。通过使用这里提出的等式，希望可以进行更具体和更有条理的讨论和辩论。

你可能不喜欢所用的因子，或者你可能想添加额外的因子，但至少不管怎样，这个等式让树栽下来了。在降临问题上，从这些根将会期待一个广泛复杂的事业。

一些批评人工智能自动驾驶汽车的人说，我们永远不会有真正的人工智能自动驾驶汽车。如果是这样的话，我想 N 的数字要么是零(我们将定义为它永远不会发生)，要么可能是无穷大。我想我会更乐观，会断言 N 有一个数，它既不是零，也不是无穷大，更接近于一个小于 100 的值，很可能小于 50。

方程式，我们喜欢它们，但有时我们讨厌它们(比如在考试或测验时记忆它们)。看看我提出的方程，看看你怎么想。插入一些值。仔细考虑将来可能发生的事情。虽然不是水晶球，但它是一种如何思考未来和真正的人工智能自动驾驶汽车出现的剧本。

关于这个故事的免费播客，请访问:http://ai-selfdriving-cars.libsyn.com/website

这些播客也可以在 Spotify、iTunes、iHeartRadio 等网站上下载。

更多关于人工智能自动驾驶汽车的信息，请参见:www . AI-self-driving-cars . guru

通过数据驱动的体育博彩策略“赚大钱”

原文：https://towardsdatascience.com/making-big-bucks-with-a-data-driven-sports-betting-strategy-6c21a6869171?source=collection_archive---------0-----------------------

深度剖析

或者如何在自己的号码上击败庄家

pixabay

几个月前，我开发了一个 ML-free 算法，用一个简单的泊松过程来预测英超联赛的结果。该程序的跟踪记录比我想象的更令人印象深刻，在第一轮比赛中正确预测了 7/10 场比赛的结果(其中 3 场比赛有确切的比分)。

所以我完成了这个项目，把它放在一边，专注于我的功课。

我上周末看了阿森纳和曼联的比赛，在这场比赛中，主队被普遍认为是失败者。

Image by author. Screenshot from Google.

出乎所有人的意料，阿森纳队名列榜首。任何一种情况都有可能发生。联队在上半场两次击中门柱。但是，在这个混乱的赛季中，大卫·德基对查卡突然转身射门的罕见误判和慷慨的点球又增加了一个不可预测的结果。

我有没有提到托特纳姆热刺队在同一个周末被南安普顿队击败了？

随着英超联赛另一轮令人惊讶的结果的展开，我一直在思考我开发的算法。它能在一致的基础上正确预测结果吗？在这个模型中有一些内在的随机性，但这足以成为 PL 诱人的泰然自若的因素吗？在那里，降级区南安普顿队击败了全明星热刺队。

所以我决定把它带回来重新测试。

1。对抗专家的算法

测试一个算法的困难之一是找到一个好的性能基准。比方说，如果我的预测在 200 次匹配中有 50%的准确率，那么它是好的、坏的还是平庸的？这肯定比随机猜测要好(赢、平、输的概率都是 1/3)，但听起来没那么好，不是吗？

把我的结果和职业足球专家比较怎么样？

所以我发现，每周，天空体育网站都会发布一个由保罗·默森【1】对那周比赛的预测，他是一位前阿森纳球员，后成为赢得过几个冠军的权威人士。

老实说，我不是保罗·默森的忠实粉丝，因为我认为他对他的前俱乐部进行了无情的批评。

听听阿森纳前主教练温格对他的评价:

我听到的这些辩论是一个笑话，一场闹剧。管理零场比赛的人，他们教每个人你应该如何表现。简直是闹剧。

尽管如此，这对我来说是一个金矿，因为我现在可以将我的算法与“专家”进行比较。不管你对他有什么看法，一个前阿森纳球员对阿森纳对曼联比赛的预测肯定会比一个随机产生数字的模糊模型更可靠。

The confusion matrix that shows how accurate Merson’s and my algorithm’s predictions are, over 273 matches. Left: Merson’s correctly predicts 150 matches or 54.9%. Right: The Poisson process algorithm got 51+7+117 = 175 matches, a whopping 64.1%

在这里，我比较了默森预测的本赛季 273 场比赛的结果。他达到了 54.9%的准确率(T1)，而我的泊松过程算法达到了令人惊讶的 64.1%的准确率(T3)。

有趣的是，默森预测了阿森纳和曼联之间的 2-2 平局，他说“两队将会相互较量，并且会有进球。“我的算法，通过平均阿森纳主场的进球数和失球数，给阿森纳分配了 45%的微弱优势和获胜概率，相比之下，曼联为 27%。

2。从预测到体育博彩

结果让我大吃一惊。超过专家意见 10%的优势是巨大的。除了让心爱的泊松过程剔除数字之外，我甚至不用做太多事情。

这是我开始研究体育博彩的时候。而我进入新游戏对阵新对手: 是我对阵庄家 。

3.理解书签:赔率是如何工作的？

如果你曾经认为你信用卡上的条款和报价很复杂，试着去那些博彩网站试试。他们简直是疯了。

以美国的赔率为例。如果你看到一个+300 的赔率，这意味着如果你赌 100 并且赢了，你的收益是 300 美元。这很好，但是他们有负赔率，比如 150 的赔率。搞什么@#！$%那是？*这意味着为了赚取 100 美元的利润，你需要下 150 美元的赌注。因此，美国赔率是一个大于或等于 100 的数字，有时前面加一个+,表示这个数字是你的利润，有时前面加一个——表示你赢得 100 美元需要下注的金额。

我的意思是，他们仍然使用英尺和华氏温度

为了这个项目的目的，我们将使用一个更好的系统:欧洲赔率。很简单:他们告诉我，如果我赌 1 美元，我会赢回多少钱。例如， Bet365 给出阿森纳击败曼联的赔率为 2.4，平局为 3.6，马努获胜为 3。这意味着，如果我为阿森纳下了 1 美元的赌注，我的口袋里会有 2.4 美元(1.4 美元的利润)。

4。肮脏的小秘密

但是事情并不总是美好而简单的。实际上，为了实现利润最大化，博彩公司雇佣数据科学家团队来分析几十年的体育数据，并开发高度准确的模型来预测体育赛事的结果，并给出对他们有利的赔率。

让我们假设博彩公司的赔率是各个球队赢、平或输的概率的完美反映。因此，对于阿森纳和曼联的比赛，由于阿森纳获胜的赔率是 2.4，所以他们获胜的概率是 1/2.4 = 41.6%，出乎意料地接近我预测的 45%。同样，曼联获胜的概率是 1/3.0 = 33.3%，平局的概率是 1/3.6 = 27.8%。

等一下！！！

41.6% + 33.3% + 27.8% = 102.7%! 真是奇怪(没有双关语！！！)

概率加起来不是 100%的原因是几率不公平。那多出来的 2.7%就是庄家的优势。为了得到真实的概率，我们需要通过除以 102.7 来修正利润。所以博彩公司认为阿森纳获胜的真实概率是 41.6/102.7 = 40.5%，曼联获胜的概率是 33.3/102.7 = 32.5%，平局的概率是 27.8/102.7 = 27.06%。对于一个完全有效的博彩公司来说，这些是每种结果的概率。

现在，这是一件有趣的事情:如果赔率完美地反映了现实，那么我赌哪个结果并不重要——我的预期利润总是一样的。

如果我在阿森纳身上赌 1 美元，我希望能赢回来:

如果我为曼联下注，预期利润是一样的:

而且——你猜对了——如果我赌平局，我希望能赢回 97 美分。平均来说，每下 1 美元赌注，庄家会从我这里拿走大约 3 美分。

4.下注策略:

这种理解并没有阻止我试图利用市场中任何潜在的低效率。首先，我设计了一般的下注策略。

我列出了 1000 美元的预算，平均分配给前 30 轮英超联赛。所以每个周末我都有大约 33 美元可以下注。
对于每场比赛，将通过以下三种方法之一进行预测:(a)保罗·默森预测，(b)我的泊松过程算法，以及(c)等概率随机分配赢、平、输。
通过预测，我找到了 6 家在线投注站中赔率最高的。这意味着如果我赢了，我会得到最高的利润。这将是我下注的赔率。
对于每场比赛，赌注的金额将由凯利标准计算，该标准的工作原理是:你应该只投资你财富的一部分。通过保留一些，你不会以破产告终。最佳分数( f )取决于每个单独的赌注:

where p* is the probability that the event occurs and x is an odds

在 R 中实现凯利标准非常简单:

在凯利标准的公式中，问题仍然是什么被认为是事件的真实概率( p* )。正如我们在前面的部分中所看到的，我们可以对任何特定的博彩公司给出的赔率取倒数，但这不会以很大的优势结束，因为他们倾向于对该公司有利。然而，如果我们汇总来自许多不同博彩公司的所有赔率，我们应该能更好地反映博彩公司如何看待某个事件的概率，例如阿森纳击败曼联:

where n is the number of betting houses and xi is a given odds by the house i

The result of this betting strategy using the Poisson-process prediction for the last Matchweek, Round 30. This table shows how the max_odd, probabilities of prediction events, Kelly bet fraction, bet_amount are calculated

对于第 30 轮比赛，正确预测了 5 场比赛，从 6 家赌场中选择了最佳赔率，由于我们的下注策略中嵌入了泊松预测，这一轮我们总共净亏损 0.9 美元或 90 美分。我们最大的损失来自于切尔西主场对狼队没能抢下 3 分。

5。下面是最终结果

现在，假设我从英超联赛一开始就使用这个策略，让我们看看我们是如何迅速致富的。

我的算法和默森的预测——当结合凯利标准的最大奇数策略时，到第 30 个比赛周结束时，净正回报，泊松过程预测实现了惊人的 9.1% 回报，每个比赛周的归一化回报为 0.3% 。客观来看，先锋 S & P 500 ETF 的市场价格回报率为4.6%【4】。

随机法第一次迭代净亏 19% 主要是因为这里那里的几个幸运投注(曼联输给西汉姆)无法弥补大量的烂注(莱斯特，哈德斯菲尔德赢了伊蒂哈德，热刺输给伯恩茅斯，像老实说？).即使我多次重新运行随机预测，也足以说我见过随机方法有正回报的情况不到 10%。

显然，这种最优泊松模型存在固有风险。以第 24 轮比赛为例，我们净亏损 14 美元。默森和泊松过程模型(还有我！！！)对利物浦、曼城、曼联、切尔西分别拿下莱斯特、纽卡斯尔、伯恩利、伯恩茅斯 3 分非常有信心，提出总赌注 $19。结果:利物浦和曼联未能全取 3 分，而切尔西和曼城则被击败。都在同一个周末！！！

最后的话:

在你克隆我的 Github 回购协议并为你的体育对冲基金筹集资金之前，我应该明确表示，没有任何担保。你需要一大笔启动资金(我用 1000 美元模拟，但每周我只有 33 美元可以下注)，大量的耐心和冷静的头脑。

如果有的话，这篇文章是一个玩具的例子，你可以做什么。但是博彩公司使得任何人都很难获得可持续的利润。如果博彩公司认为赢的概率是 1/6，那么他会通过将赔率设置为小于 5，也许是 4.6 这样的值来保证他的预期收入减去支出是正的。如果仍然有很多人以 4.6 的赔率下注，那么庄家肯定意识到赢的概率肯定高于他自己的估计，并将赔率调整为 4。很有可能当代码推断出最佳几率时，它已经被修改了。

此外，如果你开始定期盈利，博彩公司可以简单地感谢你的业务，支付你的奖金并取消你的账户。这就是发生在东京大学一个研究小组身上的事情。

在我们开始用真钱下注的几个月后，庄家开始严格限制我们的账户。我们的一些赌注被限制在我们可以下注的赌注金额内，庄家有时要求在接受之前对我们的赌注进行“人工检查”

*** 重要免责声明:**本文纯粹用作教育材料，*不得视为法律或财务建议。也不建议打赌或赌博。请注意，体育博彩在美国的几个州是不合法的。

如果你喜欢这篇文章，你可能也会喜欢我的另一篇关于有趣的统计事实和经验法则的文章

迪士尼电影是对的——我们都是特殊的，从统计数据上看也是如此
优化生活的统计法则:呼唤效应
规则三:计算尚未发生事件的概率

对于其他深潜分析:

这个项目的完整代码可以在我的 Github 简介中找到

[2] 凯利，J. L. (1956)。《信息率新解》 (PDF)。 贝尔系统技术期刊 。35(4):917–926。doi:10.1002/j . 1538–7305.1956 . TB 03809 . x

[3] 考尼茨，l .等人(2017)。“用他们自己的数字击败博彩公司——以及在线体育博彩市场是如何被操纵的”(PDF)。阿尔维克斯

[4]https://advisors . vanguard . com/web/C1/Fas-investment products/VOO/performance

教计算机理解推文的情感

原文：https://towardsdatascience.com/making-computers-understand-the-sentiment-of-tweets-1271ab270bc7?source=collection_archive---------16-----------------------

因为我们真的不想读唐纳德·特朗普写的所有东西

Donald Trump is well-known for many things, like his extensive use of Twitter and changing opinions faster than he breathes. What if we could get computers to read his tweets and understand his and his followers opinions towards a given topic? Photo credit: NICHOLAS KAMM/AFP/Getty Images

理解一条推文是正面的还是负面的是人类很少会遇到的问题。然而，对于计算机来说，这是一个完全不同的故事——复杂的句子结构、讽刺、比喻性的语言等等。让计算机很难判断一句话的意思和情绪。然而，自动评估一条推文的情绪将允许人们对各种问题进行大规模的意见挖掘，并有助于理解为什么某些群体持有某些观点。

在更基本的层面上，理解文本的情感是自然语言理解的关键部分，因此，如果我们希望计算机能够与我们有效地交流，这是一项必须解决的任务。

在这篇博文中，我将展示一个小型研究项目的成果，该项目是谢菲尔德大学 SoBigData 项目的一部分。我们测试了处理文本的不同方法，并分析了它们能够提取多少情感。请继续阅读，全面了解该项目及其成果！

介绍

该项目的目的是测试计算机使用机器学习能够在多大程度上理解文本的情感。为了做到这一点，我们给电脑输入了大量的推文，每条推文都被人类标记为积极、中立或消极的情绪。每条推文也有一个相关的主题，这一点很重要，因为根据讨论的主题，一个句子可以有非常不同的情感。例如，如果我们谈论质量，“高”这个词是肯定的，但如果我们谈论价格，这个词就是否定的。“绿色”在讨论环境问题时是积极的，但在讨论艺术时可能是中性的。现在，计算机的任务是预测给定推文和相关主题的情绪。

计算机如何阅读文本？

如果你没有机器学习的经验，这可能看起来是一个奇怪的问题。但机器学习是基于统计的，所以机器学习系统要处理的任何东西都必须用数字来表示。将文本转换成数字发生在所谓的 嵌入模型 中，开发这些本身就是一个主要的研究领域。嵌入模型将一个单词或一个句子变成一个向量，这个向量在训练过程中不断调整，使得具有相似含义的单词和句子以相似的向量结束。理想情况下，向量应该捕捉含义、上下文、情感等。但是这并不是一件容易的事情，这也是为什么许多不同的嵌入模型被开发出来的原因。一般来说，新型号性能更好，但它们也可能针对特定任务进行调整。

成熟的机器学习系统能够在情感分析方面达到最先进的水平，这是一种野兽。它们由多个组件组成，文本嵌入只是其中之一，而且通常很难评估系统的哪些部分是性能瓶颈。由于任何文本都需要表示为一个向量，以便机器学习系统能够处理它，所以任何分析，包括预测推文的情绪，都严重依赖于所选择的嵌入模型。但这并不是说系统的其他部分可能同样重要。

为了使文本嵌入的作用和贡献更加透明，我们开始用一个设计为最小模糊的系统来测试它们预测情感的性能。

我们如何预测情绪？

我们预测情感的方法非常简单，并且受到了协同过滤的启发。每条推文都有一个相关的主题，根据主题评估情绪是非常重要的(因为一个陈述很容易对一个方面持肯定态度，而对另一个方面持否定态度)。因为 tweet 和相应的主题都由相同维度的向量表示，所以我们可以取两者的内积，给我们一个表示情感的数字。没有理由认为这应该与“原始”嵌入一起工作，所以在取内积之前，我们学习并应用一个变换(稍后将详细描述)到主题向量空间。这样，即使之前没有看过题目，也能得到感悟。

我们希望能够预测三种不同的情绪(积极、中立、消极)，所以我们实际上学习了话题空间的三种不同变换:一种预测积极情绪，一种预测中立情绪，一种预测消极情绪。当将推文与三个转换后的主题向量中的每一个进行内积时，我们会得到三个数字，可以理解为模型对每一种情绪的押注——数字越高，模型越相信这就是推文的情绪。

项目摘要

我们想测试不同的单词嵌入为一条推文的情感带来了多少信息。为了预测情绪，我们训练了一个模型，该模型学习主题向量的三种转换，使得推文和三个主题向量中的每一个的内积将是模型对三个情绪中的每一个的投票。

我们有几个不同的选择。首先，我们必须选择要测试的嵌入模型。其次，我们需要决定如何转换主题向量。第三，我们需要一个已经被人类贴上情感标签的推特数据集，这样我们就有东西来训练和测试这个模型。

决定设置

数据集

我们使用了为 SemEval-2017 任务 4 提供的英语数据集。这由大约 26k 条不同主题的推文组成，所有推文都被人工标注了情绪。我们保持任务组织者定义的划分，大约 20k tweets 用于训练，6k tweets 用于测试。

嵌入模型

我们选择测试以下四种嵌入模型:

【2003 年的神经网络语言模型 (NNLM)，这是用神经网络学习单词嵌入的最早尝试之一。该模型构建了 128 维的单词向量，并将作为一种单词嵌入基线，这是更高级的模型应该明显胜过的。
如上所述的神经网络语言模型，但现在使用了标准化的单词向量，这有时会产生更好的结果。
来自 2018 年初的语言模型 (ELMo)的嵌入，已被证明在许多不同的任务中实现了最先进的结果。构建 1024 维单词向量。
通用句子编码器(使用)来自 2018 年初，一个经过训练的模型，可以在许多任务中找到有用的单词嵌入。构建 512 维单词向量。

所有四种嵌入模型都可从 TensorFlow Hub 方便地获得。

转换模型

选择转换主题向量空间的模型是很棘手的。一方面，我们希望尽可能保持原始向量空间不变。另一方面，我们希望转换足够灵活，使得单词嵌入中的信息实际上可以用于预测情感。因此，我们决定测试两种不同的转换模型:

一个简单的仿射变换。这种转换只能表示最基本的转换，如缩放、旋转、剪切和平移，因此，在某种意义上，这将测试“原始”嵌入捕获了多少信息。
由神经网络表示的更复杂的转换。我们使用具有两个隐藏层的神经网络，每个隐藏层具有 8 倍的嵌入维数、ReLU 激活函数和丢失。网络将主题向量作为输入，并输出转换后的主题向量。这种变换可以以高度非线性的方式扭曲主题空间，因此应该能够获得更高的精度。然而，它将更难训练，并且可能更容易过度适应训练集。

最终的模型将学习上述每种类型的三种转换，对应于我们想要预测的三种情绪。

纠正数据集中的不平衡

处理真实数据总是具有挑战性。特别是，如果单个情绪或主题被过度表达，模型可能会在训练过程中完全专注于此，这将使其他情绪或使用其他主题的预测远离。相反，我们希望确保该模型对所有主题和观点给予同等的权重，无论它们出现的频率如何。做出这些修正的效果是相当戏剧化的，也是值得记住的一课，所以让我们花几分钟来讨论这个问题。

数据集中的不平衡

绘制每个情绪的推文数量，数据集显示了巨大的阶级不平衡。

Distribution of sentiment classes for both the training and the test set.

特别是积极的情绪在训练数据中表现得非常突出——事实上，几乎 73%的训练推特都有积极的情绪。这意味着该模型将从学习预测积极情绪中比其他任何模型受益更多。另一方面，中性情绪与不到 10%的推文相关，如果有助于预测积极情绪，模型可能会简单地学会忽略这种情绪。

测试集中的分布明显不同。负面情绪比正面情绪更丰富，没有一条推文有中性情绪。这使得让模型平等地对待所有情绪变得更加重要。

事实上，对 NNLM 的仿射变换模型的测试表明，由于积极情绪在训练数据中普遍存在，训练的模型明显倾向于积极情绪。在这个测试中，训练数据中的主题被分成分别包含 90%和 10%主题的训练集和评估集。

A confusion matrix showing the actual sentiment of the tweets versus what the model predicted. The percentages show how often a specific, actual sentiment was predicted to be any of the three sentiments by the model. A perfect model would have 100% along the diagonal, meaning that the predictions are always correct. Here, however, it is seen that the model often chooses to predict positive sentiment, regardless of what the actual sentiment is.

该图示出了情绪预测的混淆矩阵，其中每一列对应于一个预测的情绪。每一行都显示了实际的情绪，对于每一行，每个矩阵元素的数量和颜色显示了具有这种实际情绪的推文的百分比，这些推文被预测为具有列中显示的情绪。

理想情况下，对角线应该接近 100%，这意味着预测的情绪对于几乎所有的推文都是正确的，但即使对于训练集来说，也有大量的非对角线元素。这意味着，即使模型知道正确的情绪，它也更倾向于默认预测积极的情绪。43%的负面情绪推文和超过 55%的中性情绪推文被预测为正面情绪。这对于分别为 39%和 78%的评估集来说更糟糕。

然而，在训练集和测试集中，每个主题的 tweets 数量也有很大差异。

Number of tweets associated with each topic for both the training and the test set. The topics have been sorted from left to right based on the amount of associated tweets and the their names have been omitted for clarity.

特别是对于训练集，我们看到每个主题的推文数量有明显的差异-一些主题有超过 100 条推文，而大约一半的主题只有大约 20 条或更少。

回到仿射模型的测试，查看给定主题的推文的情绪预测的平均准确性，显示推文越多的主题通常准确性越高。

The average accuracy of sentiment prediction for tweets in a given topic. There is a clear tendency in that topics with more associated tweets generally achieve a higher average accuracy.

这种趋势是有道理的:模型更多地受益于学习一种转换，这种转换对于有更多 tweets 的主题很有效。但这实际上并不是我们想要的，因为这意味着模型可能无法很好地概括。我们希望模型即使在看不见的主题上也能表现良好，在这方面过度适应几个主题可能没有帮助。

处理此类类别不平衡的一种方法是通过类别频率的倒数来衡量模型因错误预测而受到的惩罚。这意味着，对于频率较低的数据，模型会收到较大的误差，因此会更加关注这些数据。让我们看看这对模型的训练有什么影响。

纠正情绪失衡

仅用情感频率的倒数来重新训练模型和惩罚错误，我们已经获得了一个好得多的模型。

Confusion matrices for the affine model on NNML, correcting for sentiment imbalances in the training set.

对于训练集，所有情感的对角线接近 100%。评估集上的预测也有所改进，尽管还有很大的改进空间。

我们还看到训练集的每个主题的准确性有所提高，尽管这不是明确鼓励的。

Average topic accuracy for the affine model on NNML, correcting for sentiment imbalances in the training set.

有趣的是，评估集上的性能似乎有所下降。一种解释可能是，评估集中的大多数推文都有积极的情绪，因此该模型现在牺牲了一些准确性，以更好地表现消极和中性的情绪。

纠正主题不平衡

接下来，让我们看看当只使用话题频率的倒数来惩罚错误时会发生什么。这也导致了对训练集更好的情绪预测，这可能是因为不管与主题相关的推文数量如何，对主题进行同等加权会使模型暴露于更多种多样的情绪。

Confusion matrices for the affine model on NNML, correcting for topic imbalances in the training set.

但是真正的效果是在查看每个主题的准确性时看到的。对于训练集来说，准确率现在基本上与一个主题中的推文数量无关，大多数主题都接近 1。

Average topic accuracy for the affine model on NNML, correcting for topic imbalances in the training set.

修正情绪和主题的不平衡

最终的模型将基于情绪和主题的频率来衡量错误预测的惩罚。这是通过简单地将主题频率和情感频率的倒数相乘，并使用结果数量作为权重来完成的。这应该鼓励模型在训练期间平等地对待所有情绪和所有主题。

由此产生的模型确实看起来是情感和主题不平衡之间的一个很好的权衡。情绪预测相当准确，在评估集上的性能没有受到影响。

Confusion matrices for the affine model on NNML, correcting for both imbalances in the training set.

每个主题的平均准确率再次独立于与该主题相关的 tweets 的数量。

Average topic accuracy for the affine model on NNML, correcting for both imbalances in the training set.

虽然校正类不平衡对训练集明显有帮助，但在评估集上的性能仍然没有明显变化。该模型似乎不能很好地推广到新的主题，这可能意味着仿射变换限制性太强，或者训练集不能很好地代表评估集。当我们看最后的实验时，我们将回到这一点。

把所有的放在一起

现在，已经考虑了数据集中的类别不平衡，并且已经决定了嵌入和转换模型，我们准备测试模型，并且查看单词嵌入已经能够拾取多少情感信息。

设置遵循标准的机器学习方法:我们使用 10 折交叉验证 (CV)训练模型，并在测试集上评估每个折的最佳模型。这为我们提供了一种方法，当在(稍微)不同的数据集上训练时，我们可以预期模型的性能会有多大的变化。

包含一些基线实验总是一个好主意。这些应该是你能想象到的最简单的方法，如果你的高级模型不能战胜它们，你就知道有问题了。我们选择了两个简单的基线:1)使用来自训练集的最频繁的情感(这将是“积极的”)作为任何推文的预测，以及 2)使用来自训练集的随机情感作为预测。

下图显示了对所有八个模型和两个基线进行训练以及对未知测试集进行评估的结果。穿过数据点的垂直线表示穿过 10 个 CV 倍的一个标准偏差。

这里有许多有趣的观察要做。首先，任何嵌入模型都比基线有很大的改进。因此，正如预期的那样，单词嵌入捕捉到了可用于推导推文情感的信息。其次，转向 NNLM 嵌入，与仿射模型相比，当使用非线性模型时，似乎没有任何改进。这是有趣的，因为它表明嵌入空间足够简单，以至于仿射模型能够使用嵌入中可用的所有情感信息。这与较新的嵌入(ELMo 和 USE)形成对比，在 ELMo 和 USE 中，当使用非线性模型时，我们确实观察到改进，这表明这些模型学习的嵌入空间更复杂。对于 NNLM 来说，标准化的向量确实有比非标准化的向量表现更好的趋势，但在我们的实验中，这种影响并不显著。最后，虽然 ELMo 和 USE 都包含比 NNLM 嵌入更多的信息，但它们在这些实验中的表现非常相似。USE 包含的信息似乎比 ELMo 稍多，但并不多。然而，这仍然是有趣的，因为使用嵌入空间的维数比 ELMo 空间低得多，因此，模型的训练要快得多。

我们到了吗？

不，绝对不行。关于单词嵌入的信息内容，有许多有趣的问题需要回答。

例如，我们用三分制(消极、中立、积极)来处理情绪。扩展到更细粒度的情感，比如五分制，将需要更多的嵌入。嵌入包含这么多信息吗？

询问巨大的嵌入空间是否必要也是合理的。ELMo 嵌入是 1024 维的，但是信息可能嵌入在更低维的空间中。嵌入空间的维数减少如何影响情感的预测？

当测试主题空间的两种不同转换时，我们发现只有较新的嵌入需要非线性转换。扩展转换的类型，包括创建一些更复杂的神经网络，以及测试哪些嵌入受益于哪些转换，这将是很有趣的。这可能会让我们深入了解不同嵌入空间的复杂性。

外卖

在这个项目中，我们想测试不同的单词嵌入携带了多少关于推文情感的信息。我们通过构建两个模型来预测尽可能无干扰的情感，使我们能够看到原始单词嵌入包含多少情感信息。

结果显示，新旧单词嵌入确实携带了情感信息，并且新的嵌入比旧的嵌入包含更多信息，这并不奇怪。结果还表明，对于较新的嵌入，主题向量的非线性变换比仿射变换表现得好得多，这表明这些空间比较旧的嵌入更复杂。

总之，单词嵌入通常包含很多关于推文情感的信息，新的嵌入包含更多的信息。虽然并不令人意外，但它强调了高级嵌入模型对预测推文情绪的重要性。

承认

该项目是谢菲尔德大学计算机科学系 SoBigData 2017 短期科学任务(STSM) 的一部分，与 Diana Maynard 博士合作完成。非常感谢 Isabelle Augenstein 博士在整个项目过程中提供的大量讨论和建议。

让数据科学面试变得更好

原文：https://towardsdatascience.com/making-data-science-interviews-better-f6bba15d02df?source=collection_archive---------19-----------------------

Photo by Kaleidico on Unsplash

关于如何改进数据科学面试流程的一些未经请求的建议

我从求职者的角度思考并写了不少关于招聘过程的文章。但最近，在观察了我的朋友们(和其他新兵训练营的毕业生)一次又一次的面试后，我对公司如何更好地面试有了一些建设性的反馈。

面试官没有提前解决的商业案例问题

商业案例面试的实际目标是什么？这是为了测试应聘者在面对开放式问题时批判性思维和创造性思维的能力。

但是作为面试官，你如何评估这些事情呢？批判性思考部分没有那么难——如果这个人在基本的商业战略问题上磕磕绊绊，或者提出没有意义的建议(根据上下文),那么很可能是不行的。

创造性思维和为问题制定新颖解决方案的能力更难评估。我认为面试官(和一般公司)目前在这个方面做得不好——尽管事实上案例面试的主要目的是衡量这种能力。

在我看来，问题在于面试官在进行面试时更喜欢使用已知的、已解决的商业案例(通常是他们自己曾经做过的)。原因很明显:

由于已经做过，对面试官来说相对来说并不费力——他或她已经知道答案以及如何处理这个案例。
不存在不确定性(也没有看起来愚蠢的风险)。一般来说，包括面试官在内的人都会回避不确定性和风险。

但这些好处也是为什么案例面试没有公司普遍认为的那么有效的原因。

什么时候人们最容易接受新的和新奇的建议？答案是——当他们自己不确定答案是什么的时候。如果他们心中已经有了一个答案，特别是如果这个答案是他们自己想出来的，那么这些人就会被固定下来，可能会有偏见。在这些情况下，如果候选人提出了一个与你不同的解决方案，你可能会花时间解释为什么你的方法更好，为什么他们的方法是错的，而你实际上应该客观地评估候选人的答案。

如果面试官事先不知道答案，面试就变成了一个来回的头脑风暴会议——更准确地模拟了两个人一起工作的情形。与现在相反，案例面试往往会变成面试官坐在那里等着听到某个特定的关键词或概念，而候选人拼命地唠叨，试图检查所有的方框。

所以，公司和面试官们，我恳求你们试试我的建议。如果你带着一个未解决的问题去面试，并且向解决方案迈近了 5%,这难道不是一个强有力的证据，证明雇佣这个候选人会带来互惠互利的工作关系吗？

关注候选人提出正确问题的能力

我个人认为，如果你能提出正确的问题，那么你就成功了 80%。如果你知道如何对数据提出正确的问题并设计正确的实验(来回答这些问题)，我会比你记住 OLS 的推导印象更深刻。

是的，花式数学隐含着一定程度的知识和教育。将您的想法合理快速地映射到 Python 代码的能力也很重要。但是我们生活在一个谷歌、维基百科、YouTube 教程和堆栈溢出的世界里。

想想你如何解决工作中的实际问题:

首先，你将复杂的开放式问题转化为一系列不太开放的问题，这些问题可以通过你已经拥有或能够收集的数据来解决。
然后你收集数据并进行实验。
在这样做的时候，如果有你不确定如何写的代码或者一个你不熟悉的算法，你就失去了你的搜索技巧，很可能以栈溢出而告终。

因此，在你的头脑中已经有一个端到端的解决方案几乎是不可能的。因此，你不应该期望你的候选人也有。更确切地说，是评估他们提出正确问题的能力，以及他们足智多谋和快速学习的能力— 因为这些是候选人为你的组织增加价值的能力的更好的长期指标。

感谢阅读，干杯！

我最近的一些帖子，希望你能看看:

利用 OpenVINO toolkit，让深度学习模型为最坏的情况做好准备，并为跨平台做好准备。

原文：https://towardsdatascience.com/making-deep-learning-models-ready-for-the-worst-case-scenario-and-cross-platform-ready-with-c62284f87808?source=collection_archive---------29-----------------------

Photo by Fatos Bytyqi on Unsplash

随着 2020 年的到来，深度学习专家和爱好者社区期待着该领域创新的重要一年。随着世界各地每天都在构建越来越多的深度学习模型，人类对云和网络(尤其是 TCP)的依赖日益扩大。你可能会想，云依赖有什么问题吗？

最坏的情况:

估计你家里有一个面部检测锁，但建造不当，因为开发人员将模型安装在云上，设备必须使用云服务进行推理。现在，突然有一天，当你面对一个非常糟糕的网络连接，并且没有配置任何安全覆盖方法时，你将成为你的安全系统的受害者。

这种情况的另一个真实例子是位于印度奥里萨邦 Bhuvneshwar 的一家著名多专业医院的故事。他们训练有素地拥有一个深度学习网络，经过适当的训练和领域专业知识的调整，但它的实现方式是，它必须通过 TCP 将患者每秒的心率作为流发送到 web 服务器，以确定心肌梗死。在一场毁灭性的飓风袭击了沿海的奥里萨邦后，这个系统就没用了，因为根本没有手机连接。

如果不采取适当的步骤来部署在任何时刻做出关键决策所需的深度学习模型，该模型可能会面临最糟糕的考验。随着深度学习模型在关键决策操作中的快速发展，如果不考虑边缘情况进行配置，它可能会面临相同的抖振情况。如果安全监控或医疗保健系统突然失灵，可能会发生巨大的问题。

为了使这些模型免受这些问题的影响，我们需要以这样一种方式实现这些模型，即这些模型可以执行实时决策，而不需要连接到任何其他云服务或互联网。事实证明，这种方法更加安全，因为部署的模型在互联网范围之外，因此需要最高安全级别的工作负载可以直接在设备中实施。爱好者称这些 AI 模型为 Edge AI。在这个方案中，模型被直接放置在设备中，并且它们不需要网络连接来进行推理。我们现在将了解这是如何实现的。

中间代表:

我们使用 Tensorflow、Caffe、Pytorch、ONNX 等不同框架构建和训练的模型。可能非常大、资源匮乏，也可能依赖于架构，例如受限于特定平台或 CPU/GPU 内核。为了使这些模型能够成功地从任何设备或任何地方提供推理，我们需要将模型转换为中间表示格式，这包括模型在。xml 格式以及。bin 格式。

使用 OpenVINO toolkit 获取不同的模型并将其转换为 IR 格式:

OpenVino Toolkit ( 开放视觉推理和神经网络优化工具包 ) 是OpenCV 团队最初开发的一个开源深度学习工具包，包括不同的工具，使用模型优化器工具将不同的深度学习模型转换成 IR 格式。在转换由不同框架组成的模型的过程中，模型优化器工具只是作为一个翻译器，它实际上只是翻译经常使用的深度学习操作，如我们看到的 Tensorflow、Conv2D、Conv3D、Dropout、Dense、BatchNormalization 等。对于 Caffe，我们使用卷积、dropout_layer 等。并使用来自训练模型的相关权重和偏差来调整它们。英特尔发布的 OpenVINO toolkit 在以下网站上提供了大量不同的预训练模型，您可以将其部署到不同的设备上。这些预先训练好的模型可以通过模型下载器工具直接下载。使用模型下载器工具下载的预训练模型已经以具有不同精度级别的中间表示格式出现。这些精度水平实际上是模型的保存的权重和偏差的精度水平。不同的精度级别包括 FP32(32 位浮点)、FP16(16 位浮点)、INT16(16 位整数)、INT8(8 位整数，仅适用于预训练模型)等等。这些精度级别实际上很重要，因为它们易于部署到不同的平台上。精度越低，结果越不准确，但模型运行所需的资源少得多，因此可以完全部署到边缘设备中，而不会严重影响设备和模型的性能。让我们看看如何使用模型下载器从英特尔 OpenVINO toolkit 网站下载预先训练好的模型，以及如何使用它们对给定输入进行推断。

以下是预训练模型的链接，包含在输入模型之前对输入进行预处理的文档。

** [## 车辆-属性-识别-障碍-0039-open vino 工具包

该模型提出了一种用于交通分析场景的车辆属性分类算法。颜色平均…

docs.openvinotoolkit.org](https://docs.openvinotoolkit.org/latest/_models_intel_vehicle_attributes_recognition_barrier_0039_description_vehicle_attributes_recognition_barrier_0039.html)

假设在您的本地机器上安装并正确配置了 OpenVINO toolkit，那么让我们直接进入下载上述模型的过程。转到您的 OpenVINO 安装目录，使用管理员权限打开终端或命令提示符。现在，要下载上述模型，发出以下命令:

python C:/<OPENVINO_INSTALLATION_DIRECTORY>/openvino/deployment_tools/tools/model_downloader/downloader.py --name vehicle-attributes-recognition-barrier-0039 --progress_format=json --precisions FP16,INT8 -o \Users\<USER_ID>\Desktop

上述命令使用 downloader.py python 程序来解析命令行参数:

— name:用于提供模型名称(如果用“— all”代替— name，将下载所有可用的预训练模型)。
—精度:用于提供不同的精度级别(如果没有提供，将下载模型的所有可用精度级别)
— progress_format=json:将进度报告的格式设置为 json 格式，程序可以对其进行分析。

Downloading pre-trained models from OpenVINO toolkit already in Intermediate Representation format.

中检查上述模型的中间表示。它是模型的架构模式。bin 文件包含权重和偏差。在。xml 文件，你可以在 XML 标签之间看到深度学习模型的不同层和属性可以在上面的格式中感知。

<layers>
............
<layer >  .......... </layer>
<layer> ...........</layer></layers>

.xml file of the pre-trained model

使用中间表示进行推理:

使用 IR 模型格式进行推理非常简单。对于上面的这个模型，我们需要根据输入尺寸对图像进行预处理，并恢复颜色通道。对于推理网络，我们需要使用。load_model()函数与模型。xml 文件

from inference import Network
inference_network = Network()
inference_network.load_model("/<MODEL_DOWNLOAD_FOLDER>/vehicle-attributes-recognition-barrier-0039.xml","CPU",   "/<OPENVINO_INSTALL_DIRECTORY>/openvino/deployment_tools/inference_engine/lib/intel64/libcpu_extension_sse4.so")
inference_network.sync_inference(preprocessed_image)
output = inference_network.extract_output()

现在需要处理推理网络的输出，并且需要使用 argmax 函数选择最大值。因此，我们需要以下面的方式处理输出，以确定汽车的类型及其颜色，并将文本叠加到输入图像上，作为推断的结果。

def handle_car(output, input_shape):
    color = output["color"]
    color_class = np.argmax(color)
    car_type = output["type"]
    type_class = np.argmax(car_type)
    return color_class, type_class

Input Image in the left. After the inference, the output is printed on top of the image.

将张量流模型转换为中间表示；

为了将 Tensorflow 模型转换为 IR 格式，我们需要获取保存在中的 Tensorflow 中训练的模型。pb 格式。剩下的非常非常简单，很容易实现。为了使用 OpenVINO 模型优化器将模型转换为 IR 格式，需要冻结张量流图。冻结 Tensorflow 模型意味着删除模型的预处理和训练相关元数据，以减小模型的大小，从而更容易部署。Tensorflow 提供了冻结和解冻深度学习图的内置功能。*.ckpt 文件包含冻结张量流模型的元图。

from tensorflow.python.tools import freeze_graph
freeze_graph.freeze_graph('Model.pbtxt', "", False,                           './Model.ckpt', "output/softmax",                           "save/restore_all", "save/Const:0",                           'Model.pb', True, "")

由于模型现在被冻结，所以它现在可以被直接转换成中间表示。以管理员权限进入终端或命令提示符，键入以下命令:

python C:/<OPENVINO_INSTALL_DIRECTORY>/openvino/deployment_tools/model_optimizer/mo_tf.py --input_model= /<MODEL_DOWNLOAD_DIRECTORY>.pb --tensorflow_use_custom_operations_config C:/<OPENVINO_INSTALL_DIRECTORY>/openvino/deployment_tools/model_optimizer/extensions/front/tf/ssd_v2_support.json --tensorflow_object_detection_api_pipeline_config /<MODEL_DOWNLOAD_DIRECTORY>/pipeline.config --reverse_input_channels

我们将使用reverse _ input _ channels到反转颜色通道顺序，因为 OpenCV 使用 BGR 通道而不是 RGB 格式。为了调用对象检测 API 管道，我们需要将 pipeline.config 文件作为命令行参数传递给标志tensor flow _ object _ detection _ API _ pipeline _ config，以便正确配置模型的 IR。在上面和下面的示例中，我们将使用一个实际上是单次多盒检测器(SSD)的模型，因此我们需要使用tensor flow _ use _ custom _ operations _ config参数进一步指定命令，并传入一个 JSON 格式的配置文件。我们指定模型的。pb 文件使用 input_model 自变量。根据网络的深度，转换过程需要很长时间。

例如，我们使用 curl 下载一个预训练的 Tensorflow 模型，并使用tar -xvf提取 tarball

The Details of the Conversion Procedure can be seen in the image above.

On successful execution, the file location of the Intermediate representation of the Tensorflow model can be seen above.

将 Caffe 模型转换为中间表示:

为了将 Caffe 模型转换为 IR 格式，我们不需要像在 TensorFlow 模型中那样通过冻结它们来进行任何特殊类型的预处理。要转换成 IR，我们只需要在*中指定模型文件的位置。caffemodel 使用 input_model 参数，如果它包含一个名称与模型名称不同的 protobuf 文本文件，我们需要使用 input_proto 参数指定它的位置。

对于这个例子，下面我们将 GitHub 中的一个预先训练好的 Caffe 模型下载到我们的 Linux 机器中。并发出了以下命令:

python <OPENVINO_INSTALL_DIRECTORY>/openvino/deployment_tools/model_optimizer/mo.py --input_model <NAME_OF_MODEL>.caffemodel --input_proto <NAME_OF_DEPLOYMENT_PROTOBUF_TEXT>.prototxt

Conversion Procedure into IR from a model trained in Caffe.

因此，在上文中，我们讨论了如何通过 OpenVINO toolkit 的帮助，使用直接部署到设备中，以简单的方式将大型资源饥渴的深度学习模型转换为小型自治系统。在这种部署方式下，模型的数据流变得更加安全、快速和轻便。我们可以轻松降低在云系统的服务器上处理敏感信息的成本，我们可以通过每台设备提供超级敏捷的人工智能体验。

祝大家新年快乐！

真理可以有一千种不同的表达方式，但每一种都可能是真实的~斯瓦米·维威卡难达。**

让深度神经网络绘画来理解它们是如何工作的

原文：https://towardsdatascience.com/making-deep-neural-networks-paint-to-understand-how-they-work-4be0901582ee?source=collection_archive---------12-----------------------

深度学习的效果如此之好，这是一个谜。尽管有一些关于为什么深度神经网络如此有效的暗示，但事实是没有人完全确定，对深度学习的理论理解是一个非常活跃的研究领域。

在本教程中，我们将以一种不寻常的方式触及问题的一个微小方面。我们将让神经网络为我们描绘抽象的图像，然后我们将解释这些图像，以发展对引擎盖下可能发生的事情的更好的直觉。另外，作为奖励，在本教程结束时，您将能够生成如下图像(所有内容都少于 100 行 PyTorch 代码。点击查看陪同朱庇特的笔记本:

My neural network wants to be a painter when it grows up.

这个图像是怎么产生的？

这张图片是由一个叫做组合模式产生网络 (CPPN)的简单架构生成的，我是通过这篇博文了解到这个架构的。在那篇博文中，作者通过用 JavaScript 编写的神经网络生成了抽象图像。我的代码在 PyTorch 中实现了它们。

通过神经网络生成图像的一种方法是让它们一次输出完整的图像，比如说类似下面的内容，其中称为“生成器”的神经网络将随机噪声作为输入，并在输出层中生成完整的图像(宽度*高度)。

Image via A Short Introduction to Generative Adversarial Networks

与输出整个图像相反，CPPNs(我们将要探索的架构)输出给定位置像素的颜色(作为输入提供给它)。

Image via Generating Abstract Patterns with TensorFlow

忽略上图中的 z 和 r，注意网络正在接收像素的 x ， y 坐标，并输出该像素应该是什么颜色(由 c 表示)。这种网络的 PyTorch 模型如下所示:

注意，它有 2 个输入，3 个输出(像素的 RGB 值)。生成整个图像的方法是输入所需图像(特定大小)的所有 x，y 位置，并将这些 x，y 位置的颜色设置为网络输出的颜色。

神经网络实验

我第一次尝试运行你在上面看到的神经网络时，我最终生成了这些图像。

If I had buyers for this art, I’d sell it in a jiffy.

我花了好几个小时挠头，想知道为什么网络输出的是灰色，而不管我输入的是什么 x，y 位置。理想情况下，这是不应该发生的，因为对于这样一个深度网络。改变输入值应该改变输出值。我还知道，每次初始化神经网络时，它都有可能生成一个全新的图像，因为它的参数(权重和偏差)是随机初始化的。但是很明显，即使经过几次尝试，我从我的神经网络得到的只是这种灰色的粘性物质。为什么？

我的怀疑集中在所使用的特定激活功能上: tanh 。也许后续层中的多个 tanh 序列将所有输入数字压缩到接近 0.5。在输出层(代表灰色)。然而，我关注的博客帖子也使用了 tanh。我所做的只是把用 JavaScript 编写的博客神经网络转换成 PyTorch，没有任何改动。

我终于找到了罪魁祸首。这就是 PyTorch 在初始化新的神经网络时初始化权重的方式。根据他们的用户论坛，他们用一个从-1/sqrt(N)到+1/sqrt(N)范围内随机抽取的数字初始化权重，其中 N 是一层中输入连接的数量。因此，如果隐藏层的 N=16，权重将从-1/4 到+1/4 初始化。我的假设是为什么这会导致一种灰色的粘性物质，因为重量来自一个很小的范围，并且变化不大。

如果网络中的所有权重都在-1/4 到+1/4 之间，当乘以任何输入并加在一起时，也许会发生类似于中心极限定理的效应。

中心极限定理(CLT)证明，在某些情况下，添加独立的随机变量时，即使原始变量本身不是正态分布的，它们的正态和也趋向于正态分布(非正式的“钟形曲线”)

回想一下后续图层上的值是如何计算的。

Image via For Dummies — The Introduction to Neural Networks we all need !

在我们的例子中，第一个输入层有 2 个值(x，y ),第二个隐藏层有 16 个神经元。因此，第二层上的每个神经元得到 2 个乘以从-1/4 到+1/4 的权重的值。这些值相加，然后在它从激活函数 tanh 出来后，变成新值，传递给第三层。

现在，从第二层开始，有 16 个输入要传递给第三层中 16 个神经元的每个。假设这些值中的每一个都由 z. 表示，那么第三层中每个神经元的值是:

这里我们再做一个猜测。因为权重的方差更小(-1/4 到+1/4)，z 的值(输入 x，y 乘以权重，然后通过 tanh 函数)也不会有很大变化(因此会很相似)。因此，该等式可以被视为:

并且对于每个神经元，从-0.25 到+0.25 抽取的 16 个权重之和的最有可能的值是零。即使在第一层，总和不接近零，网络的八层给了上述等式足够的机会最终产生接近零的值。因此，不管输入值(x，y)如何，进入激活函数的总值(权重之和*输入)总是接近零值，其 tanh 映射为零(因此，所有后续层中的值保持为零)。

X-axis is inputs to TanH, and Y-axis is output. Note that 0 is mapped to 0.

颜色灰暗是什么原因？这是因为 sigmoid(最后一层的激活函数)将这个传入值 0 映射到 0.5(表示灰色，0 表示黑色，1 表示白色)。

Note how Sigmoid maps 0 input value to 0.5

灰色粘稠物怎么修？

因为罪魁祸首是重量的小偏差，我的下一步是增加它。我更改了默认的初始化函数，将权重从-100 分配到+100(而不是-1/4 到+1/4)。现在运行神经网络，这是我得到的:

Voila! Grey goo is now some blobs of color.

这是一个进步。我的假设是正确的。

但是生成的图像仍然没有太多的结构。太简单化了。

这个神经网络正在做的是将输入乘以权重，推动它们通过 tanh 并最终通过 sigmoid 输出颜色。既然我固定了权重，我可以固定输入以使输出图像更有趣吗？嗯。

请注意，上面的图像是在我输入 X，Y 作为原始像素坐标时生成的，从 0，0 开始，到 128，128 结束(这是图像的大小)。这意味着我的网络从未将负数视为输入，而且由于这些数字很大(比如 X，Y 可能是 100，100)， tanh 要么得到一个非常大的数字(它挤压成+1)，要么得到一个非常小的数字(它挤压成-1)。这就是为什么我看到原色的简单组合(例如，0，1，1 的 R，G，B 输出代表你在上面的图像中看到的青色)。

如何让图像更有趣？

就像在最初的博文中一样(这是我一直在关注的)，我决定将 X 和 y 归一化，所以我将输入(X/image_size)-0.5，而不是输入 X。这意味着 X 和 Y 的值将在-0.5 到+0.5 的范围内(与图像大小无关)。这样做，我得到了下面的图像:

Some more progress!

有趣的是，在前面的图像中，线条在右下方增长(因为 X，Y 值在增加)。在这里，由于 X，Y 值是归一化的，并且现在包括负数，所以线条均匀地向外增长。

但是，图像仍然不够漂亮。

如何让图像更加有趣？

如果你仔细观察，你会发现在图像的中间，似乎比边缘有更多的结构。这是数学之神给我们的暗示，我们应该放大那里去发现美。

有三种向图像中心放大的方法:

产生大图像。由于像素坐标是归一化的，我们可以简单地运行神经网络来产生更大的图像。之后，我们可以通过图像编辑工具放大中间，看看我们发现了什么。
将 X 和 Y 输入乘以一个小数值(缩放因子)，这将有效地实现与前面的方法相同的事情(并避免我们在其余不感兴趣的区域上运行浪费的计算)
由于输出是由输入*权重决定的，我们也可以通过将权重值从-100、+100 减少到+3、-3(记住不要减少太多)来缩放，而不是减少输入值。还记得重量在-0.25 到+0.25 之间时出现的灰色粘性物质吗？)

当我采用第二种方法，将 X 和 Y 乘以 0.01 时，我得到的结果如下:

I call it the Neural-Mondrian!

当我采用第三种方法并将权重初始化为-3 到+3 之间时，我得到了下面的图像。

Is your mind blown yet?

毫无意义的实验，但是很有趣

如果我们将每层的神经元数量从 8 个增加到 128 个(一个数量级的增加)会怎么样。

Neuro-pollock!

如果我们从每个隐藏层 128 个神经元开始，但在每个后续层中逐渐减半，如下所示。

这是我得到的:

This one looks more “natural” than others.

还有吨更多的实验可以做，并获得有趣的图像，所以我会把它留在这里给你玩的代码 (Jupyter 笔记本)。尝试更多的架构、激活和层。如果你有什么有趣的东西，在 Twitter 上给我加标签，或者在 Medium 上评论，我会在我的网络上分享。

或者你可以把神经网络生成的图像与神经网络生成的哲学结合起来，做出这样的东西:

My neural network is a stoic.

就是这样。希望你有兴趣生成漂亮的图像。

喜欢这个教程吗？也看看我以前的作品:

让你的神经网络说“我不知道”——贝叶斯神经网络使用 Pyro 和 PyTorch 。在 MNIST 数据集上编写贝叶斯图像分类器的教程+代码。
通过机器学习为机器学习项目产生新的想法。使用预先训练的语言模型从 2.5k 句子的小型语料库中生成风格特定的文本。PyTorch 代码
无梯度强化学习:使用遗传算法进化智能体。在 PyTorch 中实现深度神经进化为 CartPole 进化一个 agent 代码+教程]

在 Twitter 上关注我

我定期发关于人工智能、深度学习、创业公司、科学和哲学的推特。跟着我上https://twitter.com/paraschopra

[## Paras Chopra (@paraschopra) |推特

Paras Chopra 的最新推文(@paraschopra)。@Wingify |的创始人兼董事长写道…

twitter.com](https://twitter.com/paraschopra)

用不到 15 行代码在 R 语言中制作交互式地图

原文：https://towardsdatascience.com/making-interactive-maps-in-r-with-less-than-15-lines-of-code-bfd81f587e12?source=collection_archive---------3-----------------------

如果你有地理数据，你会想把它显示在地图上。只用几行简单的代码，我们就可以用 r 语言制作一个漂亮的地图。我假设你的电脑上已经安装了 R and R 工作室。

我强烈建议您在自己的计算机上跟随。我在这个项目中使用的数据可以在这个链接获得，它显示了我在过去几年中参观过的所有博物馆。我建议要么下载它，要么找到你自己的地理空间数据来玩。你应该查看我的数据，虽然检查我在做什么。

我还将在 R 中使用管道操作符，这有时会令人困惑，看起来像这样%>%。管道运算符将左边的对象作为右边函数的第一个参数。因此，以下几行 R 代码是等价的:

print(sum(c(1,2,3,4,5)))c(1,2,3,4,5) %>% sum() %>% print()

我们将使用 2 个外包装，传单和 tidyverse。传单构建在 JavaScript 之上，对映射很有用(使用它不需要 JavaScript 知识)。tidyverse 是一个超级包，包含许多其他包，用于读取、组织和清理数据。知道 tidyverse 有很高的投资回报，我建议学习它。

步骤 1:安装软件包

我们在 R Studio 的控制台中运行这些代码行来安装所需的包。

install.packages("tidyverse")install.packages("leaflet")

步骤 2:加载包

从现在开始，我们将在一个新的脚本文件中运行我们的代码。我们现在用 library()函数加载包。

library("tidyverse")
library("leaflet")

步骤 3:加载数据

接下来，我们使用 tidyverse 中的 read_csv()函数读入数据。您可能需要在 read_csv()函数中更改 csv 的文件路径。

library("tidyverse")
library("leaflet")museum <- read_csv("museum.csv")

步骤 4:添加瓷砖

步骤 4A:首先，我们必须使用管道将数据传递给传单函数。光靠这个是做不出地图的。
第 4B 步:在这个链接处挑选出图块(地图的样子)。
步骤 4C:将传单函数的输出传递给 addProviderTiles()函数，唯一的参数是您在步骤 4B 中选择的图块。我选了雄蕊。

library("tidyverse")
library("leaflet")museum <- read_csv("museum.csv")museum %>% 
leaflet() %>%
addProviderTiles(providers$Stamen.TonerLite)

从现在开始，我建议在每一步结束时运行所有代码，看看地图是否合你的意。

步骤 5:添加多个图块

步骤 5A:选择另一组要添加的图块。
步骤 5B:使用组参数为每个切片命名，我选择了 ESRI . world imagery。
步骤 5C:添加图层控制(这使您可以看到两个切片)。您可以在右上角选择想要查看的互动程序

library("tidyverse")
library("leaflet")museum <- read_csv("museum.csv")museum %>% 
leaflet() %>%
addProviderTiles(providers$Esri.WorldImagery, group = "World Imagery") %>%
addProviderTiles(providers$Stamen.TonerLite, group = "Toner Lite") %>%
addLayersControl(baseGroups = c("Toner Lite", "World Imagery"))

步骤 6:使用数据向地图添加标记

步骤 6A:使用 addMarkers()函数，如果你的数据集有纬度和经度(或它们的缩写)，你不需要填写纬度和液化天然气的参数。
步骤 6B:您可以选择设置标签和弹出参数，以便当您将鼠标悬停在标记上或单击它时显示信息。

library("tidyverse")
library("leaflet")museum <- read_csv("museum.csv")museum %>% 
leaflet() %>%
addProviderTiles(providers$Esri.WorldImagery, group = "World Imagery") %>%
addProviderTiles(providers$Stamen.TonerLite, group = "Toner Lite") %>%
addLayersControl(baseGroups = c("Toner Lite", "World Imagery")) %>%
addMarkers(label = museum$museum, 
           popup = ifelse(museum$`Presidential Library`=="Yes",
                          "A Presidential Library", # Value if True
                          "Not a Presidential Library")) # Val False

步骤 7:添加集群

如果你有很多很多的数据点，这是一件很好的事情，这样你的地图就不会被淹没。如果你们有非常接近的点，这也很好。我们需要做的就是用 clusterOptions 参数更新我们的 addMarkers()函数。

library("tidyverse")
library("leaflet")museum <- read_csv("museum.csv")museum %>%
leaflet() %>%
addProviderTiles(providers$Esri.WorldImagery, group = "World Imagery") %>%
addProviderTiles(providers$Stamen.TonerLite, group = "Toner Lite") %>%
addLayersControl(baseGroups = c("Toner Lite", "World Imagery")) %>%
addMarkers(label = museum$museum,
           clusterOptions = markerClusterOptions(),
           popup = ifelse(museum$`Presidential Library`=="Yes",
                          "A Presidential Library",
                          "Not a Presidential Library"))

步骤 8:设置开始缩放

这一步并不是必需的，但是如果您想将地图集中在一个特定的位置，您可以使用 setView()函数。我会关注亚特兰大。

library("tidyverse")
library("leaflet")museum <- read_csv("museum.csv")museum %>%
leaflet() %>%
addProviderTiles(providers$Esri.WorldImagery, group = "World Imagery") %>%
addProviderTiles(providers$Stamen.TonerLite, group = "Toner Lite") %>%
addLayersControl(baseGroups = c("Toner Lite", "World Imagery")) %>%
addMarkers(label = museum$museum,
           clusterOptions = markerClusterOptions(),
           popup = ifelse(museum$`Presidential Library`=="Yes",
                          "A Presidential Library",
                          "Not a Presidential Library")) %>%
setView(lat = 33.736309, lng = -84.388298, zoom = 11)

步骤 9:添加小地图

要添加一个小地图到我们的地图，我们只需要使用 addMiniMap()函数。您可以使用 addMiniMap()调整的两个参数是更改图块(这允许您更改地图背景，就像在主视图中一样)和 toggleDisplay(这允许您隐藏地图)。

library("tidyverse")
library("leaflet")museum <- read_csv("museum.csv")museum %>%
leaflet() %>%
addProviderTiles(providers$Esri.WorldImagery, group = "World Imagery") %>%
addProviderTiles(providers$Stamen.TonerLite, group = "Toner Lite") %>%
addLayersControl(baseGroups = c("Toner Lite", "World Imagery")) %>%
addMarkers(label = museum$museum,
           clusterOptions = markerClusterOptions(),
           popup = ifelse(museum$`Presidential Library`=="Yes",
                          "A Presidential Library",
                          "Not a Presidential Library")) %>%
setView(lat = 33.736309, lng = -84.388298, zoom = 11) %>%
addMiniMap(
    toggleDisplay = TRUE,
    tiles = providers$Stamen.TonerLite
    )

我们完了！您可能已经注意到这比 15 行稍微多一点，我选择通过将函数分成多行来优化可读性。祝你所有的地理空间工作好运！

用机器学习制作音乐

原文：https://towardsdatascience.com/making-music-with-machine-learning-908ff1b57636?source=collection_archive---------4-----------------------

Image from https://www.maxpixel.net/Circle-Structure-Music-Points-Clef-Pattern-Heart-1790837

音乐不仅仅是一门艺术，音乐是人类状态的一种表达。当一个艺术家创作一首歌的时候，你经常可以听到他们在那一刻的情感、经历和能量。音乐将世界各地的人们联系在一起，并在不同文化间共享。所以计算机不可能和它竞争，对吗？这是我和我的小组在为我们的机器学习课选择学期项目时问的问题。我们的目标是创造一些东西，让听众相信他们正在听的东西是由人类创造的。我认为我们个人取得了成功，但我会让你来评判(见本文底部的结果)。

方法

为了创作音乐，我们需要某种方法来学习现有歌曲的模式和行为，以便我们能够再现听起来像真实音乐的东西。我们所有人都对深度学习感兴趣，所以我们认为这是探索这项技术的绝佳机会。首先，我们研究了这个问题的现有解决方案，发现了来自sigur skúLi的关于如何使用 Keras 生成音乐的精彩教程。读完他们的教程后，我们对自己想做的事情有了一个很好的想法。

文件格式很重要，因为它将决定我们如何处理这个问题。教程使用了 midi 文件，所以我们照着做了，并决定也使用它们，因为它们很容易解析和学习(你可以在这里了解更多)。使用 midi 文件给了我们几个好处，因为我们可以很容易地检测音符的音高和持续时间。但是在我们一头扎进去，开始建立我们的网络之前，我们需要更多的关于音乐是如何构成的以及需要考虑的模式的信息。为此，我们去找了我的好朋友米奇·伯迪克。他帮助我们确定了一些关于我们方法的事情，并给我们上了一堂简单音乐理论的速成课。

在我们的谈话之后，我们意识到时间步长和序列长度将是我们网络的两个重要因素。时间步长决定了我们何时分析和产生每个音符，而序列长度决定了我们如何学习歌曲中的模式。对于我们的解决方案，我们选择 0.25 秒的时间步长和每个时间步长 8 个音符。这相当于 4/4 的拍号，对我们来说意味着 4 个音符的 8 个不同序列。通过学习这些序列并重复它们，我们可以生成一个听起来像真正音乐的模式，并以此为基础进行构建。作为起点，我们使用了 Skúli 的教程中提到的代码，但是最终我们的实现在几个方面与最初的有所不同:

网络体系结构
仅限于单键
可变长度音符和休止符的使用
歌曲结构/模式的使用

网络体系结构

对于我们的架构，我们决定主要依靠双向长短期记忆(BLSTM)层。下面是我们使用的 Keras 代码:

model = Sequential()
model.add(
    Bidirectional(
        LSTM(512, return_sequences=True),
        input_shape=(
            network_input.shape[1], network_input.shape[2]),
    )
)
model.add(Dropout(0.3))
model.add(Bidirectional(LSTM(512)))
model.add(Dense(n_vocab))
model.add(Activation("softmax"))
model.compile(loss="categorical_crossentropy", optimizer="rmsprop")

我们的想法是，通过使用歌曲中特定位置前后的音符，我们可以生成听起来像人类的旋律。通常在听音乐的时候，之前的音乐有助于听者预测接下来的音乐。有很多次，当我在听一首歌的时候，我可以随着特定的节拍摇摆，因为我可以预测接下来会发生什么。这正是在一首歌中逐渐形成一个落差时会发生的情况。这首歌变得越来越强烈，这使得听众在期待下降时产生紧张感，并在最终下降时产生解脱和兴奋的时刻。通过利用这一点，我们能够产生听起来自然的节拍，并带来我们已经习惯于在现代音乐中期待的同样的情感。

对于 BLSTM 层中的节点数量，我们选择 512，因为这是 Skúli 使用的数量。然而，我们确实对此做了一点试验，但是由于时间限制，我们最终坚持使用原来的数字。30%的辍学率也是如此(点击阅读更多关于辍学率的信息)。对于激活函数，我们选择了 softmax，对于损失函数，我们选择了分类交叉熵，因为它们很适合多类分类问题，如音符预测(你可以在这里阅读更多关于它们的信息)。最后，我们选择 RMSprop 作为我们的优化器，因为这是 Keras 为 RNNs 推荐的。

关键限制

我们做的一个重要假设是，我们将只使用来自同一个调的歌曲:c 大调/A 小调。这样做的原因是，通过让我们制作的每首歌曲都保持同一个调，我们的输出听起来会更像歌曲，因为网络永远不会学习会导致歌曲跑调的音符。为了做到这一点，我们使用了一个脚本，我们发现在这里从尼克凯利。这部分真的很简单，但给我们的结果带来了巨大的改善。

可变长度音符和休止符

音乐的一个重要部分是动态和创造性地使用可变长度的音符和休止符。吉他手敲击的一个长音符，随后是一个平静的停顿，当我们听到演奏者的心和灵魂向这个世界溢出时，这可以向听者发出情感的波动。为了抓住这一点，我们研究了引入长音符、短音符和休止符的方法，这样我们就可以在整首歌中创造不同的情感。

为了实现这一点，我们研究了一个音符的音高和持续时间，并将其作为一个独立的值输入到我们的网络中。这意味着播放 0.5 秒的 C#和播放 1 秒的 C#将被网络视为不同的值。这使我们能够了解哪些音高比其他音高演奏得长或短，并使我们能够结合音符来制作一些听起来自然且适合歌曲该部分的东西。

当然，休止符是不能被遗忘的，因为它们对于引导听众进入期待或兴奋的状态至关重要。一个缓慢的音符和一个停顿，然后是一连串快速的音符，可以创造出一种不同于几个长音符之间长时间停顿的情感。我们认为这一点很重要，这样才能复制听众在听一首轻松的周日下午歌曲或周五晚上的派对歌曲时的体验。

为了实现这些目标，我们必须关注我们的预处理。这里，我们再次从 Skúli 教程中的代码开始，并根据我们的需要进行了修改。

for element in notes_to_parse:
    if (isinstance(element, note.Note) or
        isinstance(element, chord.Chord
    ):
        duration = element.duration.quarterLength
        if isinstance(element, note.Note):
            name = element.pitch
        elif isinstance(element, chord.Chord):
            name = ".".join(str(n) for n in element.normalOrder)
        notes.append(f"{name}${duration}") rest_notes = int((element.offset - prev_offset) / TIMESTEP - 1)
    for _ in range(0, rest_notes):
        notes.append("NULL") prev_offset = element.offset

为了详细说明上面的代码，我们通过将音符的音高和持续时间与一个“$”相结合来创建音符，以馈入我们的网络。例如“A$1.0”、“A$0.75”、“B$0.25”等。都将被单独编码以供我们的网络使用(通过将每个唯一的音符/持续时间映射到一个整数，然后将所有的整数除以唯一组合的数量，从而将每个编码为 0 和 1 之间的浮点数，来对输入进行编码)。更有趣的部分是计算插入多少休止符。我们查看当前音符的偏移，并将其与我们查看的上一个音符的偏移进行比较。我们用这个间隙除以我们的时间步长来计算我们可以容纳多少个休止符(减 1，因为这实际上是计算间隙中可以容纳多少个音符，但其中一个是我们实际的下一个音符，所以我们不想重复计算)。例如，如果一个音符从 0.5 秒开始，而下一个音符直到 1.0 秒才开始。时间步长为 0.25(每个音符以 0.25 秒的间隔播放)，这意味着我们需要一个休止符来填补空白。

歌曲结构

最后，写一首歌最重要的部分之一是结构，这是我们发现现有解决方案中缺乏的东西之一。据我所见，大多数研究人员都希望他们的网络能够自己了解这一点，我不认为这是一种被误导的方法。然而，我认为这增加了问题的复杂性，并导致进一步的困难。这可能是我们解决方案的一个改进来源，尽管我们对此采取了更多的手动方法，并假设了一个恒定的模式。

我们做出的一个关键假设是，我们将只制作遵循特定模式 ABCBDB 的歌曲，其中:

a 是第一节
b 是合唱
c 是第二节
D 是桥

最初，我们尝试了 ABABCB，但这感觉太公式化。为了解决这个问题，我们决定引入第二节，它不同于第一节，但仍然相关。我们从一个随机的音符中生成了第一节，然后在第一节的基础上生成了第二节。实际上，这是生成一个两倍长的单个部分，并将其一分为二。这里的思考过程是，如果我们创作一首诗，第二首应该仍然符合同样的氛围，通过使用第一首作为参考，我们可以实现这一点。

def generate_notes(self, model, network_input, pitchnames, n_vocab):
    """ Generate notes from the neural network based on a sequence 
        of notes """
    int_to_note = dict(
        (
            number + 1,
            note
         ) for number, note in enumerate(pitchnames)
    )
    int_to_note[0] = "NULL"def get_start():
    # pick a random sequence from the input as a starting point for 
    # the prediction
    start = numpy.random.randint(0, len(network_input) - 1)
    pattern = network_input[start]
    prediction_output = []
    return pattern, prediction_output# generate verse 1
verse1_pattern, verse1_prediction_output = get_start()
for note_index in range(4 * SEQUENCE_LEN):
    prediction_input = numpy.reshape(
        verse1_pattern, (1, len(verse1_pattern), 1)
    )
    prediction_input = prediction_input / float(n_vocab) prediction = model.predict(prediction_input, verbose=0) index = numpy.argmax(prediction)
    result = int_to_note[index]
    verse1_prediction_output.append(result) verse1_pattern.append(index)
    verse1_pattern = verse1_pattern[1 : len(verse1_pattern)]# generate verse 2
verse2_pattern = verse1_pattern
verse2_prediction_output = []
for note_index in range(4 * SEQUENCE_LEN):
    prediction_input = numpy.reshape(
        verse2_pattern, (1, len(verse2_pattern), 1)
    )
    prediction_input = prediction_input / float(n_vocab) prediction = model.predict(prediction_input, verbose=0) index = numpy.argmax(prediction)
    result = int_to_note[index]
    verse2_prediction_output.append(result) verse2_pattern.append(index)
    verse2_pattern = verse2_pattern[1 : len(verse2_pattern)]# generate chorus
chorus_pattern, chorus_prediction_output = get_start()
for note_index in range(4 * SEQUENCE_LEN):
    prediction_input = numpy.reshape(
        chorus_pattern, (1, len(chorus_pattern), 1)
    )
    prediction_input = prediction_input / float(n_vocab) prediction = model.predict(prediction_input, verbose=0) index = numpy.argmax(prediction)
    result = int_to_note[index]
    chorus_prediction_output.append(result) chorus_pattern.append(index)
    chorus_pattern = chorus_pattern[1 : len(chorus_pattern)]# generate bridge
bridge_pattern, bridge_prediction_output = get_start()
for note_index in range(4 * SEQUENCE_LEN):
    prediction_input = numpy.reshape(
        bridge_pattern, (1, len(bridge_pattern), 1)
    )
    prediction_input = prediction_input / float(n_vocab) prediction = model.predict(prediction_input, verbose=0) index = numpy.argmax(prediction)
    result = int_to_note[index]
    bridge_prediction_output.append(result) bridge_pattern.append(index)
    bridge_pattern = bridge_pattern[1 : len(bridge_pattern)] return (
        verse1_prediction_output
        + chorus_prediction_output
        + verse2_prediction_output
        + chorus_prediction_output
        + bridge_prediction_output
        + chorus_prediction_output
    )

结果

我们能够通过这种方法获得令人惊讶的结果。我们可以始终如一地创作独特的歌曲，这些歌曲属于我们训练各自网络的适当流派。以下是我们各种网络的一些示例输出。

Ragtime

Christmas

Rap

结论

机器生成音乐确实是可能的。它比人类创作的音乐更好还是可能更好？只有时间能证明一切。从这些结果来看，我认为这是完全可能的。

未来的工作

可以进行一些改进，使之更接近真正的音乐。一些可能的想法/实验包括:

学习歌曲中的模式，而不是手动拼凑部分
将音符持续时间作为网络的单独输入，而不是单独处理每个音高/持续时间
扩展到多种仪器
远离 midi 文件，制作/学习真正的 MP3
学习时间步长、序列长度和拍号
引入随机性来模拟“人为错误/实验”
允许多个键
学习如何使用介绍和结尾

感谢

我要感谢我的队友 Izaak Sulka 和 Jeff Greene 对这个项目的帮助，以及我的朋友 Mitch Burdick 对音乐的专业知识，使我们能够取得这些伟大的成果。当然，我们要感谢 sigur ur skúLi 的指导，因为它为我们提供了一个很好的起点和一些参考。最后但同样重要的是，我要感谢尼克·凯利的剧本，他把歌曲转到了 c 大调。

这个项目的代码可以在这里找到:https://github.com/tylerdoll/music-generator

声明:我们项目中使用的音乐不属于我们，来自各种公共网站。

使 PATE 双向私有

原文：https://towardsdatascience.com/making-pate-bidirectionally-private-6d060f039227?source=collection_archive---------19-----------------------

Photo by Dayne Topkin on Unsplash

PATE，即教师集合的私有聚合，是 Papernot 等人在论文 中提出的一种机器学习框架，用于从私有训练数据 进行深度学习的半监督知识转移。该框架允许使用私有数据进行半监督学习，同时保留直观和强大的隐私保证。

PATE 基于这样一种思想，即如果在不相交的数据上训练的多个模型同意一个输入，那么关于它们的训练示例的私有数据不会泄露，因为所有模型都得出了相同的结论。通过只检索不同“教师”模型之间有很大相关性的输出，我们提供了直观的隐私。另一方面，当没有达成共识时，检索随机化的输出提供了强有力的隐私保证。这种随机选择可以通过噪声的聚集来获得，因此可以通过这种方式实现(ε，δ)-差分隐私。

此外，PATE 框架包含一个额外的步骤，以确保不会对教师的私人数据进行攻击，无论是通过多次查询还是通过模型的参数检查。为此，添加了一个“student”模型，该模型根据教师之前标记的公共数据进行学习。这样做消除了教师在后续查询中的需要，并确保学生模型只学习教师提供的概括。

该框架已经显示出实现了最先进的隐私/效用权衡，同时还具有灵活且广泛适用的实现。然而，在某些情况下，PATE 会陷入困境。这是指无法访问公共数据，或者学生的数据必然是私有的。PATE 要求学生与所有教师共享其数据，因此在此过程中无法保证隐私。这种情况的一个例子是，当一家医院想要训练一个神经网络进行诊断，并使用其他医院作为“老师”来标记其数据集。在这种情况下，PATE 可能是不可行的，因为“学生”医院可能有义务(在道德上或法律上)保持其数据集的私密性。

因此，提出了一个额外的步骤，其中教师集合被视为“机器学习即服务”(MLaaS) ，并且添加了加密来为学生的数据集提供保密性。在这里，我们将探讨如何应用这些变化，以及它如何影响 PATE 框架程序。

用 Pytorch 和 Pysyft 实现 PATE

本指南基于本回购。为了文章的可读性，代码的某些部分将被跳过或修改。

初始设置

首先，我们需要导入必要的库。本指南假定所有库都已安装在本地。

We’re declaring the necessary libraries and hooking Syft with Torch.

为了演示 PATE 的工作原理，我们将构建如下所示的示例:

Diagram of the scenario.

一家医院 S 拥有一些关于其患者的未标记数据，并希望使用这些数据来训练一个分类器。由于它的数据是无标签的，所以不足以训练一个学习算法。为了解决这个问题，医院的考虑使用来自其他医院的标记数据来训练一个学习算法，并使用该算法来标记其数据。尽管其他医院愿意提供帮助，但出于隐私考虑，他们无权与第三方分享自己的数据。

让我们应用 PATE 框架。我们会把 S 医院当做我们的学生，把其他医院当做我们的老师。教师被要求使用他们的私人数据集来训练他们的学习算法。

1.宣布每个医院的工作人员

Syft 利用工人来识别和连接其他设备。在我们的情况下，我们有学生的机器(我们将认为是本地工作人员)和其他医院的设备(将被称为教师)。

Declaring the workers. The local worker is automatically declared when hooking Syft.

在本例中，我们仅使用了 10 名教师，但请记住，使用教师的数量在技术上没有限制，最好使用更大的团队。

2.为教师定义和加载模型

PATE 框架的众多优势之一是它是模型不可知的，这意味着它不局限于特定的学习算法家族。尽管我们对所有教师使用相同的模型架构，但请记住这不是必需的。

This is the model for all the teachers.

本指南假设所有教师的模型都已经过培训。我们只需要加载它们并把它们发送到它们的机器上。在现实生活中，学生在这个过程中没有角色；相反，每个老师将负责实例化他们的模型。

Creating the models, loading them and sending them to each worker.

3.准备学生数据

现在所有的老师都准备好了，让我们从学生那里加载未标记的数据集。对于这个例子，我们使用 MNIST 测试集作为未标记数据集。

Load MNIST’s test dataset. This dataset will be used as the student’s unlabeled data.

在本例中使用已经标记的数据集的优点是，我们可以稍后将结果标签与真实标签进行比较。

至此，我们已经具备了 PATE 框架的所有要求。我们有一个未标记的数据集和多个模型，这些模型先前是在私有的、不相交的数据上训练的。现在，我们只需要将所有教师的意见汇总在一起，就可以得到数据集的标签。

4.将数据发送给每位教师进行分析

作为学生，我们希望从老师那里获得许多关于数据集中每个数据点的意见。从教师的角度来看，为了保护隐私，学生不能访问他们的模型。相反，它必须将其数据发送给每个老师，并等待分析。

Create a secure worker and send the unlabeled data for analysis.

注意，我们已经创建了另一个名为secure_worker 的工作者。 PATE 要求所有的意见都可以在一个点上获得，以生成投票最多的标签。因为我们不希望任何老师或学生看到原始意见，所以我们添加了第三方来负责汇总过程。

一旦完成，secure_worker将有一个形状为(data_size, num_teachers的矩阵。该矩阵包含来自数据集中数据点的所有教师的所有预测标签。

5.汇总意见

让我们考虑一下意见矩阵现在是什么样子。对于数据集的每一行，我们都有一些可能的标签，这些标签是由每个老师分配的。

An example of how the opinions matrix may look like. In some cases, there’s a clear consensus, while others require further processing.

通过为每个数据点选择投票最多的标签，我们获得了数据的广义分类。然而，如果存在没有明显标签的情况，那么我们就有选择一个由于过度拟合而被错误分类的标签的风险。这是一个隐私问题，为了减轻它，我们在所有投票计数中添加了一个仔细测量的拉普拉斯噪声。这样，我们增加了似是而非的可否认性，同时也保持了高准确性。

Previous scenario but with added noise. A high correlation between teachers leads to higher accuracy, while a low consensus with added noise leads to stronger privacy guarantees.

让我们来定义这个函数，我们将称之为“嘈杂的 Argmax 机制”。该函数将接收意见矩阵和ε值。这样，我们可以控制添加的噪声量。

Implementation of the noisy argmax mechanism.

记住意见矩阵在安全工作者的机器里。正因为如此，我们还必须发送要添加的噪声。

6.获得结果标签

既然定义了聚合查询，我们就可以获得结果并与真正的标签进行比较。

Getting the labels and comparing them to the true labels from the MNIST test set.

请注意，当将生成的标签与 MNIST 数据集中分配的标签进行比较时，我们获得了 90%的准确率。考虑到我们使用的ε的数量，这是一个很高的精度。这是迄今为止所做工作的完整图表。

Diagram of the implementation. Orange: unlabeled data sent. Red: predictions obtained. White: noisy labels returned.

在这一点上，学生可以利用这个数据集来训练他们的学习算法，并且没有从教师的私人数据中泄露隐私。

现在已经解释了 PATE 框架，让我们来看看为什么它不适合这个场景，以及应该做哪些改变。

使 PATE 双向私有

仔细观察前面的图表以及 PATE 实现，很明显学生的数据必须发送给所有教师进行分析。当这些数据公开时，这不是问题。但是，在某些情况下可能并非如此。我们医院的例子就是其中之一。在这种情况下，如果教师能够在不直接访问数据的情况下分析数据，那将是更好的。为了实现这一点，我们可以使用 附加秘密共享 对未标记数据集和教师模型进行加密。这意味着一些额外的步骤，并增加了对 PATE 框架的某些要求。

1.确保教师模型是可加密的

添加加密层意味着对数据进行的所有操作都必须兼容(并且安全)。在撰写本文时，仍有许多操作尚未在 PySyft 的库上实现。最重要的是，log_softmax()目前不兼容。这意味着每一个在最终层使用它的模型都必须被修改以允许加密。幸运的是，这种改变不需要重新训练模型。

Adapted model for encryption compatibility. Note that only one line changed.

2.加密模型

既然模型与附加秘密共享兼容，它们就可以被加密。这种加密需要多方共享数据。尽管我们可以使用这个例子中已经初始化的任何一个工人，我们还是要添加两个工人，分别叫做alice和bob。他们唯一的工作就是保存所有的加密值。

create alice and bob

由于附加秘密共享只适用于整数，我们必须将权重和偏差转换为固定的精度值。另外，从 PySyft 0.1.23a1 开始，似乎有一个 bug 在试图加密远程模型的模型参数时会引发异常。这里有一个解决方法。

Encrypting the long way.

3.加密数据集并获取意见

理想情况下，我们只需加密整个数据集，并执行与之前相同的程序来获得预测。遗憾的是，加密计算需要很长时间，而且计算量很大，所以我们必须批量处理。这个想法是，我们从我们的数据集中取出一小批，加密后发给所有老师进行分析。产生的标签被发送到secure_worker进行解密。一旦它们被解密，noisy _ argmax 机制就会被使用，并且生成的一批标签会被发送给学生。最后，学生将每一批连接在一起，以获得所有的标签。

Obtaining noisy labels with an encryption layer.

这个过程需要很长时间才能完成。在我的例子中，获得整个数据集需要大约 7 个小时。这是一个主要缺点，如果要使用这种技术，必须考虑到这一点。

现在我们可以用真正的标签做同样的比较。

Checking the accuracy of our noisy labels obtained through encryption of PATE.

得到的精度与没有加密时一样。现在，学生可以使用这些数据来训练其神经网络，因为他们知道数据集在这个过程中没有受到损害。

结论

PATE 是一个令人惊叹的框架，它提供了良好的结果，同时实现了高隐私保证。然而，在没有公共数据的情况下，传统的 PATE 可能是不可行的。当这种情况发生时，可以添加一层加密，允许数据在不损害其隐私的情况下被处理。尽管如此，实现这一点所需的额外复杂性和时间使它对于日常场景来说是一种不合理的方法。此外，由于学生模型是用私有数据训练的，它仍然容易受到攻击，这些攻击可能会泄露有关数据集的更多信息。因此，当学生数据集的隐私不相关或不必要时，应首选传统 PATE。

附加注释

这篇文章是 Udacity 的安全和私人人工智能纳米学位项目的一部分。这篇文章的目的是呈现和解释我在这门课的期末专题，它应该被视为如此。

文献学

n .帕伯诺特，m .阿巴迪，厄林松，ú，& Talwar，K. (2016 年)。基于私有训练数据的深度学习半监督知识转移。 ArXiv ， 1610 (05755)。从 https://arxiv.org/abs/1610.05755 取回
n . paper not & good fellow，I. (2018 年 4 月 29 日)。隐私和机器学习:两个意想不到的盟友？检索自http://www . clever Hans . io/privacy/2018/04/29/privacy-and-machine-learning . html
安全和私人的人工智能纳米学位项目。从https://www.udacity.com/course/secure-and-private-ai-ud 185检索
名词项目中 Rogério Saccaro 的私人文件。
医院图标取自 PNGio.com
人工智能图标取自免费图标库。
服务器图标取自 icons8.com

使用键盘宏简化编程—视频

原文：https://towardsdatascience.com/making-programming-easier-with-keyboard-macros-video-b3c2303a7881?source=collection_archive---------7-----------------------

Linus Tech Tips 最近的一个视频介绍了他们的一个编辑器如何使用宏进行视频编辑。这让我开始思考；可以很容易地创建宏来改进我的编程吗？

此视频演示了如何创建代码宏及其用途:

背景

Source: Linus Tech Tips — Can your Keyboard do THIS?? — Make ANY key a MACRO!

如前所述，这个想法是在观看 Linus 技术提示视频后产生的。现在，他可能在 3 个专用于宏的键盘上走得有点远了(如上图所示)。然而，我已经碰巧使用了一个有一些宏按键的，所以为什么不利用它。

我的键盘是罗技 G910，它有 9 个宏按键，3 个轮廓，总共有 27 种可能的组合。

它是如何工作的

幸运的是，罗技软件使这变得非常容易，但用其他设备复制也应该很简单。我只是分配每个宏来创建一个文本块，粘贴一些预定义的代码。

我为总共 10 个宏分配了 5 个键和 2 个配置文件。这些显示在下图中，并在视频中充分展示。

每个宏都粘贴预定义的代码，从而可以快速轻松地执行一些任务，例如:

导入包/依赖项
导入/导出数据
使用设置的格式创建图
创建 for 循环
定义函数
为减价单元格创建 LaTeX 方程

这些只是我发现的主要用例，但我相信每个人都会根据自己的需求有自己的想法。

我希望这对您自己的数据科学任务有用

谢谢

作为一名数据科学家，坚持提出建议

原文：https://towardsdatascience.com/making-recommendations-stick-as-a-data-scientist-b1124d489b0b?source=collection_archive---------16-----------------------

用这六个原则让推荐脱颖而出

你有没有向观众介绍过你的推荐，却让他们无处可去？如果你像大多数数据科学家一样，很可能你以前也遇到过这种情况。

数据科学家的部分工作是能够将您的工作转化为对利益相关者可行的建议和见解。这意味着让你的想法令人难忘，易于理解和有影响力。

在本文中，我们将探索《让贴上这本书背后的原理，并在数据科学的背景下应用它。这本书提出，最好的想法遵循六个主要原则:简单、出乎意料、具体、可信、情感和故事(成功)。读完这篇文章后，你将能够把这些原则融入到你的工作中，并增加你的建议和见解的影响力。

简单的

让一个想法变得简单就是把这个想法剥离到它的核心。不是要变笨，而是要创造一些优雅的东西。这意味着你应该避免用想法压倒你的听众，当你试图说三件事时，你什么也没说。使想法简单的另一个关键因素是避免埋没线索。如果在您的分析过程中，您发现 10%的客户贡献了 80%的收入，请以这一关键见解为线索！你应该遵循一个倒金字塔的方法，最初的几分钟传达最多的信息，随着你越走越远，你可以得到更多的细微差别。类比和隐喻也是简单简洁地表达你的想法的好方法。能够使用你的观众能够理解和联系的模式，会使它更容易理解。例如，一个一句话的比喻，比如优步代表 X，可以抓住你想要传达的核心信息。

意想不到的

意想不到的想法是违背人们的期望，利用惊喜的想法。你可以通过几种方式做到这一点，其中之一是让人们承诺一个答案，然后伪造它。例如，在透露真实答案之前，要求猜测员工在完成一项你希望自动化的任务上花费了多少时间。另一种激发兴趣和利用意外原理的方法是使用神秘事物，因为它们会带来“啊哈”时刻。这可能会以一个小故事开始你的陈述，直到最后你才决定。

混凝土

对于非专家来说，抽象是理解的敌人。作为数据科学家，您的工作是让您的建议和见解更加具体。理解的关键是使用具体的图像，并根据人类的行为和感觉来解释想法。具体性的天敌是知识的诅咒。作为数据科学家，我们需要抵制用不必要的技术信息淹没受众的冲动。例如，报告一个模型的均方根误差，可能没有把语言分解成任何人都能理解的更具体的术语有用。

可信

给你的推荐增加可信度有三种形式。当我们想到可信度时，第一个是最常见的，即利用专家来支持声明或断言。另一种方法是使用反权威人士，他们是有着强大故事的真实人物。例如，如果你在谈论吸烟的危害，一个患肺癌的人的故事将比一个无菌的统计数据更有影响力。给你的故事增加可信度的第三种方法是把你观点的可信度外包给你的听众。这意味着创建一个可测试的声明，让受众可以尝试。例如，声称来自区域 A 的客户比来自任何其他区域的客户多花费 80%的客户支持时间。在提出这一主张时，您的受众可以确认这一主张，从而更容易引导您进行推荐。

情绪

在你的想法中加入情感因素是为了让人们关心你。人类天生就能感受人类，而不是抽象概念。因此，一个人往往胜过一个综合统计数据。情绪的另一个组成部分是挖掘你的观众所认同的群体身份。记住这些特征，你就可以把相关的联想联系起来，并唤起你的听众最容易接受的某些图式。例如，如果你知道你的一个听众是一个坚持数字的人，并且想要看到你是如何得出某些结论的详细分类，那么添加一个附录可能是有帮助的。

故事

几个世纪以来，人类一直在讲故事，事实证明这是最有效的教学方法之一。如果你反思过去 5 年读过的书，你更可能记住有趣的故事，而不是客观事实。当把故事编织到你的推荐中时，一定要营造紧张气氛，不要一下子把所有东西都泄露出去。另一个有用的策略是讲故事，作为其他想法的跳板。创造开放式的故事，让你的观众可以在此基础上发展，这是让他们获得主人翁感的好方法。

下一次，当你需要提炼你的见解或推荐时，请记住这六条原则，你将很快创造出简单、意想不到、具体、可信的情感故事！

用 Jupyter 让远程服务器上的深度学习变得可容忍

原文：https://towardsdatascience.com/making-remote-deep-learning-tolerable-with-jupyter-7a754184e67c?source=collection_archive---------22-----------------------

Image credits

TL；DR 如何用 Jupyter 和远程服务器设置一个基本的深度学习环境，而不会发疯。

我最近开始从事深度学习，每当我想改变一个超参数时，我几乎疯狂地使用 vim 打开我的 5000 多行代码库。在习惯了 jupyter 之后，我希望能够使用 Jupyter 处理远程服务器上的文件。

如果你不熟悉 Jupyter，这里有一个的好帖子让你开始。熟悉之后，您现在可以继续阅读，将 Jupyter 配置为从本地浏览器运行，并在服务器上处理文件。

到远程服务器的 SSH
使用终端管理器，它允许我们在终端内创建多个会话。如果与远程服务器的连接丢失，它还可以防止代码被截断。因此，如果我们有需要长时间运行的代码，并且您可能想让它一直运行，那么这是非常有用的。我个人用 byobu 但是你可以用 tumx 。在 Ubuntu 18 中，这些都是预装的。如果您运行的是旧版本，并且没有看到 byobu，您只需使用

sudo apt-get install byobu

在那之后，你可以跑路了

 byobu

我们使用终端管理器的主要原因是，当我们运行 Jupyter 笔记本时，终端会被用完。通过 byobu，我们可以为 jupyter 创建一个会话，并在另一个选项卡上运行测试/培训。

3.接下来，我们需要将浏览器上的“localhost”链接到我们第一次启动 Jupyter 的终端上

jupyter notebook -- no-browser -- port=8889

这将迫使 Jupyter 不打开浏览器，而使用端口 8889。我们可以随心所欲地改变它。

接下来，我们将这个端口从我们的服务器链接到本地机器上的“localhost”。我们通过打电话

ssh -N -f -L localhost:8888:localhost:8889 username@remote-server

请用您的用户名替换用户名，用服务器地址替换远程服务器。我们应该会看到这样的提示

The Jupyter Notebook is running at: [http://localhost:8889/?token=57cba986153f10a08c0efafa91e91e3299358a287afefaafa](http://localhost:8889/?token=57cba986153f10a08c0ebb91e91e3299358a287a08a5fd61)

现在我们可以跑了

localhost:8888

这将在浏览器中启动链接到远程服务器的 Jupyter 会话。

页（page 的缩写）启动本地主机时，系统可能会提示您输入代码或令牌。为此，只需从终端复制粘贴令牌 id (/'后的字符串？token= )

你已经准备好了！

感谢阅读！

在 googleVis 中制作桑基图

原文：https://towardsdatascience.com/making-sankey-diagrams-in-googlevis-f9cabf433ffc?source=collection_archive---------19-----------------------

统计程序 R 可用于强大的数据可视化。

我用一个 R 包创建了一个 Sankey 图，展示了在一次大选中，从召回 2016 年欧盟公投投票到当前投票意向的流程。

制作桑基图

英国民意调查委员会成员民意调查的数据表显示了不同部分对问题(如投票意向)的回答。使用 2019 年 8 月 8 日至 9 日通过互联网小组对 2003 名英国成年人进行的 Opinium 民意调查。这项民意调查是由《观察家报》发起的。

这些数据表提供了受访者的准确人数:

This is an edited part of the Opinium/Observer data tables. (Image: Opinium/Observer)

然后，我们可以创建表格，显示主要政党(保守党、工党、自由民主党、英国退出欧盟党)和其他政党的留欧和脱欧投票。

准备好的数据表显示源变量和目标变量及其值:

使用 googleVis

googleVis 包允许 R 与 Google 图表工具接口。创建 Sankey 图的函数称为 gvisSankey，其选项的结构有些复杂。

要为节点输入正确的颜色，需要按照它们在表中的原始顺序进行排序:第一个源、目标和后续源。这一点还不清楚，需要反复试验。

opinium_sankey_gv <- gvisSankey(opinium_sankey_df, options = list(height = 500, width = 500, tooltip = "{isHtml:'True'}", sankey = "{link: { colorMode: 'source' }, node: { colors: ['#FFC010', '#0069B5', '#DC241F', '#FAA61A', '#12B6CF', '#DDDDDD', '#0087DC'] }, iterations: 1}"))

该图显示了从 2016 年召回欧盟公投投票到当前大选投票意向的流程。以下是 Opinium 民意调查的主要估计:

The interactive version of the Sankey diagram may be viewed. (Image: R/googleVis)

创建有效的数据可视化需要时间。使用 googleVis 也有局限性，比如无法为情节设置标题。

Jen Thompson 还提供了使用 gvisSankey 的指南。Google Sheet 文件可能下载了，并且我的 RPubs 文章可供阅读。

理解 Shapley 值

原文：https://towardsdatascience.com/making-sense-of-shapley-values-dc67a8e4c5e8?source=collection_archive---------3-----------------------

Image credit: Iker Urteaga at https://unsplash.com/photos/TL5Vy1IM-uA

我第一次听说 Shapley values 是在研究模型可解释性的时候。我遇到了 SHAP，这是一个可以更好地理解为什么你的机器学习模型会这样的框架。事实证明，Shapley 值已经存在了一段时间，它们最初起源于博弈论领域，可以追溯到 1953 年，目的是解决以下情况:

一群不同技能的参与者为了集体奖励而互相合作。奖励应该如何在团队中公平分配？

有趣的是，当一个“旧”的概念应用到另一个领域如机器学习时，它可以获得新的生命。在机器学习中，参与者是你输入的特征，集体支出是模型预测。在这种情况下，Shapley 值用于计算每个特征对模型输出的贡献。

沙普利值是如何计算的？大多数时候，你会在文学作品中看到这个等式:

让我们把它分解一下。在联盟游戏(之前描述的场景)中，我们有一组 N 的 n 玩家。我们还有一个函数 v ，它给出这些玩家的任何子集的值(或支出)，即让 S 是 N 的子集，然后 v( S )给出该子集的值。因此，对于一个联盟博弈( N ，v)我们可以用这个等式来计算玩家 i 的支付，即沙普利值。

我不知道你是怎么想的，但当我第一次看到这个等式时，我的第一反应是类似于“这到底是什么？？?"

我很难理解为什么它看起来是这样的。这花了一些时间，但在尝试了一点之后，它终于开始变得有意义了。所以，让我们开始吧！

好的，我们要做的第一件事是稍微改写一下初始方程

乍一看，我们似乎并没有使我们的处境变得更好，但是请耐心听我说。很快我将分解等式的不同部分，以便理解它们，但是让我们也定义一个玩具场景，我们可以使用它来使它不那么抽象。

假设我们经营一家生产砖的工厂。我们的一个制作团队由四个人组成: A 曼达、 B 恩、 C 莱尔和 D on(从现在开始我会用他们名字的第一个字母来称呼他们)。每周他们一起设法生产出 X 数量的砖。因为我们工厂进展顺利，我们有一笔奖金想分发给团队成员。但是，为了让我们以公平的方式做到这一点，我们需要找出每个人每周为生产 X 数量的砖做出了多少贡献。

这里的困难之处在于，我们有几个影响因素，它们都会影响团队能够生产的砖块数量。其中一个是团队规模，因为团队越大，生产的砖块就越多。另一个可能是团队成员之间合作的好坏。问题是我们无法以有意义的方式量化这些影响，但幸运的是，对我们来说，Shapley 值可以用来回避这个问题。

我们现在已经定义了我们的玩家( A 、 B 、 C 和 D )以及他们正在参与的游戏(生产砖块)。让我们首先决定生产的 X 砖块中有多少可以归因于 D on，即计算 D 的沙普利值。如果我们将其与 Shapley 值公式的参数联系起来，我们就可以得到

所以 D 就是我们的选手 i 而整个团 N 由全部四名队员组成， A 、 B 、 C 和 D 。有了这些，让我们开始仔细看看 Shapley 值公式的这一部分

它说我们需要把我们的一群人和排除我们现在关注的人。然后，我们需要考虑所有可能形成的子集。因此，如果我们从组中排除 D ，我们就剩下 {A，B，C} 。从这个剩余的组中，我们可以形成以下子集(即这些是 S 可以接受的集合)

总的来说，我们可以构建剩余团队成员的 8 个不同子集。这些子集和中的一个是空集，即它没有任何成员。现在让我们把注意力转向这一部分

这就是沙普利价值的一个基本概念开始发挥作用的地方:将玩家 i 加入游戏的边际价值。因此，对于任何给定的子集 S ，我们将把它的值与当你把参与人 i 包括在内时的值进行比较。通过这样做，我们得到了将参与人 i 添加到该子集的边际值。

如果我们把它与我们的例子联系起来，我们想看看如果我们把 D 加到我们的 8 个子集中，每周生产的砖的数量会有什么不同。我们可以将这 8 个边际值直观地表示为

您可以将这些视为不同的场景，我们需要观察这些场景，以便公正地评估 D 对总体产量的贡献。这意味着我们需要观察如果没有人工作(即空集和)会生产多少砖块，并将其与只有和工作时的情况进行比较。我们还需要观察 AB 产生了多少砖块，并将其与 AB 和 D 一起产生的砖块数量进行比较，以此类推，我们可以形成所有 8 个星座。

好了，我们现在已经知道我们需要计算 8 个不同的边际值。沙普利值方程中的求和告诉我们，我们需要把它们加在一起。然而，在我们这样做之前，我们还需要缩放每个边际值，这是等式的这一部分告诉我们的

当我们用除了玩家 i 之外的所有剩余团队成员构建子集时，它会计算每个子集大小的排列数。或者换句话说:如果你有 |N|-1 名选手，你能和他们组成多少组大小 |S| 的队伍？然后我们用这个数字来划分玩家 i 对所有大小为 |S| 的组的边际贡献。

对于我们的场景，我们有 |N|-1 = 3 ，也就是说，当计算 D 的 Shapley 值时，我们剩下的团队成员。在我们的例子中，我们将使用等式的这一部分来计算我们可以组成多少个大小为 0、1、2 和 3 的组，因为这些只是我们可以与剩余玩家一起构建的组大小。因此，举例来说，如果我们有那个 |S|=2 ，那么我们得到我们可以构造这个大小的 3 个不同的组: AB 、 BC 和 CA 。这意味着我们应该将以下比例因子应用于 8 个边际值中的每一个:

让我们思考一下为什么我们要这样做。我们想知道 D 对团队总产量的贡献有多大。为了做到这一点，我们计算了他对我们能组成的团队的每个星座的边际贡献。通过添加这个比例因子，我们平均出团队其他成员对每个子集大小的影响。这意味着当加入到规模为 0、1、2 和 3 的团队中时，我们能够获得 D 的平均边际贡献，而不管这些团队的构成。

好了，我们现在差不多完成了，我们只剩下 Shapley 值方程的最后一部分需要分解，这一点也应该很容易理解

我们还有最后一个比例因子，需要应用于所有的边际值，然后才能对它们求和。我们必须将它们除以参与游戏的玩家数量，即我们总共拥有的团队成员数量。

再说一遍，我们为什么要这么做？好吧，如果我们看一下我们的砖厂例子，我们已经平均了其他团队成员对每个子集大小的影响，允许我们表达 D 对大小为 0、1、2 和 3 的组的贡献。谜题的最后一块是平均出团队规模的影响，也就是说 D 贡献了多少而不考虑团队的规模。对于我们的场景，我们通过除以 4 来实现这一点，因为这是我们可以考虑的不同组大小的数量。

我们现在已经到了可以最终计算出 D 的 Shapley 值的时候了。我们已经观察到他对团队中不同星座的贡献有多大。我们还计算了团队成员构成和团队规模的平均影响，最终使我们能够计算

I’m playing it fast and loose when it comes to using mathematical notation here, but this is more of a graphical illustration of what we’re doing than a mathematical one (it’s how I visualize it in my head).

我们有了，D 的沙普利值。在我们完成这项工作后，团队的其他成员就会知道每个人对每周生产的砖块数量的贡献，这样我们就可以在所有团队成员之间公平地分配奖金。

至此，我希望您已经更好地理解了沙普利价值观是如何运作的。如果你考虑到我们不需要知道任何关于价值函数 v 的内部工作原理，我们只需要观察它给不同子集的值就可以了，我们可以从参与游戏的玩家中制定出这些值。

这是沙普利价值观背后真正的力量和吸引力。然而，这是有代价的。对于一组参与游戏的 n 名玩家，您将拥有需要分析的 2^n 子集，以便计算沙普利值。

有一些方法可以使计算更实际可行，在介绍中我提到了 SHAP 框架，它的主要优势是当应用于机器学习时，它能够更有效地计算 Shapley 值(你可以在这里阅读更多信息)。

非常感谢Albin remng对本文初稿的宝贵反馈。

用 Python 建模新闻报道。第 1 部分:导言

原文：https://towardsdatascience.com/making-sense-of-the-news-part-1-introduction-f171d1da65a8?source=collection_archive---------11-----------------------

有很多新闻媒体有很多不同的观点。从某种意义上说这很好，但从另一种意义上说，任何人都不可能每天都阅读所有的东西，更别说那些忙碌几天的人了。然而，新闻只是随着时间的推移发生的一系列事件，所以这表明有一种方法可以对它进行建模，这样我们就可以了解正在发生的一些事情。

预测新闻趋势可以被认为是类似于人们已经试图在股票市场上做的事情，我们知道有一系列影响股票价格的因素，如果你得到了正确的因素，你就可以根据今天发生的事情预测出股票的未来价格。同样，如果我们真正理解了新闻中正在发生的事情以及影响新闻制作的因素，那么我们应该能够利用这种理解来预测未来的新闻制作。虽然不一定有经济效益，但了解事件的报道如何随着时间的推移而变化，可能有助于我们理解为什么人们会以不同的方式看待事件，以及事情是如何发展到现在这个地步的。

这是探索新闻报道建模系列文章中的第一篇博文。每篇文章都包含独立于其他文章运行分析的代码。它使用 60 天的数据来写博客(刚好够 SARIMA 以后使用)，使用更长的时间会表现得更好。

迄今为止撰写的帖子:

第 1 部分:简介(This)随机生成时间序列数据，然后查看一些真实的 Twitter 数据，然后查看一些新闻报道的时间序列，并通过向量自动回归来运行它们，以显示有模式可寻。
第 2 部分:用有限的数据开始新闻预测提供了使用现成的神经网络和使用几个新闻报道的时间序列预测报道的基础，然后用 SARIMA 模型做同样的事情。
第三部分:新闻网站与谷歌搜索趋势的互动继续使用 SARIMA 模型来研究新闻网站报道与谷歌搜索趋势之间的互动。它使用新闻数据和搜索数据来预测搜索率和新闻报道。

玩时间序列(随机数据)的快速复习

我正在用 python 做这件事，代码全部提供。您应该能够将代码粘贴到启用 python 的笔记本中(例如https://colab . research . Google)并运行它，它应该能够工作。当我有时间的时候，我会回去修复一些东西，但是我想我会把这篇博客文章放在那里，以防有人在寻找开始这种分析的地方。

所以让我们开始吧！使用 index 代表时间，我们可以使用 numpy 的 random 函数在 Python 中创建一个随机的外部(来自外部模型的输入)时间序列:

import pandas as pd
import numpy as np
exogenous = np.random.uniform(size=100)
df = pd.DataFrame(exogenous)
df.plot()

然后，我们可以创建一个内生时间序列，也就是说……我们的外生时间序列的 1.5 倍。

endogenous = 1.5 * exogenous
df =  pd.DataFrame([endogenous, exogenous]).T
df.columns = ["endogenous", "exogenous"]
df.plot()

我们现在可以运行 OLS，看到内生的是外生的 1.5 倍

import statsmodels.api as smmodel = sm.OLS(df.endogenous,df.exogenous)
results = model.fit()
results.summary()

OLS Regression Summary on Endo/Exo Series

万岁！我们得到了 1.5 的系数，关于内生导致外生。然而，我们真正想做的是能够提前预测将要发生的事情。由于这些值是随机的，我们不会有任何滞后，但我们可以通过将所有内生值下移一个单位并删除第一个时间序列来改变这一点..

df.endogenous = df.endogenous.shift()
df = df[1:]
model = sm.OLS(df.endogenous,df.exogenous)
results = model.fit()
results.summary()

OLS on shifted series

嗯，我们有一个系数，但是 R 平方和其他指标都不好。这很好，因为现在每个都是随机值。然而，我们希望看到以前的值，所以让我们尝试一个向量自回归模型，为了好玩，加入一些滞后值。

from statsmodels.tsa.api import VARmodel = VAR(df)
results = model.fit(maxlags=3)
results.summary()

VAR results

万岁！该模型估计，内生因素与外生因素的差距仅为 1.5 倍，而外生因素是 0.43+-一些噪声，尽管这些噪声在统计上是显著的(应该是 0.5 倍，它也从滞后中获得了一些随机性)。

哦，只是为了好玩，我们可以很容易地说，我们可以用外生来预测内生，但不能用内生来预测未来的外生。为了测试这种情况有多严重，我们可以使用格兰杰因果关系，这基本上是对每个序列分别运行 OLS，然后看看在第二个时间序列中添加是否有助于我们获得更好的数字。因此，运行测试检查第二个时间序列是否有助于预测第一个时间序列。(也就是说，h_0 将是第二个变量不会导致第一个变量，所以如果我们可以否定 h_0，这意味着第二个变量不会导致第一个变量，尽管否定 h_0 只是表明存在相关性，而不是实际的因果关系)。

from statsmodels.tsa.stattools import grangercausalitytestsgc = grangercausalitytests(df[["endogenous", "exogenous"]], 2)

Granger causality of exogenous on endogenous

在滞后 1 运行从外生到内生的格兰杰因果关系会给我们一个比滞后 1 和滞后 2 更好的检验结果(因为滞后 2 只是噪声)。现在我们可以检查另一个方向。

gc = grangercausalitytests(df[[“exogenous”, “endogenous”]], 2)

Granger causality of endogenous on exogenous

我们从结果中看到，在内生->外生方向上没有统计上的显著关系，所以不能拒绝 h0。

太酷了，我们记住了什么是时间序列，并可以对它们稍加修改。还有其他重要的东西，如正常化趋势和季节性，以及扰乱自相关，但我们可以稍后再担心，现在让我们来看看新闻。最终，在训练数据之外的任何更好的预测都将是我们所关心的，加入不同的函数只是提高了我们用来判断模型是否好的准确性。

新闻时间系列《荒野》(推特)

在进入新闻之前(这是一件痛苦的事情，除非你手头正好有一份新闻文章的档案，我将在稍后介绍一种变通方法)，让我们看看一些随机的有新闻价值的推文。谢天谢地，有一个很好的有新闻价值的特朗普推文档案可供查看。

所以我们可以去http://www.trumptwitterarchive.com/archive然后去“下载”——>“JSON”抓取川普所有推文的档案。我们将把弹出的结果复制/粘贴到一个实际的。json 文件在我们的工作目录中；我把它叫做“trump_tweets.json”。

Going here, downloading Trump’s tweets

所以我们可以把它移植到熊猫身上。

df = pd.read_json(“trump_tweets.json”)
df.head()

Head of the json file

所以我们看到我们有一堆推文的数据。我们有一堆 created_at 的时间戳，每条推文有多少赞，id 字符串(通过追加到 https://twitter.com/realDonaldTrump/status/)的末尾链接到原始推文)。最重要的是，我们得到了文本。

所以让我们忽略除了 text 和 created_at 之外的一切。现在，有很多方法可以篡改文本，但是我不知道如何在博客文章的这一点上做好自然语言编程。那么看看他发的微博有什么有趣的呢？

嗯，发生了很长时间的事情是俄罗斯勾结和穆勒报告的整个事情。因此，让我们看看他从 2017 年初开始通过 2019 年 3 月的巴尔备忘录使用一些基本的字符串匹配来发布关于俄罗斯和勾结的推文的频率。我们将从他的文本开始，并使其小写

#convert created_at to datetimeimport datetime
df.created_at = pd.to_datetime(df.created_at)df = df[(df["created_at"] < datetime.datetime(2019,3,1)) & (df["created_at"] > datetime.datetime(2017,1,1))]# create a column for lower case
df[“text_lower”] = df.text.apply(lambda x:x.lower())len(df)
>>> 41420

太好了，我们已经有 41000 条推文了。现在让我们做一些标记

df[“russia”] = df.text_lower.apply(lambda x: x.find(“russia”) > -1)df[“collusion”] = df.text_lower.apply(lambda x: x.find(“collu”) > -1)

我们可以只选择那些提到这两个词的推文

#create df where the previous rows had either russia or collusion labelrc_df = df[df["russia"] | df["collusion"]].set_index("created_at")

我们可以重新采样，得到每天的计数，然后继续绘制

rc_df_d = rc_df[["russia", "collusion"]].resample("d").sum()rc_df_d.plot(figsize=(12,8)

我们可以运行我们的风险值模型

模型= VAR(rc_df_d)
结果=模型.拟合(maxlags=5)
结果.总结()

因此，我们看到，到目前为止，我们为我们的模型计算的大系数是他之前是否在推特上发布过关于这个主题的消息，至少在日常水平上。

但是我们不需要只处理每日粒度，我们也可以查看每周粒度。

rc_df_w = rc_df[[“russia”, “collusion”]].resample(“w”).sum()
rc_df_w.plot(figsize=(12,8))

运行 VAR，我们得到几乎没有关系，除了勾结推文可能与俄罗斯推文 2 周前。

model = VAR(rc_df_w)results = model.fit(maxlags=3)results.summary()

因此，在每周水平上，我们开始看到俄罗斯的推文有一个轻微的系数(. 18)，导致在 2 周的滞后期内关于勾结的推文。所以我们也可以加入更多的变量。让我们随便找个东西，比如，哦，中国，扔进去，重新算一遍。

df[“china”] = df.text_lower.apply(lambda x: (x.find(“china”) > -1) or (x.find(“chinese”) > -1))rcc_df = df[df[“russia”] | df[“collusion”] | df[“china”]].set_index(“created_at”)rcc_df_d = rcc_df[["russia", "collusion", "china"]].resample("d").sum()rcc_df_w.plot(figsize=(12,8))

Oh, wait, I think there’s a trend there ish. and a seasonality.I should have covered stationarity and decomp.

所以我们可以检查我们的风险值

model = VAR(rcc_df_d)results = model.fit(maxlags=5)results.summary()

所以在前两者的每日水平上看不到太多，但是看到有一个 0.12 的系数在 4 天的共谋滞后上。

我们可以在那里运行我们的每周 VAR，看看会有什么结果。

model = VAR(rcc_df_w)results = model.fit(maxlags=3)results.summary()

因此，对于这个模型，到目前为止，俄罗斯推文的中国系数有 2 周的滞后，俄罗斯串通有 2 周的滞后，中国串通有 1 周的滞后。所以这里有更多的东西需要挖掘(这涵盖了整个时间段),以检查这些关系何时成立以及多久一次，但现在我们将转而实际查看新闻。因为这个帖子是关于新闻的，不是关于推文的。但现在你看到了如何从 tweets 中提取一些文本，将其转换成时间序列，并运行任何你想在其上运行的模型。

所以终于有了真正的新闻

预标记集合:GDELT

GDELT[https://www.gdeltproject.org]是一个非常酷的项目，它每天检查大约 10 万个新闻网站，给所有文章贴上标签，并使它们可用。有一个版本 1 每天拉和版本 2，每 15 分钟拉一些更好的标签。这些标签包括主题(他们自己编的)、人物、地点和其他一些我一时想不起来的东西。

我们将通过下载过去 60 天的数据来了解这一点。如果你知道你在做什么，你可以继续从他们的 BigQuery 数据库中提取你想要的东西，这个数据库可以追溯到 2014 年(尽管早期的文章很糟糕)。

因此，这将是一个有点内存密集型(15gb 左右)，因为我要保持一切在内存中，而不做任何偷偷摸摸的事情。因此，如果你正在使用谷歌 Colab(【https://colab.research.google.com】T2)，你会想切换到一个 GPU，并运行你的内存真正快速使用免费的 25GB 内存升级。如果没有，嗯，你真的可以把所有这些都贴上标签，实际上只需选择相关的出版商，但这只是让你开始拥有你想要的一切。

所以让我们开始吧。

首先，让我们确保安装了 gdelt 的 python 包

!pip install gdelt
import gdelt
gd = gdelt.gdelt(version=1)

现在，我们将提取最近 60 天的 CSV，并将其保存为 python pkl，为什么不呢

#re-importing stuff from earlier in case skipped
from statsmodels.tsa.api import VAR
import pandas as pdimport osos.makedirs(“data”,exist_ok=True)import datetime
cur_date = datetime.datetime(2019,10,7)-datetime.timedelta(days=60)
end_date = datetime.datetime(2019,10,7)
while cur_date < end_date:
  print(cur_date) year = cur_date.year
  month = str(cur_date.month)
  day = str(cur_date.day)
  if cur_date.month < 10:
    month = “0”+month
  if cur_date.day < 10:
    day = “0”+day
  results = gd.Search([‘%s %s %s’%(year, month, day)],table=’gkg’,coverage=True, translation=False) results.to_pickle(“data/%s-%s-%s.pkl”%(cur_date.year, cur_date.month, cur_date.day)) cur_date+=datetime.timedelta(days=1)

所以现在 dir“data”应该包含 60 个 pkl 文件，每个文件都有一天。我们可以通过从每个文件创建一个大的 DF 来加载它们

df = pd.DataFrame()
k = os.listdir(“data”)
for i in k:
  print(i)
  if i.endswith(“.pkl”):
    df = pd.concat([df, pd.read_pickle(“data/”+i)])

现在，万一我们弄坏了东西，我们可以把这个大 df 保存到磁盘上。我认为在这一点上看起来我占用了 6.5gb 左右的内存，保存到 PKL 会崩溃。你也可以保存为 CSV 或任何你喜欢的格式来最小化它所占用的内存，但实际上这一步只是为了加速重置，而不必再次加载所有单独的文件。

df.to_pickle(“first_60_days.pkl”)

好，让我们看看我们有什么。

print(len(df))
>>> 5250547df.head()

我们已经得到了日期，即文章的日期，NUMARTS，如果它为同一个实体提取了多个位置(现在不用担心这个)，COUNTS(现在不重要)，

日期:日期
NUMARTS: > 1 如果多篇文章(不用担心)
计数:与数字相关的术语(例如 50 抗议者)
主题:来自 SML 大地中海的一般主题的 NLP 标签
位置:地点
人:人+人喜欢的东西
组织:组织
语气:情绪
CAMEOEVENTIDS:用于随时间跟踪事件的一致 ID 值
来源:网站文章来自
SOURCEURLS:实际文章的原始 URL

让我们快速地看一下 SOURCEURLS。这实际上是用分号分隔的，但总的来说，我们有 262，171 个不同的来源组合。

df.SOURCES.nunique()
>>>262171

我们可以把它更好的分解成一个字典

df.fillna(“”, inplace=True)from collections import Counter
def join_col(x):
  big_string = “;”.join(x).split(“;”)
  myCount = Counter(big_string)
  return dict(zip(myCount.keys(), myCount.values()))x = join_col(df.SOURCES)
x=pd.DataFrame([x]).T.sort_values(by=0, ascending=False)
x

所以我们可以看到一些出版商。如果您希望有一个电子表格版本来标记出版商，而不是使用一个静态数组(就像我马上要使用的一样)，您可以很容易地将其导出到 excel 表中:(然后您可以导入带有标记的 excel 表)

x.to_excel(“sources.xlsx”)

无论如何，我们可以选择一些随机的网站，并确保他们得到刮除

mySources = [“nytimes.com”, “washingtonpost.com”, “foxnews.com”, “cnn.com”]for source in mySources:
  print("{} is {}".format(source, "good" if source in x.index else "bad"))

因此，一旦我们知道我们的网站是好的，让我们摆脱这个占据我们所有内存的巨大数据框架的大部分，只看那些我们关心的来源。

df = df[df[“SOURCES”].apply(lambda x: x in mySources)]
len(df)
>>> 44112

一个非常易管理的 44k 文章！

因此，GDELT 数据的一个问题是，有时日期被解释为 int，有时被解释为 string，所以我们将所有内容快速转换为 string，然后将其转换为 datetimes。(很容易忽略这一点，我刚刚花了一个小时试图找出为什么我的数据透视表被搞乱了，这是因为类型)。

df.DATE = df.DATE.apply(lambda x: str(x))
df.DATE = pd.to_datetime(df.DATE)

因此，现在我们可以快速查看每个出版商每天有多少文章。我们可以通过按源分组，然后忘记为什么使用数据透视表来做到这一点。

ax = df.groupby([“SOURCES”, “DATE”])[[“SOURCEURLS”]].count().unstack().T.droplevel(level=0).plot(figsize=(12,8))
ax.legend(loc=2)

Coverage over Time

我们可以立即看到出版物有一些季节性，工作日的文章量较高，周末的文章量较低。

df.groupby([“SOURCES”, “DATE”])[[“SOURCEURLS”]].count().unstack().T.droplevel(level=0).plot.box(figsize=(12,8))

我们可以看看箱线图，看看东西是如何分布的。

Boxplots

所以让我们看看不同的出版物都写了些什么！因此，如果我们想记住它们是以“；”的形式存储的，我们可以遍历并提取各个位置不连续的

我们可以在 LOCATIONS 中查找特定的国家，方法是尝试查找单个国家，如下所示:

df[df[“LOCATIONS”].apply(lambda x: x.find(“Syria”) > -1)].LOCATIONS.to_list()[0]

但是实际上不需要知道国家代码(不像主题或人物有一些 NLP 规范化)；我们可以搜索一下。

所以让我们看看这些组织多久写一次关于不同国家的文章。我们可以对它们进行编码，如果它们包含我们能想到的地方:

df[“dprk”] = df[“LOCATIONS”].apply(lambda x: x.find(“North Korea”) > -1)
df[“ukraine”] = df[“LOCATIONS”].apply(lambda x: x.find(“Ukraine”) > -1)
df[“russia”] = df[“LOCATIONS”].apply(lambda x: x.find(“Russia”) > -1)
df[“iran”] = df[“LOCATIONS”].apply(lambda x: x.find(“Iran”) > -1)
df["china"] = df["LOCATIONS"].apply(lambda x: x.find("China") > -1)loc_df = df.groupby([“SOURCES”, “DATE”])[[“dprk”, “ukraine”, “russia”, “iran”]].sum()

然后我们可以继续绘制它们

fig, ((ax1, ax2, ax5), (ax3, ax4, ax6)) = plt.subplots(nrows=2, ncols=2)
fig.set_size_inches(12,8)
x=0
subplots = [ax1, ax2, ax3, ax4, ax5]
for column in loc_df.columns:
  loc_df[[column]].unstack(level=0).plot(ax=subplots[x])
  x+=1
  plt.tight_layout()

正如我们之前看到的，我们可以对这些时间序列运行 VAR，以初步了解这些时间序列之间的相互作用。我们只看天，因为如果我们看周，我们只有 8 个数据点，不会那么好。

因此，让我们看看国家的覆盖范围是如何从一个出版商转移到另一个出版商的！一家出版商是否在某些国家领先于其他出版商？

loc_df = loc_df.unstack(level=0)
countries = ["dprk", "ukraine", "russia", "iran", "china"]for country in countries:
  model = VAR(loc_df[[x for x in loc_df.columns if x.startswith(country)]], freq="d")
  results = model.fit(maxlags=3)
  display(results.summary())

Part of results

太酷了，所以我们看到很多出版商倾向于以这种模式效仿华盛顿邮报对朝鲜的报道。同样，他们也关注《纽约时报》关于乌克兰的报道。当然，我们还没有开始评估一个模型是好是坏，但是现在我们开始看到一些模式从数据中显现出来。

现在让我们来看看每份出版物是如何覆盖不同国家的。

for source in mySources: model = VAR(loc_df[[x for x in loc_df.columns if x.endswith(source)]], freq=”d”)
  results = model.fit(maxlags=3)
  display(results.summary())

Part of results

所以我们可以看到，这里也有一些相互作用。

这应该足以让人开始摆弄 GDELT 数据集了。你可以利用地点、主题和人物的互动来识别不同种类的文章，看看随着时间的推移会有什么结果。在下一篇文章中，我将看看我是否能涵盖分解，一点关于模型评估，并尝试 SARIMA 和神经网络。

抓取您自己的集:

因此，GDELT 数据很好，但它缺少文章的实际文本。它还缺少一些功能，比如作者姓名和文章在网站上的位置。对于这种事情，你可能想要维护你自己的文章来分析自己。

新闻文章可能有点难得到，但是这样做有不同的困难。守护者是。最简单的方法是使用一个 API，允许你请求每一篇文章。纽约时报也有一个 API，但是它返回所有文章的 URL 和一些标签。但是，您可以根据 URL 回到原始 URL，自己抓取文本。这类似于使用 GDELT SOURCEURLS 字段返回并获取原始文本，您也可以对其他出版物这样做。然而，有了 GDELT SOURCEURLS，出版商可以更改旧文件的 URL，所以不能保证你会得到文章。

抓取文章的一个方法是每天抓取新闻网站主页(这是可行的)。但是如果你想要过去文章的档案，你需要能够找出它们在哪里。你可以创建一个谷歌自定义搜索引擎，在白天搜索出版物中的文章，但这需要一段时间。另一种方法是在新闻网站上使用内部搜索引擎。例如《华盛顿邮报》和《福克斯新闻频道》都有内部搜索引擎，你可以搜索特定日期发表的文章，找到需要搜集的文章。

一些新闻网站就是不允许按日期搜索，在这种情况下，你可能想走自定义搜索引擎的路线。其中包括 Breitbart News、Huffington Post 或 CNN。

如果你认为你可能想要一份好的新闻报道档案，那么至少开始每天抓取主页文章是值得的，这样你就可以很好地了解新闻网站在宣传什么。新闻报道变化很快，并不总是很容易回去，找出什么是过去的报道。希望这足以让你开始！

使文本上升

原文：https://towardsdatascience.com/making-text-ascent-1ee428b7a13d?source=collection_archive---------27-----------------------

我如何构建和部署机器学习 web 应用程序

我经常发现自己在阅读一篇文章，比如说关于数据科学的文章，并且想知道，在哪里可以读到关于这个主题的更简单的文章？当一个朋友在 LinkedIn 上发布类似问题时，我意识到我不是唯一一个。她问如何在最简单和最复杂之间的特定范围内找到文章。我意识到我们没有一个简单的系统来进行这种类型的搜索，除了手动阅读来寻找合适的信息。

商业理解

基于我对网络搜索的兴趣，我创建了 Text Ascent，这是一个网络应用程序，它使用无监督的 ML 来帮助用户基于文本复杂性发现内容。我希望 Text Ascent 可以成为一种工具，用于在我们学习旅程的所有阶段搜索内容。我为 Text Ascent 设定的核心目标是让人们之间更容易接触到感兴趣的小众话题。

Photo By Ted Bryan Yu from Unsplash

数据理解

我使用了 Wikipedia-API ，这是一个为 Wikipedia 的 API 设计的 python 包装器，用来收集从艺术到科学等主题的文章标题。然后，我运行了一个数据收集函数(scrape_to_mongodb.py ),该函数将这些标题和 11k+文章的摘要、全文和 URL 收集到一个 mongodb 数据库中。我排除了全文少于 300 个单词的文章，因为维基百科中有像“音乐文件”这样的条目不符合我的模型的目的。
参见数据采集笔记本 & 数据探索笔记本。

数据准备

从 Wikipedia-API 包装器返回的内容不需要进一步清理。我确实需要确保当内容显示在 web 应用程序上时，html 被读取为 JSON，以避免向用户显示回车。我使用 textstat 包的 Flesch-Kincaid 等级给每个文档的全文打分。

这些文件保存在 AWS S3 存储桶中，以允许访问 web 应用程序。参见数据准备笔记本。

建模

当前模型使用语料库向量和用户输入向量中的前 20 个重要特征之间的余弦距离来将相似内容从库中返回给用户输入。使用 TF-IDF 矢量器创建模型特征。TF-IDF 矢量器拆分语料库文档中的单词，删除停用词，并计算每个文档中每个单词的词频，根据单词在语料库中出现的频率进行调整。换句话说，不常用的词比常用的词更重要。

复制这个模型

获取感兴趣的文档列表，并格式化成类似于clean_df的数据帧。使用 TextStat 获得文本难度分数。我在 AWS S3 上的例子: clean_df
使你的语料库适合你的矢量器(从训练集中学习词汇和 idf)，它是你的 df 中的文本系列我在 AWS S3 上的例子: 矢量器
使用矢量器转换功能(将文档转换为文档术语矩阵)来创建您的语料库向量我在 AWS S3 上的示例: 语料库向量
克隆此存储库
在traverse_flask目录中，创建一个名为data的空子目录。
用$ export FLASK_APP=app $ flask run 在终端运行traverse_flask中的 flask，实现 flask app。这个瓶子app.py接受functions.py的功能。调整函数以改变后端的数据管道。调整static/templates/index.html中的 brython，改变数据反映给用户的方式。

参见模型功能。

估价

如果用户能够发现与他们已经阅读的内容相关的不同阅读难度的内容，那么这个产品就是成功的。用户满意度、重复使用、网络应用流量和应用分享是我用来评估 Text Ascent 成功的指标。在使用部署在 web 应用程序上的模型之前，我评估了 4 个模型:

模型 1:使用 TextStat、Gensim 和 Spacy。
模型 2:使用具有 10 个主题的潜在狄利克雷分配(LDA)主题建模，然后将用户内容分类到一个主题中。
模型 3:使用 2000 维的 TextStat 和 TF-IDF 矢量器。
模型 4:使用具有前 20 个特性的 TextStat 和 TF-IDF 矢量器。

每一次迭代都是为了使结果内容更类似于用户输入的内容。

未来建模

我还想将预训练的神经网络与我当前的 TFIDF 矢量化进行比较，看看返回内容的质量是否有所提高。改进将通过一个简单的手动评分系统添加到网络应用程序的用户反馈来衡量。参见评测笔记本。

部署

Text Ascent 已经作为一个支持 flask 的 web 应用【traverse.sherzyang.com 部署在 EC2 实例上(目前没有运行)。该应用程序使用 brython 在 python 函数和 html 之间进行交互。下面是来自网络应用的两张图片。给定任何用户输入文本，该模型将从库中输出相关文章，标题中有链接到完整长度的文章。用户可以从较简单的内容滚动或遍历到较复杂的内容，表格会相应地更新。

未来迭代

作为我对搜索和我们的一次性答案新世界——谢谢 Alexa、Siri 和 Google Home——的兴趣的一部分，我计划将文本提升部署为亚马逊 Alexa 的一项技能。这项技能将允许用户“滚动”或“遍历”某个主题从简单到复杂的摘要，就像告诉 Alexa 将歌曲播放得更大声或更小声一样。我相信在内容上创造选择会以积极的方式让我们超越一次性答案的世界。

此外，我渴望扩大语料库，以包括来自古滕贝格项目和其他项目的书籍。如果你想看到一些内容被添加到当前的维基百科文章库中，请在 LinkedIn 上给我发消息。我在亚马逊或 Goodreads 上见过几个给一本书的阅读难度打分的网络扩展( Read Up 就是一个很好的例子)。这些产品激励我为将来的文本提升开发一个无语料库的搜索功能。我认为当 Text Ascent 可以返回 Google 或 Bing web search API 支持的内容时，它会变得更加有用。

信用

使用 OCR 和 Elasticsearch 搜索穆勒报告

原文：https://towardsdatascience.com/making-the-mueller-report-searchable-with-ocr-and-elasticsearch-4e73e55de341?source=collection_archive---------9-----------------------

4 月 18 日标志着穆勒报告的全面发布——这份文件概述了对俄罗斯可能干预 2016 年总统选举的调查。像大多数政府文件一样，这份文件很长(448 页)，读起来会非常乏味。

更糟糕的是，实际下载的 PDF 基本上只是一张图片。您不能复制/粘贴文本，或者如果您想在文档中搜索更有针对性的信息，可以使用 ctrl+f 查找文本的特定部分。

然而，我们可以很容易地使用两种伟大的技术来搜索这个文档:光学字符识别(OCR)和弹性搜索。

光学字符识别

OCR 允许我们对文本进行拍照、识别，然后将其转换为实际文本——参见维基百科上的这一描述。幸运的是，在当今时代，有许多开源库/产品来完成这项任务。

宇宙魔方就是这样一个引擎。它最初开发于 80 年代，自 2006 年以来一直是谷歌的项目，是最受欢迎的 OCR 引擎之一。今天，我们将使用 Python 包装器:pytesserac。我从这篇文章中获得了我最初的 PDF-OCR 灵感——看看吧！

弹性搜索

Elasticsearch 是一个可扩展的搜索平台，它使用类似于 TF-IDF 的算法，TF-IDF 代表词频逆文档频率。

本质上，它是一个简单的函数，经常在搜索/相似性空间中使用，根据关键字定位文档。它也不太强调频繁出现的单词。例如，因为单词“the”出现在如此多的文本中，我们不希望它被认为是我们搜索查询的重要部分。TF-IDF 在将您的查询与文档进行比较时会考虑这一点。对于它的基本概述，只需查看维基百科。

装置

你可以从网站或者你的操作系统各自的包管理器下载并安装 elastic。然后你只需要我们将要使用的所有 Python 包。

pip install elasticsearch
pip install pdf2image
pip install pytesseract

OCR 文本提取

首先，将穆勒报告下载到您的主机。然后，我们可以创建一个快速函数，使用 pytesseract 和 pdf2image 库从 PDF 中逐页提取文本。

注意，我设置了默认值num_pages=10。这是因为这份报告真的很长，在你的个人电脑上，从每一页提取文本可能要花很长时间。此外，如果您不打算将本地 Elasticsearch 索引部署到云上，那么它也是大量数据。不过，您可以随意将该参数更改为您选择的任何值。

但是不管怎样，当我们在 PDF 上运行这个函数时，我们现在有了所有 PDF 页面的文本和页码！这是一个字典列表(json ),对于 elastic 来说，这是一个很好的入口，可以让它被搜索到。

弹性研究索引

你需要做的第一件事是确保 elastic 运行在正确的端口上。打开一个终端，启动 elastic(如果在你的$PATH里面，应该就是elasticsearch)。默认情况下，这将在端口 9200 上启动服务。

之后，我们可以很容易地使用 Python 客户机与我们的实例进行交互。如果 elastic 在端口 9200 上运行正常，下面的代码应该创建索引mueller-report，它有两个字段:text和page(它们对应于我们在前面函数中的字典键)。

搜索我们的索引

我不会深入细节，但是 elastic 使用一种叫做 query DSL 的语言来与索引交互。您可以对它做很多事情，但我们在这里要做的只是创建一个将我们的查询矢量化的函数，并将其与我们的索引中的text进行相似性比较。

res将是一个 json，包含我们搜索的一系列信息。实际上，我们只想要相关的结果。所以一旦我们实际调用了这个函数，我们就可以解析 json 来获得最相关的文本和页码。

这样，我们的搜索功能在页面文本中查找“司法部”,并返回结果。上面语句中的[0]只是为了查看第一个最相关的页面文本和编号。但是，您可以定制解析，以便它返回您喜欢的少/多的结果。

使用基巴纳前端

实际上，我们可以使用另一个弹性工具来更好地查看我们的结果，而不是查看我的 jupyter 笔记本中记录不佳的 gif。Kibana 是 elastic 的开源前端，非常适合可视化。首先，从这个链接安装 kibana。

https://cloud . Google . com/free/docs/map-AWS-Google-cloud-platformhttps://cloud . Google . com/free/docs/map-azure-Google-cloud-platform

一旦你安装了 Kibana，在终端中运行kibana启动服务，然后在你最喜欢的浏览器中导航到localhost:5601。这将允许您与应用程序进行交互。

在与索引交互之前，我们唯一要做的事情是创建一个索引模式。转到 Management > Create Index Pattern，然后输入“mueller-report”——ki Bana 应该会让您知道该模式与我们之前在 elastic 中创建的索引相匹配。

就是这样！如果你转到左边的 Discover 标签，你可以用一种比我们在 elastic 更容易(也更美观)的方式搜索你的索引。

后续步骤

把它放在 AWS 上可能会很酷，这样任何人都可以使用它(有一个更好的前端)，但我现在真的不想把我的信用卡绑定到那个实例上。如果其他人想，请自便！我将很快更新 docker 容器和 github 链接。

更新

2019 年 4 月 21 日—Mueller Report 上有很多关于 OCR 和后续 NLP 的帖子/工作。似乎主要关注的是 OCR 文本的实际质量，因为由于格式或一般的不准确性，结果可能是混乱的。虽然可能没有简单的方法来解决这个问题以供未来分析(除了政府发布了一份有用的文件)，但我们至少可以通过在我们的搜索功能中添加一个fuzziness参数来弹性补偿我们搜索中的任何拼写错误。

这是一种粗略但通用的方法，可以解释我们可能在 OCR 后的文本中发现的一些错误。

使用机器学习的恶意软件分类

原文：https://towardsdatascience.com/malware-classification-using-machine-learning-7c648fb1da79?source=collection_archive---------14-----------------------

实施微软恶意软件分类挑战(BIG)的收获

Image Source : Kaggle

如果你喜欢探索大型和具有挑战性的数据集，那么也许你应该试试微软的恶意软件分类。在深入探讨这个问题之前，让我们先来看看你能从中学到什么:

如何处理大规模数据？ 列车总数据集由 200 GB 数据组成，其中 50 GB 数据为。字节的文件和 150 GB 的数据。asm 文件。
应该做什么特色工程？如果到目前为止你一直只处理文本和图像数据，这肯定会提高你对特征工程的直觉。
在没有领域知识的情况下，如何逼近一个机器学习问题？ 用本次挑战赛第一名获奖者的话说:“交叉验证比领域知识更值得信任”。

业务问题

在过去几年中，恶意软件行业发展非常迅速，辛迪加在技术上投入大量资金来规避传统保护，迫使反恶意软件团体/社区构建更强大的软件来检测和终止这些攻击。保护计算机系统免受恶意软件攻击的主要部分是识别给定的文件/软件是否是恶意软件。

机器学习问题、KPI 和约束

我们可以将业务问题映射为多类分类问题，其中我们需要预测九个类别( Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator)中每个给定字节文件的类。ACY，加塔克。

KPI:多类日志损失，混淆矩阵

约束:我们需要提供分类概率，错误分类的分类标签应该受到惩罚(这就是为什么 log loss 被选为 KPI)并且应该有一些延迟限制。

处理大尺寸

考虑到数据的规模，建议使用云平台，如 GCP、AWS 或 IBM Cloud。我们在 GCP 完成了这个案例研究，使用基于 Linux 的 1vCPU 机箱，配备 30 GB RAM 和 500 GB HDD。点击此链接了解如何借助 CurlWidget 在 GCP 直接从 jupyter 笔记本上下载数据。下载数据后，下一个挑战将是使用 python 提取这些文件，因为 python 对 7z 文件的支持是有限的。使用名为“p7zip”的软件包，它提供了一个 Linux 命令行工具来提取 7z 文件。

# command to install the package in Linux
sudo apt-get install p7zip-full
# Sample Command to extract the data from terminal
7za x yourfile.tar.7z

数据的关键点

总数据集由 10，868 个组成。字节文件和 10，868 个 asm 文件总共有 21，736 个文件。字节文件由 256 个十六进制数字(十进制值范围为 0 到 255)和一个特殊字符(？？).Asm 文件是使用智能编译器获得的汇编文件。
数据集不平衡。

Distribution of malware classes

关键特性

这个案例研究的好处是，它需要大量的耐心和实验来获得有用的特性。基于我们的直觉和之前在这个领域的工作，我们尝试了以下特性

字节文件的 n-gram 特性:我们尝试了单字、双字和三字特性。虽然这些特性的性能很好，但是主要的挑战在于处理它们的大维数。一元语法的特征数是 256，二元语法的特征数是 65531，三元语法的特征数留给你的练习。即使有 30 GB 的 RAM，也不可能加载 65531 个特性的全部数据，所以我们选择了块中的 SVD。首先，我们使用随机样本和 3000 个特征尝试了 elbow 方法，以检查保持方差所需的组件数量，我们发现 1000 是一个好数字。

Elbow method to choose number of components

Code to extract bi-gram features using SVD in chunk

2.字节和 asm 文件的大小:字节和 asm 文件的大小被证明是很好的特性。让我们来看看文件大小的箱线图

3.字节数组的大小:正如我们前面提到的，字节文件由十六进制数字组成。对于每个文件，我们都有一个数组，并将每个元素添加到数组中，并使用这些数组的长度作为一个特征。

4.ASM 文件的段计数和 n-grams:ASM 文件由不同的段组成，如前缀(例如。标题、文本)、操作码(例如 jmp，hlt)，关键词(例如。。dll，std:😃，寄存器(例如。edx、epi)等。我们将片段的计数作为一个特征。我们还考虑了 asm 文件的一元、二元和三元模型作为特征。

5.像素强度的字节和 asm 特征:这可能是本案例研究中最具创新性的特征。我们借用了第一名获胜者解决方案的概念。正如我们前面提到的，字节文件中每个元素的值在 0 到 255 之间。我们可以很容易地将这些字节文件和 asm 文件一起转换成灰度图像。据观察，asm 文件的前 800 个像素密度对最终结果有显著影响。

Code to convert asm files to image files

让我们看一下随机 asm 文件在转换后的样子

Random image from converted asm files

降维和特征选择

到目前为止，您一定已经观察到了特征的维度，并对用于训练的最终特征的维度有所了解。为了解决这个问题，我们使用随机森林来选择重要的特征。重要特性的数量是一个超参数。根据我们的经验，我们尝试了各种数字，显然还有改进的余地。让我们看一个样例代码，看看我们是如何选择最好的三元语法 asm 特性的。我们还尝试了 t-SNE 多变量分析。

系统模型化

我们已经尝试了各种线性机器学习模型，如 KNN、多类逻辑回归和具有各种功能组合的集成，如随机森林、XGBoost 和 LightGBM。我们用单一特征以及字节特征和 asm 特征的组合来训练模型。我们还在从 byte 和 asm 文件获得的图像上尝试了各种 CNN 架构，但与微调的机器学习模型相比，获得的结果较差。由于我们没有恶意软件行业的任何领域知识，我们完全依赖交叉验证。由于特性和文件的数量很大，我们选择了 RandomizedCV 进行交叉验证，并且还有改进的余地。你可能会想到另一个问题，为什么我们同时使用 XGBoost 和 LightGBM？实际上，我们已经从 XGBoost 开始，但是发现 LightGBM 的训练延迟比 XGBoost 低得多，并且性能相似或更好。我们从一个随机模型开始，然后在关注性能后逐渐增加模型的复杂性。

结果

最后，如果一个用例不能提供令人满意的结果，它就没有任何价值。在这里，我们只列出校准最终 LightGBM 模型后得到的结果。

Confusion Matrix

Precision Matrix

Recall Matrix

引文

使用深度学习的恶意软件检测

原文：https://towardsdatascience.com/malware-detection-using-deep-learning-6c95dd235432?source=collection_archive---------13-----------------------

fast.ai 中使用卷积神经网络的恶意软件检测

Photo by Markus Spiske on Unsplash

什么是恶意软件？

恶意软件是指恶意软件犯罪者派遣感染个人计算机或整个组织的网络。它利用目标系统的漏洞，如合法软件(如浏览器或 web 应用程序插件)中可能被劫持的漏洞。

恶意软件的渗透可能是灾难性的——后果包括数据盗窃、勒索或网络系统瘫痪。

为什么检测恶意软件很重要？

恶意软件是当今互联网上最严重的安全威胁之一。事实上，大多数互联网问题，如垃圾邮件和拒绝服务攻击，都有恶意软件作为其根本原因。也就是说，受到恶意软件危害的计算机通常联网在一起形成僵尸网络，许多攻击都是利用这些恶意的、攻击者控制的网络发起的。

为了应对新产生的恶意软件，需要新的技术来检测它们并防止它们造成的任何损害。

为什么要深度学习？

如今，深度学习已经主导了各种计算机视觉任务。这些深度学习技术不仅使这场比赛取得了快速进展，甚至在许多比赛中超过了人类的表现。这些任务之一是图像分类。

与更传统的机器学习技术方法不同，深度学习分类器是通过特征学习而不是特定于任务的算法来训练的。这意味着机器将学习呈现给它的图像中的模式，而不是要求人类操作员定义机器应该在图像中寻找的模式。简而言之，它可以自动提取特征，并将数据分类到各种类别中。

早期层学习如何检测边缘等低级特征，后续层将早期层的特征组合成更全面和完整的表示。

我们可以使用后面描述的方法将恶意/良性文件转换成灰度图像。然后我们可以对生成的图像应用这些深度学习技术，将它们分类为恶意软件或良性软件。

如何创建恶意软件映像？

为了使用深度学习模型对图像进行分类，我们需要来自良性和恶意文件的图像。我们只做二元分类(恶意类和良性类)。多类分类也可以使用这种技术来完成，其思想是恶意软件文件的变体将具有不同于其他的图像。

准备好数据集后，我们将通过对每个图像执行以下步骤，将每个文件转换为 256x256 灰度图像(每个像素的值在 0 到 255 之间):

**Step 1:** Read 8 bits at a time from the file.
**Step 2:** Treat the 8 bits as a binary number and convert it to its    corresponding integer.
**Step 3:** Enter the number as the pixel value.

最大 64 KB 的文件可以容纳 256 x 256 的图像。任何大于 64 KB 的文件，其剩余内容都将被删除。
另一方面，如果文件的大小小于 64 KB，剩余的图像将用 0 填充。

由于恶意软件检测是实时进行的，我们需要在几秒钟内将图像分类为良性或恶意软件。因此，保持图像生成过程简单而简短将有助于我们节省宝贵的时间。

数据集的准备

这一步极其简单。所有图像生成后，将它们分成两个文件夹——训练和验证。这些文件夹中的每一个都包含两个文件夹，即恶意软件文件夹和良性文件夹。
将这两个文件夹存储在另一个名为“dataset.tar”的文件夹中，压缩生成一个. tar 文件。

所以最终的目录结构将是→
dataset.tar 包含验证和训练。验证将有恶意文件夹和良性文件夹。火车将有恶意和良性的文件夹。

将压缩文件夹移动到包含代码的 Jupyter 笔记本所在的目录中。

实施模型

** 这个问题使用的模型是按照 fast.ai 课程的第 1 课(宠物分类)创建的。 **

要从 Google Drive 中读取数据集，请添加以下代码行

!pip install PyDrive #import os
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentialsauth.authenticate_user()
gauth=GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

一旦你运行了上述代码的最后 4 行，Google SDK 会要求你输入一个验证码。它会提到一个链接，一旦你点击它，你会得到你的安全代码。

link = '1sL4I4xNh657AhrIOOwbr6TX58ahyC'(add the link here )

创建一个变量，该变量包含到。tar 文件包含的数据存储在您的谷歌驱动器。要获取网址，请打开。tar 文件并获取该文件的可共享链接。你不需要整个 URL，只需要它的一部分。所以比如你的可分享链接是“https://drive . Google . com/File/d/1 sl 4 i4 xnh 657 ahrioowbr 6 tx 58 ahyc/view？你只需要粗体部分。

获取数据路径

downloaded = drive.CreateFile({'id':link}) 
downloaded.GetContentFile('dataset.tar')
import tarfile
tar = tarfile.open("dataset.tar")
path = tar.extractall('DS/')
tar.close()
path = Path.cwd().joinpath("DS/dataset/")
path.ls()data = ImageDataBunch.from_folder(path, ds_tfms=get_transforms(), size=224)## To view data in a batch
data.show_batch(rows=3, figsize=(7,6))
## To know the number of classes in a dataset
print(data.c)
## To know the names of the classes in a dataset
print( data.classes)

创建模型

learn = create_cnn(data, model.resnet34, metrics = error_rate)## To know the model architecture
learn.model## Training the model
learn.fit_one_cycle(4)
learn.fit_one_cycle(10)

下面是我运行上述代码后得到的输出截图:

Output for 4 and 10 epochs.

interp = ClassificationInterpretation.from_learner(learn)
losses,idxs =  interp.top_losses()
interp.plot_top_losses(9,figsize=(9,6))

The images with maximum losses.

如何找到并设定一个好的学习率？

到目前为止，我们还没有告诉我们的模型在训练模型时使用什么学习率，我们都知道这是训练时最重要的超参数之一。
为了找到一个好的学习率，请执行以下操作:

learn.lr_find()
learn.recorder.plot()

Finding an optimal learning rate.

learn.fit_one_cycle(5, max_lr=slice(1e-6,1e-4))## Saving the weights of the model
learn.save('stage-1-malware-detection')

Losses are much less compared to before.

注意:每次调用 fit_one_cycle()函数时，权重都不会重新初始化。因此，如果您一个接一个地调用该函数，则历元会累加，这意味着如果您调用 fit_one_cycle(5)然后调用 fit_one_cycle(10 ),则该模型已经被训练了大约 15 个历元。

完整的代码可以在我的 GitHub 账户上找到，链接这里。这些只是代码的一小部分，仅仅遵循它们不会给出可行的代码。

如有任何建议/改进/讨论，请随时联系我们。😄

未来的工作

我们可以尝试将数据分为不同类型的恶意软件或良性类别，而不是执行二元分类。
我们可以尝试不同的技术来创建一个验证集。在这个阶段，不同类别中的图像以及验证集和训练集中的图像数量是随机选择的。
在我们的训练数据集中，尝试恶意软件文件数量与良性文件数量的不同比率。(几乎 1:1 使用)
尝试不同的维度来生成恶意软件图像。(使用 256x256)

我认为你会喜欢:D 的其他文章

我很高兴你坚持到了这篇文章的结尾。🎉我希望你的阅读体验和我写这篇文章时一样丰富。💖**

请在这里查看我的其他文章。

如果你想联系我，我会选择推特。

管理地理数据:ISO3166、联合国/地方编码和地名

原文：https://towardsdatascience.com/managing-geographical-data-iso3166-un-locode-and-geonames-8306ce4aa474?source=collection_archive---------16-----------------------

最近，我需要定义一个数据模型来处理国际级别的地理数据，即，当您的潜在地址在全球任何一个地方时，如何正确管理有关邮政地址的数据。下面是我在处理将地理数据整合到应用程序和数据库时发现的挑战和备选方案的结果。

地区混乱的挑战

当你研究国家是如何组织起来的，你会发现不同的标准，有时地区是相当无形的，很难证明，尤其是在欧洲国家。

仅举一个例子来说明两个国家之间的方法有多么不同:

让我们先来关注一下美利坚合众国，人口 3.25 亿，面积 9525067 平方公里，GDP 20.513 万亿美元。用户使用简单有效模式:

一个国家，27 个州。

第一个和第二个行政命令之间有明确的划分。

现在我们来看看欧元区第四大经济体西班牙，既不是主要国家之一，也不是小国家。人口 4600 万，面积 505990 平方公里，GDP 1.864 万亿美元。这是一个过度复杂的组织的例子:

一个国家，17 个自治区，2 个自治市，50 个省，8124 个直辖市。

由于一些人可能会立即指出，这两个国家决不是可比的(尽管它们是国家，所以它们应该是可比的)，我们将只分析美国的一个州。

我们会选择德克萨斯州:它在外延上略大于西班牙，拥有 2600 万人口，GDP 与西班牙相似(1.639 万亿美元)。

得克萨斯州在行政上划分为 254 个县。

同样，这并不复杂，这是一个基本而简单的管理。

美国的邮政地址不需要二级行政级别。他们只是使用国家，因为国家被认为是基本的主要行政单位，这就相当于在西班牙不使用自治区(更不用说省了)。

在某些欧洲国家，这种过于复杂且昂贵的地区行政管理模式很常见。分析的例子并不是唯一的，你可以找到其他国家，如法国有类似的情况。

协调邮政数据

如果您需要处理国际数据，了解一些有用的国际标准可能会有所帮助。

一般来说，每当你必须处理大量参考数据时，最好先检查是否有国家或国际标准。您不仅会找到协调数据的最佳方式(我说的是最佳，而不是完美)，而且还会更容易找到主数据来填充和更新信息。

如果有人抱怨数据，你还可以争辩说使用了国际标准。通过这种方式，你只需要为用户提供一种方法，让他们可以将自定义数据与自己的想法混淆起来，即如何在地图上放置或命名重要的本地区域。

这里的要点是，处理邮政数据是一个永远不会让所有人都满意的场景。考虑到这一点，遵循国际公认的标准并实现一个允许用户进行更改的接口，就大功告成了。用户现在是数据的所有者(理应如此)。

在这个前提下，我们将研究您可以使用的标准，并回顾每种标准的优缺点。

ISO 3166–1 国家

如果你需要一个编码系统和一个国家列表，不用再找了:ISO 3166–1是你的朋友。

Alpha-2 Codes ISO3166–1

由于世界上没有那么多国家，除了少数有争议的名字，这是一个独特的、确定的名单。

我喜欢使用 Alpha-2 代码来查找和填充列表。请记住，一旦您在合并记录中使用国家(如已开具的发票)，您应包括代码和名称，因为将来可能会有变化。

提示:在用户界面中总是使用表格查找的代码，而不是存储代码本身。在最终文档中存储永久值将反映文档或注册发布时的当前名称；这将使您的数据库对未来的变化具有鲁棒性，并将您从处理历史数据中解放出来。

另一种选择是为条目使用 GUIDs/uuid/IDs，并让一个活动的列反映该特定记录是否停止。在这个列表上维护潜在的更新和保持对过去变化的准确跟踪是相对容易的。但是，我不喜欢这种方法，因为最终您会保留旧信息，并使主数据维护和迁移变得更加困难。

对于信息本身，实际的标准可以在这里买到，虽然信息可以从不同的来源免费获得，比如维基百科。

提示:如果您正在处理一个涉及历史数据集(如宏观经济学)的数据分析项目，并且由于某种原因，您必须包括关于已灭绝国家的信息，请记住，ISO3166–3 为您提供了一个现已灭绝国家的列表，如苏联或南斯拉夫。

ISO 3166–2 个州/省

如导言中所述，对于第二级行政机构来说，情况并不那么容易(有些国家确实有第三级行政机构，即使没有实体或扩展机构要求这样做)。

这里的最佳选择还是 ISO3166-2。您将在这里找到第二和第三个管理级别。

ISO3166–2:FR

同样，你可以购买官方标准，也可以免费使用维基百科中的信息。

为了正确地处理信息，您可以使用这个 PHP 解析器轻松地删除信息。

Python 和 Java 对 ISO-3166 的支持

如果你使用 Python，有一个名为 PyCountry 的非常好的包，它已经包含了为你解析的信息。

在 Java 中，我没有发现任何类似的东西，尽管我个人认为这种信息应该在数据库级别进行管理，所以您可以使用上面的 Python 包创建相关的 CSV，并将它们导入到您的 Java 应用程序中。

UN/LOCODE

一种替代方法是处理来自欧洲经委会的信息。这不仅包括 ISO3166 的分支机构和国家，还包括世界上许多城市的地理位置(包括坐标)。虽然它并不完整(你不会发现每个城市都有一对一的任务)，但它提供了额外的信息。它侧重于运输，因为它包括码头、火车站和国际航空运输协会代码等运输设施的可用性信息。

UN/LOCODE Provides information about trading/transportation locations

[## ISO 3166-2 -贸易-欧洲经委会

该表按字母顺序列出了…的国家名称(英语中的官方简称，如 ISO 3166)

www.unece.org](http://www.unece.org/cefact/locode/subdivisions.html)

城市和邮政编码

州和省有点困难(试着弄清楚在法国用什么)，所以屏住呼吸，现在考虑如何处理城市和邮政编码。可用城市的数量激增，但在您开始恐慌或考虑使用城市和邮政编码的空文本字段之前，请注意有一个非常体面和简单的解决方案:GeoNames 项目。

[## 地名

GeoNames 地理数据库涵盖所有国家，包含超过 1100 万个可用的地名…

www.geonames.org](https://www.geonames.org/)

GeoNames 是一个广泛使用的、完全免费的全球位置数据库，包括它们与 ISO3166-2 的第二/第三行政级别和邮政编码的关系。

在不集成其他外部服务的情况下，这是您所能做到的最大限度。

要探索的其他选项

经过我的研究，我想知道谷歌地图 API 是否可以成为集成地址搜索功能的一个选项。如果你不得不在街上交易，这可能是一个好的选择。在我的特定场景中，这不是一个需求，所以我决定继续使用 GeoNames(它可以提供不需要与外部系统在线集成的功能)。

在这种情况下，一个好的选择可能是查询国家数据库。大多数发达国家和半发达国家将依靠免费信息，无论是在线服务还是可下载的数据库。

使用 pyenv 管理虚拟环境

原文：https://towardsdatascience.com/managing-virtual-environment-with-pyenv-ae6f3fb835f8?source=collection_archive---------0-----------------------

大多数 Python 开发人员和数据科学家都已经听说过虚拟环境。然而，管理为不同项目创建的数十个环境可能会令人望而生畏。pyenv 将帮助您简化虚拟环境的创建、管理和激活。

过去，在 virtualenv 流行之前，我会为所有 Python 项目保留一个全局工作空间。每当我安装或升级其中一个库时，它就可以立即用于所有的项目。通常情况下，它会破坏其中的一些项目…

虚拟环境的主要优点是它们为您的每个项目构成了一个单独的工作空间(virtualenv)。安装在这些工作区中的包不会互相干扰，因此您可以安全地安装、升级或删除库，而不会影响其他项目。

pyenv 是 virtualenv 的扩展，增加了一些好处:

有可能相邻安装几个 Python 解释器版本(例如 2.7 和 3.8 甚至 PyPy)，
用户安装的解释器和系统 Python 的和平共存，
用于管理虚拟环境的集中式系统，
切换到项目文件夹时自动激活虚拟环境。

安装 Python 解释器📜

让我们先来看看主要特性。如果你想亲自尝试一下，请阅读博文末尾的安装指南。

要创建一个虚拟环境，首先需要确保安装了合适的解释器。您可以从列出的可用解释器中进行选择:

pyenv install --list

(你可以用cd $(pyenv root) && git pull更新这个列表)然后安装其中一个:

pyenv install 3.8.0

要激活新环境并开始使用 Python 3.8.0:

pyenv shell 3.8.0
python

这将打开 Python 提示符，并显示熟悉的欢迎屏幕:

Python 3.8.0 (default, Oct 20 2019, 18:15:07) 
[GCC 9.1.0] on linux
Type “help”, “copyright”, “credits” or “license” for more information.
>>>

这些都很好，但是除非你还停留在 90 年代，否则你会更喜欢像 notebook 或 IPython 这样的现代 Python 接口。如果有，请继续读下去！

创建虚拟环境💻

到目前为止，我们已经安装了基本的 Python 解释器和标准库。然而，为了让我们的数据科学环境完全发挥作用，我们需要安装数据科学堆栈中的基本包，如 Jupyter、matplotlib 或 pandas。

通常情况下，您的项目将依赖于特定版本的包(这不是最佳实践，但是一些 Python 库比我们的项目运行得更快)。为了隔离一个项目所使用的包，我们可以使用虚拟环境。您可以使用pyenv-virtualenv扩展创建一个(参见下面的安装说明):

pyenv virtualenv 3.8.0 my-data-project

你可以给环境命名(这里，my-data-project)，因为它适合你。要激活环境类型:

pyenv shell my-data-project

现在您已经准备好安装您想要使用的库了。您可以从标准 Python 包存储库(PyPi 也称为 cheese shop)中提取它们，并使用pip命令安装在当前环境中:

pip install jupyter notebook matplotlib pandas

最好只安装您将在项目中使用的库。如果以后你意识到少了什么，你仍然可以用pip install添加包。现在，让我们启动笔记本服务器:

jupyter notebook

这应该会在浏览器中打开 Jupyter 笔记本界面。干得好！您刚刚安装了运行在最新最棒的 Python 版本中的 Jupyter🎉！一定要尝试它的一些新特性，比如 Walrus 运算符或 f 字符串表达式。

您还可以使用pyenv versions列出您的系统上安装的所有 Python 版本和环境，它应该会打印出如下列表:

system
3.8.0
3.8.0/envs/my-data-project

system环境是您的默认系统 Python(随您的操作系统一起安装)。另外两个是用 pyenv 创建的。

自动激活环境🚀

没有什么比在安装了额外的库之后才意识到没有激活正确的虚拟环境更令人沮丧的了。这肯定会覆盖当前激活的环境中安装的旧版本的包，并可能破坏您的项目代码。pyenv 的独特优势在于它可以为每个项目自动激活正确的环境。假设您的主目录中有一个名为predict-prices的项目目录。要为项目类型选择虚拟环境:

cd ~/predict-prices pyenv local my-data-project

(以项目命名环境是很常见的，为了避免混淆，我在这里对项目目录和环境使用了两个不同的名称)。

下一次，当您在 shell 中切换到包含项目文件的目录(或其中一个子目录)时，pyenv 将为您激活正确的环境！

请注意，如果您之前使用pyenv shell.激活了环境，自动激活将不起作用

在 IDEs 中使用您的环境

如果你不喜欢，你也可以在你喜欢的 IDE 中使用 pyenv。许多编辑器和 ide 都知道 pyenv 环境，并将为您检测它们。然后，您将能够从下拉菜单中选择当前工作区的环境。

Selecting virtual environment in VS code

但是 pip 只针对 Python 包…

虽然pip主要针对安装 Python 包，但也可以安装其他语言的软件。许多 Python 库包含一些用 C 或类似语言编写的代码。例如，numpy 中的数组在 c 中实现了性能关键的操作。在你的机器上安装这些包时，pip可以编译这样的扩展，但是它需要开发者工具(编译器、连接器、构建工具、头文件)的可用性。然而，现在大多数库也为您的平台(Linux、OSX、Windows)提供二进制文件(编译的代码)，打包成一种叫做wheel的格式，可以直接从包库中取出，不需要任何编译。

为什么不是康达？🐍

conda 是数据科学家喜欢的另一个伟大的 Python 包管理器。在很多方面类似于 pyenv + virtualenv + pip combo。它提供了一个丰富的官方软件包库和一个名为conda-forge的用户贡献软件包库。如果这些存储库中没有某些包，您仍然可以使用pip来安装它们。conda 的优势在于它是多平台、语言无关的，并且提供所有必要的构建工具和共享库。缺点是它需要安装一个名为miniconda的独立库。好消息是，在 pyenv 中安装 miniconda 就像在基于 pip 的环境中一样容易:

pyenv install miniconda3-latest

装置

要安装 pyenv，只需遵循几个简单的步骤。首先，将 pyenv git 存储库克隆到您的主目录(pyenv 仅支持 OSX 和 Linux，在 Windows 上您需要使用 Windows 子系统 for Linux ):

git clone https://github.com/pyenv/pyenv.git ~/.pyenv

然后将 pyenv 添加到您的系统路径中:

echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bash_profile
echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bash_profile
echo -e 'if command -v pyenv 1>/dev/null 2>&1; then\n  eval "$(pyenv init -)"\nfi' >> ~/.bash_profile

复制粘贴以上几行应该就可以了，但是如果你需要更详细的解释，请查阅官方指南。

我还使用 pyenv 的扩展来管理虚拟环境，称为 pyenv-virtualenv。要安装它，只需克隆 git 存储库:

git clone [https://github.com/pyenv/pyenv-virtualenv.git](https://github.com/pyenv/pyenv-virtualenv.git) $(pyenv root)/plugins/pyenv-virtualenv

要启用自动激活，请将此命令复制到您的终端:

echo 'eval "$(pyenv virtualenv-init -)"' >> ~/.bash_profile

现在，您可以从您的会话中注销，然后再次登录，以便将所有内容设置到位。

流形和神经活动:导论

原文：https://towardsdatascience.com/manifolds-and-neural-activity-an-introduction-fd7db814d14a?source=collection_archive---------13-----------------------

流形是数学和物理中的重要对象，因为它们允许用更简单的空间来表达和理解更复杂的结构。这是将该理论与神经科学联系起来以理解和解释复杂的神经活动的关键动机。

T he 流形假设陈述了真实世界的数据(图像、神经活动)位于被称为流形的低维空间中，这些流形嵌入在高维空间中。松散流形是局部看起来像欧几里得空间的拓扑空间。为了给流形一个简单的例子，并理解前两个句子，考虑一个球。球体不是欧几里得空间，因为我们不能用直线连接两点，而是需要测地线的概念，但是局部欧几里得几何定律是很好的近似。例如，地球可以近似为一个球体。你不是生活在一个球体上，而是生活在一个平面上。所以我们可以说我们“生活”在一个流形上。我希望这能给术语流形的含义一点直觉。**

流形本身属于拓扑学和微分几何的数学分支。它们存在于任何维度的空间中，但是为了简单起见，为了更直观，我们在这里只考虑三维空间。

在这篇文章中，我不想深入探究它背后的数学，而是探索它在神经科学中的相关性，以及如何利用它从神经活动数据中获得更多见解。如果你对流形的更深入的数学解释感兴趣，你可能会觉得这篇文章很有趣。

为什么我们对神经活动中的流形感兴趣？

最近，神经系统的许多研究正在经历从单个神经元到群体水平的假设和分析的范式转变。大脑中的网络由成千上万的神经元组成。我们可以预期，一个网络的自由度的数量和它的神经元的数量一样大。然而，研究【1】显示了实验证据，表明局部大脑活动被限制在由几个变量跨越的子空间(低维流形)中。

出现的一个关键问题是，除了单独研究每个神经元之外，通过研究这些被记录的神经元群体还能获得什么科学见解。事实上，当它们的活性被平均化时，单个单元通常不显示任何刺激特异性。这就是多重假说的由来。我们希望找到在单个神经元水平上不明显的结构(或特征)。此外，简单地平均许多神经元的响应可能会掩盖重要的信号，因为神经群体在其细胞类型、投射目标等方面通常具有巨大的多样性。【第二】。

在计算神经科学中，流形假设认为，潜在的网络连通性限制了神经群体活动的可能模式，并且这些模式被限制在一个低维流形中，该流形由几个独立变量跨越，我们可以称之为“神经模式”【3】。 盖莱戈等人。艾尔。 进一步说明

“这些神经模式捕获了人口协方差的重要部分。正是这些神经模式的激活，而不是单个神经元的活动，提供了神经动力学和功能的基本构建模块。”

为了识别这些神经模式，我们需要应用一些降维方法来计算高维神经活动的低维表示。

降维背后的直觉

在这里，我不会深入探讨像主成分分析(PCA)这样的特定类型的降维方法，而是会提供一个基于【4】的一般直觉。如果你对 PCA 更深刻的解释感兴趣，请看这篇写得很好的博文。

通常，我们对有 D 个测量变量的数据进行降维，并且我们怀疑这些变量可以通过更少数量的“解释性”变量 K 来更好地表示(或理解)。我们如何提取这些解释变量取决于选择的方法。由于人们不能直接观察到这些变量，它们被称为潜在变量。我们试图以描述我们数据的统计特征来结束，并把我们数据的某些方面作为噪声排除。

在神经科学中，变量 D 通常对应于观察到的神经元数量。由于这些神经元跨越了一个基础网络，因此很可能不是相互独立的，可以假设我们只需要一小部分的潜在变量来解释它们的网络活动。下面是一个思考这些潜在变量的好方法:

“潜在变量可以被认为是共同的输入，或者更一般地说，可以被认为是未被观察到的神经元在与被记录的神经元相同的网络中的集体作用。”

我们通常测量的是一个神经元发出的动作电位的时间序列。在神经科学中，这通常被建模为泊松过程。降维的目的是描述不同神经元的放电频率是如何协变的(并排除作为噪声的尖峰变化)。每一个神经元都提供了由潜在变量捕获的同一潜在过程的不同视图。潜在变量定义了一个 K 维空间，表示在群体反应中突出的共享活动模式。

下一部分将提供一个这样的例子，以及我们如何使用这些潜在的属性来建立一个基于神经模式激活的单个神经元活动的生成模型。

神经流形

Figure 1: (A) Activity of each recorded neuron is a weighted combination of the time varying activation of the neural modes. (B) Trajectory of time-dependent population activity in the neural space spanned by three recorded neurons (red). This trajectory is mostly confined to the neural manifold which is a plane shown in gray and spanned by the neural modes (green and blue vector). (This Figure is adapted from [3])

如上所述，最近的实验工作表明，神经功能可能建立在我们称为神经模式的特定群体活动模式的激活上，而不是建立在单个神经元的独立调节上。为了估计这些神经模式的数量，我们对记录的群体活动应用了类似 PCA 的降维方法。获得的一组神经模式现在定义了一个神经流形。这个流形可以被认为是一个表面，它捕获了记录的活动数据中的大部分差异，参见图 1(B)中的灰色超平面。神经模式的时间相关激活被称为它们的潜在动力学。每个神经元的活动被表示为来自所有模式的潜在动力学的加权组合，见图 1 (A)。

为了让我们刚才说的更清楚一点，把每个神经元想象成一个 N 维状态空间中的一个轴，每个轴对应一个神经元的放电频率。某个时间点的活动对应于该空间中的一个点，神经元活动的时间演化构成了一个轨迹[1]。现在，轨迹(图 1 (B)红线)倾向于被约束到这个状态空间的一个线性子空间(神经流形)而不是在所有方向上自由移动(图 1 (B)灰线)。

每个神经元可以参与一个或多个神经模式，并且神经模式包括群体活动中的大部分神经元。在图 1(B)中，描绘了三个神经元的神经空间(或状态空间)。同样，每个轴代表一个神经元的活动。我们之前提到过，网络连通性限制了群体活动的可能模式，这意味着群体动力学不会探索完整的高维神经空间，而是会保留在低维表面“神经流形”中。在我们的(简单)例子中，这个流形是由两个神经模式 u1 和 u2 跨越的平坦超平面。

神经模式可用于建立实际神经活动的生成模型[3]。我们可以将每个神经模式与一个潜在变量相关联，这样任何时间点的神经活动都是由相应潜在变量加权的神经模式的总和，图 1 (A) [1]。

这些神经模式现在可以用来描述特定任务的神经流形，例如运动皮层[5]。

结论

科学的主要追求是用简单的术语解释复杂的现象。降维使我们能够在群体水平上研究神经元，而不是平均群体反应或单独研究每个神经元。神经模式跨越一个低维流形，其中神经活动受到限制，允许检测网络中的模式。

此外，神经模式及其潜在的动力学提供了对整个大脑许多区域功能的更多了解，这些了解在单个神经元水平上并不明显[【5】](http://A stable, long-term cortical signature underlying consistent behavior)。

尽管如此，在这个研究领域仍有一些悬而未决的问题。例如，神经流形的概念不限于平面。神经流形可能是神经空间内的非线性表面。对于动力学探索神经空间的更大区域的复杂行为，线性方法可能是糟糕的估计，我们需要非线性方法，例如 IsoMap 。

请注意，本文中讨论的研究集中在与某些特定任务相关的神经流形上。另一个问题是不同的流形如何在神经空间内相互组织。

我希望这篇文章让你对什么是神经流形假说有了第一印象。为了进一步阅读，我推荐我在本文中引用的论文。

参考

[1]“扰乱脉冲神经元网络中的低维活动流形”，e . rnberg，A. Kumar

[2]“概念和技术进步为理论神经科学定义了一个关键时刻”，A. K. Churchland，L. F. Abbott

[3]“运动控制的神经流形”，J. A. Gallego，M. G. Perich，L. E. Miller，S. A.Solla

[4]“大规模神经记录的维数约减”，J. P. Cunningham，B. M. Yu

[5]“一致行为背后的稳定、长期的皮层信号”，J. A. Gallego，M. G. Perich，R. H. Chowdhury，S. A. Solla，L. E. Miller

数据科学中的流形——概述

原文：https://towardsdatascience.com/manifolds-in-data-science-a-brief-overview-2e9dde9437e5?source=collection_archive---------8-----------------------

What is this thing?

数据科学需要对数据有深刻的理解。随着越来越多的数据积累，回答以下问题变得更加困难:

我如何以准确且有意义的方式在空间上表示我的数据？

我声称回答这个问题的一个超级有用的步骤是理解什么是流形。这里有一个好消息:很可能你已经理解了什么是流形。流形本质上是可视化的，所以日常例子是丰富的。

在本文中，我将:

解释什么是流形，给出一个概念性的定义。
在不同的上下文中可视化流形的例子。
展示流形在数据科学中的应用。

什么是流形？

流形描述了大量的几何曲面。要成为一个流形，有一个重要的规则需要满足。理解这一属性的最好方法是通过例子。流形存在于任何一个维度，但为了简单起见，让我们考虑一个三维空间。

假设有一只小蚂蚁在三维流形上行走。这个流形可以是弯曲的，扭曲的，甚至有洞。规则如下: 从蚂蚁的角度来看，它走到哪里都应该看起来像一个平面。

这个规则听起来耳熟吗？如果你正在寻找一个应用程序，我想这是一个我们所有人都可以涉及的；我们生活在一个流形上！球面是三维流形中最简单的例子之一。

流形的例子

下面是一些常见的流形例子。请注意，流形只是这些对象的表面，而不是内部。

Basic surfaces that are manifolds.

你能想到是不是流形的曲面吗？这些表面在一些“尖”点会有问题。以下是我首先想到的几个:

一个立方体。如果你沿着一边走，到了边上，东西就会太尖，看起来就不再像平面了。
一座山的风景。假设峰顶非常尖，在这一点上，物体看起来不会像平面。
一个沙漏。假设两半的交点是一个单点，那么这个规则在这里就被打破了。

思考流形的直觉

这些例子的共同主题是它们有些光滑——这意味着没有尖锐的尖峰或边缘。对象的整体形状可以是无定形的，这在描述没有严格边界的数据集时很好。

数据科学中的流形

数据可以来自各种空间。它可以是所有图像的空间，或者来自一个价格和数值范围。这些高维空间具有复杂的表示，并不总是可视化的。然而，数据可能来自由流形表示的特殊子集。

因此，流形可以充当从复杂空间到更简单、更平滑子集的垫脚石。

Manifold of handwritten digits as a two-dimensional representation.

分类问题是流形学习的主要例子——我们专门寻找分离两种类型数据的流形。

Classification problems involve finding manifolds.

其他时候，我们可能对将数据“分解”到更低的维度感兴趣——考虑从螺旋形流形中采样，并学习如何将它从下面的三维表示展开为二维平面表示。

(a) Dataset spatial representation. (b) Smooth surface approximation.

定义流形

不幸的是，流形通常不容易解析定义，大多数几何对象都是如此。机器学习中的许多任务都与学习数据的多种表示有关，然后利用这种表示对剩余空间进行预测。如果你对机器学习的这个分支感兴趣，可以去看看流形学习。

结论

看数据对很多人来说是极其满足的，理解数据的几何结构也随之而来。流形是发现数据的基本表面。一旦你有一个流形来描述你的数据，你就可以预测剩余的空间。

感谢阅读！如果能听到你对这篇文章的反馈以及你将来想看到的东西，那将是非常好的！欢迎在下面的评论中写下任何问题。

用随机状态操纵机器学习结果

原文：https://towardsdatascience.com/manipulating-machine-learning-results-with-random-state-2a6f49b31081?source=collection_archive---------3-----------------------

Photo by Simon Basler on Unsplash

理解随机状态对模型结果的影响

T 调整超参数、执行正确的特征工程、特征选择等都是构建机器学习模型的数据科学流程的一部分。几个小时花在调整和修改过程的每个部分，以改善我们的模型的结果。

然而，在数据科学中最受欢迎的函数中，有一个参数可以改变，以改变机器学习的结果。

…..它与领域知识或您对数据所做的任何工程无关。

随机状态

ML_model(n_estimators=100,max_depth=5,gamma=0,**random_state=0..)**

一个看似无害的论点可能会改变你的结果，但几乎没有任何文章教你如何优化它。通过对训练数据和模型种子的随机排列进行一些操作，任何人都可以人为地改善他们的结果。

在这篇文章中，我想温和地强调一下大多数数据科学项目中经常被忽视的一个组成部分— 随机状态，以及它如何影响我们在机器学习中的模型输出。

那么随机状态是如何影响分类器输出的呢？

为了展示这是如何影响预测结果的，我将使用 Kaggle 著名的泰坦尼克号数据集来预测乘客的存活率。

使用训练数据集，我应用了一些最少的数据清理和特征工程，只是为了获得足够好的数据用于训练。在这个例子中，我将使用 xgboost 分类器模型进行典型的网格搜索交叉验证。

我将使用的培训数据:

利用网格搜索寻找最优的 xgboost 超参数，得到了模型的最佳参数。

基于交叉验证结果，我的最佳性能达到 82.49%，最佳参数为:

'colsample_bytree': 1.0, 'gamma': 0.5, 'max_depth': 4, 'min_child_weight': 1, 'subsample': 0.8

这个过程是许多机器学习项目的主要内容:搜索一系列超参数，以获得最佳的平均交叉验证结果。这时，工作就被认为完成了。

毕竟，交叉验证应该对随机性具有鲁棒性。对吗？

不完全是

对于数据科学教程或 Kaggle 内核中的结果展示，笔记本将会就此结束。然而，我想拉回到以前的工作流程，以显示不同随机状态的结果如何不同。

这次让我们在分类器上运行具有 5 种不同随机状态的代码:

让我们也改变交叉验证随机状态:

所有返回的结果都不同。对于 xgboost 分类器和交叉验证分割的 5 种不同的随机状态，网格搜索运行产生 25 种不同的最佳性能结果。

拥有多个结果源于这样一个事实，即我们使用的数据和算法有一个随机的成分会影响输出。

然而，这在数据科学过程中产生了巨大的疑问，因为我们一直在改变我们的模型。

对于我所做的每一个改变，我会比较不同运行的结果来验证改进。例如改变“a”可以提高模型 2%,增加“b”可以进一步提高模型 3%。

随着上面显示的结果的变化，这让我想知道我的特征工程是否真的有助于更好的结果或者这种改进完全是偶然的。

也许不同的随机状态会使我的结果比以前更糟。

Photo by dylan nolte on Unsplash

我最初的成绩是 82.49%，但 84.84%更高

请注意，在分类器随机状态 4 和分层洗牌随机状态 2 下，我的结果比我最初的运行高出了 84.84%。

那我该展示哪个结果呢？

呈现最好的模型结果是诱人的，因为随机种子是固定的，结果是可重复的。

结果的 2%的改善仅仅归因于不同的随机状态，这似乎是荒谬的。似乎在一个好的日子里，用正确的种子，我们会得到一个更好的结果。

我们应该如何应对这种不确定性？

https://xkcd.com/2110/

在数据科学管道中，有许多方法可以解决这个问题。这绝不是一个完整的列表，而只是我在工作中进行的一些实践。

1)从一开始就固定随机状态

对所有事情都承诺一个固定的随机状态，或者更好的是，确定一个全局随机种子，这样随机性就不会发挥作用。将其视为流程中不可改变的变量，而不是可以修补的东西。

或者，

2)使用预测结果作为区间

由于结果在一个范围内会有所不同，因此您可以选择将交叉验证结果报告为一个范围。用不同的种子重复运行，以产生您可以报告的置信区间。人们可以很轻松地说，该模型的性能范围确实在这个范围之内。

3)减少数据分割的不平衡/随机性

减少随机分割对数据的影响的方法之一是确保分割不会对数据的组成产生太大影响。

将数据分层以减少随机性。对数据进行分层可确保训练测试分割/oob 错误/交叉验证的数据在训练和测试集中分别具有相同的存活者/非存活者比率。分割是通过保留每个职业的百分比来完成的，这样可以减少随机洗牌对结果的影响。甚至可以在多列上进行分层。

值得注意的是，尽管数据是随机的，但表现的变化不应太大。

如果精度结果随种子变化很大，这可能意味着模型不够稳健，你应该考虑改进你的方法以更好地拟合数据。大多数情况下这并不重要，但是当边界非常接近时，考虑所有可以用来提高模型性能的变量，包括随机状态，将是很有诱惑力的。

希望这篇文章已经设法强调了随机性如何影响我们的模型，以及减轻其影响的几种方法。

下面是我用过的代码的 github repo ，都可以转载。感谢阅读！

使用 Python 操作熊猫的数据。

原文：https://towardsdatascience.com/manipulating-the-data-with-pandas-using-python-be6c5dfabd47?source=collection_archive---------15-----------------------

让我们用 Python 来计算我的熊猫数据框架的兼职收入。

Credits: GeoSpatial Training Services

在开始之前，让我给你介绍一下 Pandas ，Pandas 是一个 python 库，它为 Python 编程语言的数据分析工具提供了高性能、易于使用的数据结构，如系列、数据框和面板。为了使用 pandas 库和它的数据结构，你必须安装并导入它。请参见熊猫库的文档以获得更多更好的理解和安装指南。

计算兼职收入的步骤。

导入所需的(熊猫)库。
将日期、工作时间和收入等值存储在数据帧中。
向现有数据帧添加更多行(更新数据帧的行)。
计算挣的钱和工作的总时间。
用日期和挣得的钱绘制条形图。
包括搜索选项，以便搜索相应的工作日期。
最后添加工资选项。

让我们开始吧！！！

1。导入所需的(熊猫)库。

在本教程中，我们将只使用 pandas 库来执行以下计算，pandas 库本身将为我们提供计算总和并绘制条形图的选项，您无需导入 matplotlib 来绘制图形，pandas 库将为您提供绘制条形图的选项。这将是非常重要的，以了解如何使用熊猫数据框架绘制条形图。如果你用的是 Google Colab 笔记本，你不需要安装任何熊猫图书馆，只需要导入就可以了。否则，您必须在命令提示符下说 pip install pandas 来手动安装它。别名(pd)的原因是，当我想通过别名使用任何方法时，我不必每次都写给熊猫，我可以改为写 pd.method name。

# Importing pandas library.
import pandas as pd

2。将日期、工作时间和收入等值存储在数据帧中。

# Creating a data frame df.
df = pd.DataFrame({'Date':['11/05/19', '12/05/19', '19/05/19', '25/05/19', '26/05/19', '1/06/19'],'Time Worked': [3, 3, 4, 3, 3, 4],'Money Earned': [33.94, 33.94, 46, 33.94, 33.94, 46]})# Head displays only the top 5 rows from the data frame.
df.head()

Storing the values in a data frame.

在这一步中，我将所有数据分类为数据、工作时间和收入三列。日期栏以日/月/年格式显示工作的日期，它将以字符串形式存储，工作时间以整数形式显示一天内完成的工作总量(小时),收入以整数形式显示一天内收入的总额(加元)。在这里工作一小时，最低工资是 11.51 加元。所有这些只是原始数据，这些数据后来被存储在 pandas DataFrame 中，并被分配给一个变量 df。为此，只需使用“pd。DataFrame”并传入所有数据，通过这样做，熊猫会自动将原始数据转换成 DataFrame。我使用 head()是因为数据框包含 10 行数据，所以如果我打印它们，它们可能会看起来很大并覆盖大部分页面，因此 head()显示数据框中的前 5 行数据。

3。向现有数据帧添加更多行(更新数据帧的行)

在这一步中，我们将学习如何向现有数据框追加或添加更多行，这是一个重要的步骤，因为很多时候您必须通过添加更多行来更新您的数据框，在本例中，我首先创建了一个名为 df2 的新数据框，然后通过将 df2 作为参数传递来调用 append()。您必须像 df.append(df2) (existing)那样将新数据帧附加到现有数据帧。append(新数据帧))，现在在 append 函数中，我们有一些其他参数，如 ignore_index = True，这可以防止数据帧追加新的索引，因此在此示例中，所有索引都是连续的(递增)，下一个参数是 sort = False。这是因为我们不想根据索引对数据进行排序，否则我们的数据将完全是一个混合体，您可以通过分别将这些参数的值更改为 False 和 True 来处理这些参数，并注意它们之间的差异。最后，将新的附加数据帧存储到新的变量 df 中。

# Adding more rows
df2 = pd.DataFrame({‘Date’: [‘10/06/19’, ‘12/06/19’, ‘14/06/19’],
                    ‘Time Worked’: [3, 4, 3],
                    ‘Money Earned’: [33.94, 46, 33.94]})
df2

Storing the values in a new data frame df2

# Appending the rows of the old data frame to the new data frame.df = df.append(df2, ignore_index=True, sort = False)
df.head()

Appending the rows of the old data frame to the new data frame.

4。计算挣得的钱和总工作时间的总和

这一步非常简单，因为我们只需获得“挣得的钱”和“工作的时间”两列的总和。要做到这一点，您只需使用 sum()即可，它将返回这两列中所有数据的总和。我只是对 Total_earnings 使用 round()来获得精确的值。确保在 df 中传递正确的列名，因为如果列名不匹配，就会给你带来麻烦。最后，我以可读性更好的方式打印结果。

Total_earnings = df[‘Money Earned’].sum()
Total_time = df[‘Time Worked’].sum()print(“You have earned total of ====>” ,round(Total_earnings),“CAD”)
print(“ — — — — — — — — — — — — — — — — — — — — — — — — — — — ”)
print(“You have worked for a total of ====>”, Total_time, “hours”)

Printing the result of total earnings and total time worked.

5。绘制总持续时间与收入的条形图

正如我前面提到的，要绘制一个图形，您不必导入 matplot 库，pandas 有一个 plot()，它将在一定程度上帮助您绘制一个图形。我已经使用了 plot()并将“日期”和“赚的钱”作为 x 和 y 值传递(因为你需要 x 和 y 值来绘制一个图形；)我想要一个条形图，所以我用了条形图，你也可以使用线，分散到关键字种类。然后我们得到一个漂亮的条形图，其中所有的值都是根据我们的期望绘制的。

# Plotting a bar graph using pandas library.
df.plot(x =’Date’, y=’Money Earned’, kind = ‘bar’)

Plotting the graph of Date vs Money Earned.

上面显示的不是绘制图表的最佳方式，但是我已经向你们展示了熊猫库可以帮助你们绘制图表，有时使用这种方法很方便，因为数据和计算较少，你所要做的就是用 x 和 y 值绘制图表。

6。包括搜索选项，以便搜索相应的工作日期。

这是一个额外的步骤，只是为了给它一种感觉，就像我加入了一些功能的数据库，比如搜索选项。在实时项目中，这是一个方便的功能，你经常需要搜索数据，但你不能手动搜索，所以在下面代码片段的帮助下，你就可以完成任务了。在这个例子中，我使用 str.contains()进行搜索操作，并将数据作为参数传递，现在数据是一个变量，包含用户输入的要搜索的数据。输入日期时，str.contains()会搜索输入的日期，然后显示日期和数据框中的相应值。这将有助于当你想搜索一个特定的数据，并获得时间和金钱，你可以只输入日期，并得到结果快，而不是手动寻找所需的日期。

# Including a search option.
date = input(“Enter the date you want to search ===> “)
df[df[‘Date’].str.contains(date)]

The result of the search option.

7。最后添加工资选项

这更像是一个可选(奖金)步骤，因为这将为输入的数据生成工资，这不是一个行业级工资生成器，而是一个简单的工资生成器，具有不同的功能和打印报表。逻辑非常简单，我所做的就是将姓名、小时数和费率作为用户输入，然后将费率和小时数相乘，并将它们存储在 total_money 中，并将其封装在一个函数中。

# Function payroll contains calculation of total money.
def payroll():
 name = input(“Enter the name of the employee: ==> “)
 hours = int(input(“Enter the hours worked by the employee ==>“))
 rate = float(input(“Enter the pay rate for one hour ==> “)) total_money = hours * rate print(“The total money earned by “, name, “for working “, hours,  “hours”, “is ===> “, round(total_money), “CAD”)

The result of the payroll function.

因此，这就是如何使用 pandas 数据框和 python 计算兼职收入的方法。我知道这很容易理解，因为我已经尽可能多地解释了代码，剩下的你可以自己练习。如果你对熊猫图书馆知之甚少，这是一个好的开始，这些是你应该唾手可得的一些基本方法。我就讲到这里，让你们练习代码。如果你有任何疑问，请在评论区告诉我，或者给 tanunprabhu95@gmail.com发邮件让我知道你的问题，我一定会解决你的问题。祝你过得愉快！！！！

在人工智能定义的自动化的新时代，公司会蓬勃发展还是勉强生存？

原文：https://towardsdatascience.com/manufacturing-industry-reshuffle-will-companies-thrive-or-barely-survive-in-the-new-era-of-aa06a3cade5c?source=collection_archive---------29-----------------------

Photo by Rob Lambert on Unsplash

先前我们讨论了人工智能如何使机器人执行过去无法完成的任务。具体来说，AI 机器人在三大领域实现了突破。但会对目前制造业的格局产生什么影响呢？谁将能够抓住新技术所带来的机遇？哪些公司将面临前所未有的挑战？

人工智能机器人将如何颠覆制造业？

破坏性创新是由哈佛商学院教授克莱顿·克里斯滕森提出的。该理论的中心思想是:行业中的现有参与者一般选择专注于“持续创新”，以改善现有客户的现有产品和服务。这些客户通常是那些产生最多利润的人。

此时，一些资源较少的小公司就会抓住机会，瞄准被忽视的市场需求，站稳脚跟。破坏性创新分为两种类型:低级市场创新和新市场创新。

低层次的市场创新(如数码摄影)

Photo by Jon Tyson on Unsplash

早期的数码相机分辨率差，快门延迟长。然而，随着数码摄影质量和分辨率的提高，数码相机已经逐渐从低端市场走向主流市场。

具有讽刺意味的是，尽管柯达开发了数码相机，但最终还是被新技术淘汰了。原因是柯达不可能放弃该公司三分之二的胶片市场份额。这就是“创新的困境”。尽管目睹了新技术的威胁，但由于现有的公司结构和战略，公司无法应对。

新市场创新(如电话)

新市场创新指公司通过瞄准现有公司不服务的客户来进入市场。比如电话刚问世的时候，只能用于短距离的本地通信。当时电报行业的领头羊西联电讯拒绝购买发明者贝尔的专利，因为该公司最赚钱的业务是长途电报市场。当时，短距离通信甚至不被认为是一个市场。不幸的是，他们无法预见未来无处不在的电话通讯。

AI 机器人带来的正是新市场的 D 颠覆性创新！

汽车和电子制造业目前占工业机械臂出货量的 60%。这就是 FANUC、ABB、库卡和安川等传统机器人公司将大部分资源用于“持续创新”的原因他们专注于自己擅长的领域和主要客户的需求:提高速度和精度。

Comparison of traditional and AI robot innovation strategies (source: Bastiane Huang)

他们忽略了新的市场和应用，包括仓储、食品和制造的配套流程。这些行业的客户不需要如此高速、高精度的工作。他们需要的是灵活性、灵巧性，以及机器人学习识别和处理各种部件的能力。

感知到这些未满足的需求，新的人工智能机器人创业公司开始将人工智能应用于机器人。这些公司开始进入隐蔽的新市场，如配套、包装和仓储。

Source: OSARO

有趣的是，这些创业公司很多都不生产自己的机械臂。相反，他们专注于开发机器学习模型、机器人视觉感知和控制软件。因此，他们与现有的机器人手臂制造商合作，提供硬件支持。你可能会假设，即使这些机器人公司不追求 AI 创新，它们也不会被淘汰，因为自动化仍然需要硬件供应。

然而，这忽略了一些事实:

首先，很少有机器人公司已经发现了商机，并开始与这些初创公司合作或建立自己的人工智能团队。由于他们的领先，这些公司可以在以前没有服务的市场建立客户基础，并领先于他们的竞争对手。

其次，随着 AI 的采用越来越多，产业链中最有价值的组件将逐渐从硬件转移到软件和数据。我们已经可以从自动驾驶汽车的发展趋势中看出这一点。一旦无人驾驶汽车变得高度自主，最赚钱的组件将掌握在特斯拉、谷歌和其他控制机器学习模型和自动驾驶数据的公司手中。

这就是传统汽车制造商高度警惕的原因。汽车制造商要么积极参与并购，要么与硅谷软件人工智能初创公司合作。相比之下，机械臂制造商似乎不像汽车制造商那样对颠覆性的人工智能技术做出反应。

机器人制造商、制造商和人工智能初创公司:谁能在人工智能时代巩固地位？

与汽车行业的同行相比，大多数机器人公司似乎对人工智能的反应不够快。即使他们真的投资人工智能，他们仍将面临与柯达相同的困境。组织的重建和战略的制定，以尽量减少转型的负面影响，将考验每个公司管理层的判断和决心。

另一方面，开发新市场极具挑战性。创业公司仍然需要与制造商密切合作，开发更好地满足客户需求的解决方案。制造过程甚至比仓储更复杂。创业公司不一定像理解人工智能和机器人一样理解制造过程。这给了制造商一个成长和转型的绝佳机会！

如果制造商能够率先与这些新的人工智能创业公司合作，他们将能够通过流程自动化提高生产效率和质量。他们还可以满足少量但高度定制的客户需求，这在过去是很难实现的。这一点尤为重要，因为制造商长期以来一直受困于大规模生产和残酷的定价竞争。

制造中心应该利用他们现有的优势和制造过程中的知识来发展人工智能，最终成为下一个人工智能中心。

与人工智能应用相对成熟的零售或消费网络等其他行业相比，人工智能在制造业的发展仍处于萌芽状态。传统制造商仍然有可能利用他们的优势，包括对应用案例的更好理解和对数据的掌握，来巩固在自动化新时代的地位！

如果你想看更多这样的文章，请点击这里！

Bastiane Huang 是 OSARO 的产品经理，OSARO 是一家总部位于旧金山的初创公司，致力于开发软件定义的机器人。她曾在亚马逊的 Alexa 小组和哈佛商业评论以及该大学的未来工作倡议中工作。她写关于人工智能、机器人和产品管理的文章。跟着她到这里。

Map-Reduce:梯度下降

原文：https://towardsdatascience.com/map-reduce-gradient-descent-276e6ed0b002?source=collection_archive---------21-----------------------

使用 PySpark 和 vanilla Python

一些统计模型𝑓(𝑥通过优化依赖于一组参数θ的损失函数𝐿(θ来学习。有几种方法可以找到损失函数的最佳θ，其中一种方法是按照梯度迭代更新:

然后，计算更新:

因为我们假设数据点之间是独立的，所以梯度变成了求和:

其中𝐿𝑖是𝑖-th 数据点的损失函数。

Image by Gerd Altmann from Pixabay

以统计模型𝑓(𝑥)=𝑏0+𝑏1𝑥和损失函数𝐿(θ)=(𝑓(𝑥)−𝑦为例)。如果我们有一组三个数据点𝐷={(𝑥=1,𝑦=2),(𝑥=−2,𝑦=−1),(𝑥=4,𝑦=3)}

那么它们中每一个的损失函数是

𝐿1=(𝑏0+𝑏1−2)、𝐿2=(𝑏0−2𝑏1+1)和𝐿3=(𝑏0+4𝑏1−3)与

如果我们从𝑏1=1 𝑏0=0 的解决方案开始，那么梯度是:

积累后会产生

现在，我们创建一个函数，它将接收参数 b 和一个数据点 x 作为列表，并返回该数据点的预测值(y)。

Ex: f_linear([0, 1], [1]) will give an output of 1

我们定义一个接收预测 y 和实际 y 并返回它们之间的平方误差的函数。

Ex: L(1, 1) will give an output of 0

函数 gf_linear(f，b，x，y)将返回具有参数 b 的函数 f 相对于平方损失函数的梯度，在 x 和实际结果 y 处评估。此函数应返回每个元素𝑗对应于相对于𝑏𝑗和𝑗={0,1,…,𝑝}.的梯度的向量

Ex: x = [1], y = 2, b = [0, 1], gf_linear(f_linear, b, x, y) will give an output of [-2,-2]

地图缩小:

我们开发了一个生成值的地图缩减作业，因此该值的第一个元素是所有数据的平均损失函数。我们将映射函数实现为map_mse(f, b, L, xy)，其中f是函数b是函数的参数L是损失函数xy是数据。假设数据将以 RDD 的形式出现，其中每个元素的格式如下:

[x, y]其中x是列表，y是标量

Ex:rdd _ data . map(lambda x:map _ MSE(f _ linear，[0，0，0]，L，x))。collect()会给出一个输出为:[[1，[9，1]]，[1，[16，1]]，[1，[0.0，1]]，[1，[0，1]]。这里 key 是 1，b=[0，0，0]，我们从 rdd_data 得到 x。map 的输出是每个数据点的键和值。

现在，我们创建一个 reduce 作业，它接收前一个 reduce(或 map)的两个值，并适当地合并它们。在 reduce 作业结束时，值的第一个元素是均方误差。

例如: rdd_data。
map(lambda x:map _ MSE(f _ linear，[0，0，0]，L，x))。
reduceByKey(reduce_mse)。first()[1][0]会给我们一个 6.25 的均方误差。(x 和 y 值请遵循 rdd_data)

因此，现在我们将计算数据模型的累积梯度。我们将定义一个映射函数map_gradient(f, gf, b, xy)，它将接收一个函数f，它的梯度gf，它的参数b，以及一个数据点xy = [x, y]。此外，我们将定义一个函数reduce_gradient(v1, v2)来适当地组合这两个值。

Ex:rdd _ data . map(lambda xy:map _ gradient(f _ linear，gf_linear，[0，0，0]，xy))。reduceByKey(reduce_gradient)。first()[1]将给出[-14.0，-30.0，-20.0]的输出

现在，为了得到一个优化的值，我们运行下面的代码，使 MSE 每次都减少。

感谢你的阅读，我希望你能学会或至少理解梯度下降是如何工作的，以及如何使用 Map-Reduce 实现它。

Linkedin:

[## Harsh Darji -特约撰稿人- Medium | LinkedIn

我是一名数据科学爱好者，追求应用高级分析，建立大数据分析工具…

www.linkedin.com](https://www.linkedin.com/in/harshdarji23/)

GitHub:

[## harshdarji23 -概述

在 GitHub 上注册您自己的个人资料，这是托管代码、管理项目和与 40…

github.com](https://github.com/harshdarji23)

绘制争议地图:堕胎辩论

原文：https://towardsdatascience.com/mapping-controversies-abortion-debate-7235029fc6d9?source=collection_archive---------21-----------------------

维基百科&辩论的竞技场

安-索菲·索尔森，杰佩·卡姆斯特鲁普，拉斯穆斯·德·尼尔加德和约翰内斯·范登赫维尔。

自从堕胎成为可能以来，围绕这个话题的讨论就一直存在。虽然在现实世界中很容易发现外界的争议，但我们还是去了维基百科，调查一个追求中立的在线百科全书会如何呈现它。

通过使用数字方法和收集在线数据，我们调查了堕胎辩论如何在维基百科的舞台上展开。我们的发现也许向我们展示了当维基百科试图解决社会中有争议的话题时，它和英美世界是如何运作的。

我们所做的:

首先，我们收集了绘制争议地图所需的数据。我们使用了几个 python 脚本，然后对数据进行了清理和排序，这样就可以构建可视化了。这里我们应用了几个不同的程序和应用程序。

这些脚本要么使用维基百科 API，因此向维基百科数据库“请求”信息，然后返回这些信息，要么它们抓取和爬行维基百科。这个过程包括脚本“浏览”有问题的页面，从中提取信息，如文本或链接，并移动到其他连接的页面。

在这样做的时候，我们选择了维基百科类别 堕胎辩论 作为种子，或者“起源页面”，深度为 2，从而移动到所有连接到这个的页面，然后所有的页面链接到那些。这给了我们种子类别的成员，从这个和他们的子类别链接的子类别，总共 204 个维基百科页面。

然后使用其他脚本和程序的组合来处理我们的数据集，如 Gephi、CorTexT、alteryx 和 Tableau。

这为我们的可视化产生了 5 种类型的数据；

显示链接到其他页面的页面的数据。
特定页面上特定单词的出现。
页面中的文本。
不同的编辑修改不同的页面。
特定用户在特定时间对页面进行的修订或编辑。

产生的 204 个维基百科页面的数据集然后用两个不同的 python 脚本抓取，生成带有全文的文件。一个用于通过 CorTexT 进行语义分析，而另一个用于查询用户指定的关键字。然后，我们通过 API 检索修订历史，以生成所选页面的两条时间线。

最后，我们抓取了维基百科的 HTML，生成了一个由文本链接连接的 204 页的网络，这意味着维基百科文章的主要文本。然后，这与关键字搜索相结合，生成了 11 个衍生网络，按笔记大小显示了选定的问题。

Workflow of our process of data harvesting and construction of visualizations, for a larger size click here.

针，遇到草堆:

Our network, where we sat down and looked for clusters in the network. We identified 4 distinct clusters, but also a middle that did not separate easily. For a larger size, click here.

我们开始使用开源应用程序把从堕胎辩论类别收集来的维基页面排列成一个可视网络。这给了我们一张由两种截然不同的东西组成的地图。点是维基页面的可视化，称为节点。第二件事是连接这些节点的线。这些线表示节点是相连的——在这张地图上，这些线显示了不同的维基页面如何在维基页面的文本中相互链接。在我们的术语中，这些线被称为边。

为了搞清楚这个网络，我们使用了一种力导向的放置算法，称为 ForceAtlas2 。该算法给数据点和它们的连接一种空间感，我们需要这种空间感来直观地分析网络。ForceAtlas2 的工作原理是给边和节点一种推拉效应，其中边的功能就像一种弹簧，将节点绑定在一起，这些节点相互排斥。这样，具有许多共同边的节点彼此更接近。因此，该算法将节点展开，并使得通过 Venturini 等人(Venturini 等人)陈述的 4 条规则对网络进行空间分析成为可能。铝:2015):

1:哪些是主要的集群？

2:分隔它们的主要结构孔是哪些？

3:每个集群中有哪些子集群？

4:分隔它们的是哪些较小的结构孔？

然而，我们的问题是，我们的网络中几乎没有结构上的漏洞——它更像一只海星，而不是中间有洞的相连的集群。因此，我们最终在我们看到的“海星”的明显手臂周围画了圈。

这给了我们爱尔兰、加拿大、宗教、和美国法律体系——但它留给我们一个大中心，我们不知道如何分析。

Map of the category of Abortion debate on Wikipedia, and its subcategories with a depth of two. This map shows the network after the use of the modularity tool in gephi. For a larger size, click here.

为了尝试理解这只海星，我们使用了 Gephi 内置的一个工具，叫做模块化工具。模块化是一种尝试将大集群分成更小的子集群的方式，通过数学定位大网络如何划分成更小的组，彼此之间有更多的内部连接。这些子网络可以指示更大网络内的某些社区。

简而言之，它试图让计算机在理解集群时做一部分分析工作。这是通过用不同的颜色给不同的子簇着色来实现的。

模块化工具给了我们与我们自己挑选的集群大致相同的集群。但它也给了我们两个新的集群，在参考了维基百科的文章后，我们将其命名为权利和边缘。

模块化地图也迫使我们提出另一个观点— 桥。桥是连接集群的节点——它们是维基百科上通过链接不同主题来连接两者的页面的表示。模块化工具简单地为子集群分配一个它最有可能找到的桥接节点。同样地，堕胎节点成为美国法律系统的一部分，尽管它并不在附近。这可能不是最好的情况，一旦你手动查看维基百科上的页面及其内容。

但是我们的新聚类也许也给了我们一些关于维基百科作为媒介的见解——争论集中在英美世界，但也在法律方面。也许网络也向我们展示了英语维基百科如何对堕胎辩论的争议进行排序，或者用 Marres & Moats (Marres，Nortje & David Moats: 2015)的话说:

……我们可以从关注知识内容和争议中的政治利益之间的关系(这是早期 sts 的目标)扩展这种对称方法，以包括媒介和内容之间的关系。

本质上；我们看到媒体，这里是维基百科，是如何组织讨论有争议的事情的。

地区、宗教和法规:

为了更好地区分我们的聚类，我们搜索了特定的关键词，看看这些关键词是否在文章语料库的某些部分使用得更多。请注意，下面的网络是上面网络的循环版本。

Prevalence of regional notions shown by size.

首先，我们调查了在不同地区开展的主题。我们仔细观察了几个英语国家的流行情况。通过对国家术语进行关键字搜索，并在对这些术语进行分组(即“爱尔兰人”、“爱尔兰人”和“爱尔兰人”)时，我们看到两个地理聚类(加拿大和爱尔兰)，与模块化工具得出的聚类密切相关。我们进一步看到，美国的观念严重影响了网络。

Prevalence of religious notions shown by size.

我们发现人们对绿色集群很感兴趣，这是使用模块化工具的结果。为了探索这一点，我们对伊斯兰教、犹太教、基督教和天主教进行了关键词搜索。每一个都是通过搜索包含该信仰的几个词(即“穆斯林”和“伊斯兰”)来构建的。通过比较这些，我们都看到所有的宗教彼此之间有很大的关联，大多数都出现在左下方，同时也看到了它们的差异，如天主教更多地出现在“爱尔兰”部分。

Prevalence of different juridical terms shown by size.

在调查网络时，我们注意到很大一部分链接页面都是关于法庭案件的。因此，我们决定调查这个话题对辩论的影响程度。我们看到“法律”严重影响了整个辩论，而“法庭案例”大多位于左上角，大多数位于橙色群集内。最有趣的也许是禁止和管制之间的区别(两者都由动词和名词组成)。我们看到禁酒令在“宗教”绿色集群中更加突出。这可能是因为宗教团体更倾向于谈论禁止堕胎，而监管可能更像是一个法律话题。由于一些集群也有地理上的相似性(如上所述)，这里的差异也可能是由于文化或语言的差异。

连通性:单行道还是双行道？

A visualization showing the degree of the graphs in two way — in degree and out degree. For a larger size, click here.

这两张地图展示了维基百科的链接是如何作为一种等级体系运作的。维基百科上的一些文章，如 罗伊诉韦德 在两个网络中都很大。在 Roe 诉 Wade 一案中，两个地图中的这种表述是其历史和法律分歧的产物。在美国，如果不联系到 1973 年美国最高法院的案例，讨论堕胎几乎是不可能的。其后果今天仍在政界和司法界继续。

但是更有趣的是那些在一张地图上很大并且可见，但是在另一张地图上却看不见的。堕胎联系紧密，但这在维基百科的结构方式和我们收集数据的方式上是有意义的。几乎所有关于堕胎辩论的网页，以及它的子分类都会链接到关于堕胎的文章。堕胎的文章本身主要读起来像是一个医疗流程及其与历史和宗教实践的关系。文章很少用在辩论上，辩论有自己的文章。

一些链接不太好，但包含其他页面链接的页面是像 【美国】特纳日记Eugen Relgis和各种关于围绕堕胎主题的游行的文章。因此，有一个大的出度而没有一个大的入度可能会告诉我们，所讨论的节点位于网络的边缘。有些联系甚至可能是试图获得更多的合法性，或者是效仿拉图尔，试图调解自己在争议中的立场。也许特别是如果用户群是非常独特的一篇文章？

语义展开海星:

我们利用 CorTexT.net 网站进行了一系列不同的语义分析。该网站是由两个法国政府机构资助的 LISIS 研究单位的在线平台——IFRIS 和 INRA 。CorTexT 是一个有趣的工具，因为它让我们通过一种算法来运行我们的数字电子表格，这种算法对这些电子表格的内容进行语义分析。这让我们有机会从维基百科中搜集大量的文本，然后将它转化为常用短语的网络。

我们对维基百科堕胎辩论类别中的所有文章页面都做了这样的处理，结果地图如下。

A map of the top 100 phrases and words in the Wikipedia category of abortion debate. Made with CorTexT. For a larger size, click here.

这张地图证实了我们的发现，即美国司法系统在文章描述堕胎辩论的方式中占据显著地位。这可能是一个迹象，表明这个有争议的话题是如何通过法律体系及其决策方式来处理的？显然，美国的制度似乎就是这样运作的。司法的分量使其他形式黯然失色，这些形式可能是处理有争议话题的途径，如宗教或政治，它们在这种关系中发挥的作用较小。

这张地图还缺少一些东西——争议。或者说，它没有表现出来。也许这告诉我们一些关于维基百科辩论结构的事情——对用户之间争议的处理隐藏在文章之外的某个地方，媒体宁愿避开互联网上辩论者的混乱信息来源？我们必须更深入地了解维基百科页面的世界，才能找到这场斗争。

语义映射集群:

下面的可视化是三个图的合成，基本聚类的所有衍生物，从整个网络中移除，聚类中的文章页面的语义分析，以及文章的谈话页面的语义分析。语义分析是通过 CorTexT 完成的。

权限-群集:

Composite of graphs from the Rights cluster. Notice how much of the debate surrounding the production of the article happens in the Talk pages, and how these are often refering to Wikipedias policies. For a larger size, click here.

爱尔兰集群:

Composite of graphs from the Irish cluster. Here a discussion on the representation of the relationship between the Republic of Ireland and Northern Ireland is done in the articles. A reflection on another controversial issue, that is present because of the geographical nature of the articles. For larger size, click here.

边缘集群:

Composite of graphs from the Fringe cluster. Here we also see that, in the analysis of the articles, there are very few bridges between the different clusters. Perhaps a sign that this cluster should be investigated? Maybe a reflection on how well the modularity tool produced a cluster where the contents of it form a community — here it clearly lumped different communities together. For larger size, click here.

加拿大集群:

Composite of graphs from the Canadian cluster. These graphs are interesting in that they display nothing like that looks like a controversy. What has been mapped here is everyday Wikipedia editing of articles. Quite interesting, when one thinks of the subject matter and Canadas geographical connection to America. For larger size, click here.

宗教和伦理集群:

Composite of graphs from the Religious & Ethical cluster. Here the discussion on the Talk pages is about certain denominations of christianity — especially The Church of the Latter Day Saints. For a larger size, click here.

美国法律体系集群:

Composite of graphs from the American Legal System cluster. Once again, we see the use of Wikipedias policies to filter out views, that are controversial in the articles of the online enyclopedia. Also interesting here, is the fact that all discussion is about judicial and political topics. It is a very specific way of treating a complex subject. For larger size, click here.

对我们来说，很明显，文章和谈话页面的单独语义分析给了我们一个媒体技术效果的概述，这是 Marres 和 Moats (Marres，Nortje & David Moats 2015: 6)所讨论的。

它变成了一张地图，不仅是用户和他们的不同意见的地图，也是这些不同意见只能在维基百科的特定空间里使用的地图。对话页面是一种后端，尽管它是公开可见的——你必须寻找它才能使用它。

这种布置作为物品的一种过滤器。由于维基百科的政策而被认为有问题的内容被隔离到谈话页面的空间中，以便成为文章的一部分，或者被简单地丢弃并最终在谈话部分存档。所以我们也看到了我们在堕胎辩论类文章的语义分析图上没有看到的。原因很简单，由于维基百科的内部运作，争议已经以某种方式被过滤掉了。

这种在谈话页中的过滤在边缘、爱尔兰和美国法律体系群中非常明显。在这里，我们在所有这些地图中都有一个大型语义集群，涉及维基百科在编辑中的良好行为政策——这是维基百科上处理分歧的明显方式之一。

对边缘集群的分析也强调了对模块化工具的批判。它似乎将几个不同的文章社区结合在一起，而这一簇簇支离破碎的主题不容易连接起来。模块化工具看起来并不是一个完美的工具，但在批判性使用时仍然非常有用。

维基百科用户，以及如何映射他们:

这张二分图显示了编辑用户和维基百科文章之间的关系。通过以这种方式产生我们的数据，一些有趣的事情出现了。

A bipartite graph showing the relationships between individual users and Wikipedia articles. Users are represented by the red nodes, while the green nodes are Wikipedia articles. Size indicates the level of activity, while the thickness of the edges reflect the amount of times a users has edited one specific article. Based on user revision history data since 2001 from Wikipedia. For a larger size, click here.

例如，右下角的集群是一个主要由爱尔兰用户组成的集群，他们编辑与爱尔兰堕胎法相关的文章。这突出了某些文章编辑的地理性质。2018 年，爱尔兰堕胎法出现在媒体上，因为围绕这些法律的改变举行了全民公决。这可能产生了更多来自当地爱尔兰维基人的与这些页面的互动，他们想在这个展开的讨论中扩展文章。

然后是中间的大集群，诸如堕胎辩论、、反堕胎暴力、、美国反堕胎运动、的周围文章显示大量用户在大集群中的许多不同页面上编辑。

最有趣的是我们也开始在以前的网络上看到的——学位地图。这些页面中的许多在以前看起来并不重要，但是正如我们所看到的，人们对编辑它们有很大的兴趣。尤其是像 詹姆斯·奥基夫 和 白人种族灭绝阴谋论 这样的页面在这个地图上很有意思。这些页面有大量的维基人，他们只编辑网络中的这些特定文章。这些网页是有趣的异常现象——它们在网络中并没有突出的文章，但是它们吸引了大量的活动。这张地图上许多较大的绿色节点都可以这么说。在用户数据进入我们的地图之前，它们中的大多数并不突出。这是争议的标志吗？有些文章确实突出了有争议的话题和人物。也许这值得深入研究一下。

堕胎辩论和白人种族灭绝的阴谋论？

A look into the behaviour and activity of the Wikipedia users editing the Wikipedia article “White Genocide Conspiracy Theory”. For a larger size, click here.

当我们冒险调查编辑白人种族灭绝阴谋论文章的特定维基人时，一张争议话题的地图出现了。这些用户似乎在文章和聊天页面的海洋中航行，在那里，似乎处于永无止境的辩论状态的主题被描述并被制作成一种百科全书式的知识。

许多我们认为是过去几年互联网战场的文章。 Gamergate 争议 、 Alt-right 、 Me Too movement 的文章都是重剪辑发生的地方。

A screenshot of the mainpage of the Gamergate controversy talk pages. Here you can see the different policies being enforced. This article is labelled as controversial and therefore comes with additional scrutiny and sanctions.

这让我们看到了维基百科的温和一面。显而易见，维基百科的政策，如 中立观点 或 原创研究 正在迅速成为我们如何看待文章中争议的经典。这些政策在讨论中被用作武器——尤其是在有争议的讨论页面中。这些规定是摒弃不同意见的方式，或者是压制对文章措辞权威的质疑。

但是这当然没有向我们展示，用户是如何参与有争议的讨论的。他们是版主还是有问题的编辑？进入单个文章的讨论页面并绘制单个用户的评论会给我们一个概览，如果我们走这条路的话，这可能是一条追求的途径。

对于我们的使用来说，可以说这些用户几乎都与大量非常有争议的页面相关——在某种程度上。从这个意义上来说，这是维基百科上意见战场的地图——从文章和他们的谈话页面到管理员的公告栏。互联网上最大的百科全书关于什么是事实的元讨论是通过遵守严格的行为规则并积极执行这些规则来安排的。

一段时间以来的维基百科用户:

到目前为止，我们已经看到用户如何以不同的方式参与不同的主题。上面我们看到了用户在不同的页面上有不同的参与度。下面我们将概述他们是如何随着时间的推移做到这一点的，以及我们是如何绘制的。通过将时间变量引入等式，我们可以看到不同的页面或主题在不同的时间是如何突出的。

Timelines for 13 specific pages, picked by us. Made in Tableau. For a larger size, click here.

上面我们看到了 13 个不同的页面，考虑到随着时间的推移修改(或编辑)的数量。所有的网页都被发现是重要的，要么作为一个集群的中心，要么通过我们的其他可视化。

我们注意到的第一件事是“罗伊诉韦德案”页面的大部分内容完全盖过了其他页面，从而强调了我们之前的想法，即这是堕胎辩论中的一个核心角色。从修订量(节点大小)和独特用户参与度(线条粗细)来看都是如此。

接下来我们要强调的是，我们看到了一种模式，即页面在创建后的最初几年(标为“出生”)会有更多的活动，例外情况是“堕胎法”和“堕胎辩论”页面，它们的活动似乎会随着时间的推移而保持不变。

这可能表明，如果一个页面在第一年后出现活动上升，这要么是因为该主题突然变得有争议，要么是因为随后包含的新事件。我们看到有两页展示了这种行为，即“白人种族灭绝阴谋论”和“爱尔兰宪法第八修正案”。调查第一个提到的页面，我们看到南非事件的迹象开始了一场跨越大西洋到唐纳德·特朗普的争端，然后进一步传播到阴谋论的页面。

Does the genocide of white people originate in South Africa? According to Wikipedia, it certainly travels through the country — invoking the character of President Trump on the way.

在下一节中，我们将进一步探究爱尔兰案例中价格上涨的可能原因。

我们的爱尔兰问题:

我们想通过维基百科页面上对爱尔兰宪法第八修正案(T0)和第三十六修正案(T3)的编辑时间线可视化来说明的一点是，它们都经历了相同的编辑过程。所有四个图表在相同的月份有相似的峰值。正如我们上面的大图显示的，一个大的尖峰“在生命的后期”表明了维基百科之外的改变，但是第 36 次修正是在修订和编辑发生前几个月才创建的。

虽然第 36 修正案是 2018 年 1 月 18 日创建的新维基百科页面，但我们可以看到修订量的峰值和参与编辑的独立用户是如何按时间段连接的。在第八修正案的编辑历史的可视化上也可以看到类似的趋势。

Screenshot from the Wikipedia article page about The Thirty-sixth Amendment of the Constitution of Ireland.

虽然我们从阅读爱尔兰宪法第八修正案的内容中知道，它禁止使用堕胎，而第三十六修正案为必要时绕过第八修正案提供了可能性。

Revision history of the Wikipedia page concerning the Eighth Amendment of the Constitution of Ireland.

Revision history of the Wikipedia page concerning Thirty-sixth Amendment of the Constitution of Ireland.

这两个维基百科页面的内容解释了这两个页面之间的联系，以及同时修订这两个页面的必要性。我们在编辑社区中从独特的用户活动中看到的类似峰值显示了这些变化的相关性。我们认为两个页面上独特编辑的数量是爱尔兰宪法两个修正案政治变化的一个指标。

上面，我们看了维基百科用户随着时间的推移编辑的更一般的方式。现在，我们深入探讨爱尔兰集群的部分内容的编辑。我们想探究维基百科用户是否会在全球范围内追随爱尔兰宪法的变化。

爱尔兰的编辑们:

Data visualization of user data from the Irish cluster. Made with Tableau. For a larger size, click here.

在我们可视化的第一部分，最左边，我们看到大部分编辑是如何由识别的人完成的，几乎所有的修改都是由识别的用户完成的。这已经通过柱状图的使用得到了说明。如果我们将“高”数量的用户编辑和修改与我们可视化的第二和第三个图表进行比较，我们会看到对更新爱尔兰和爱尔兰事务，特别是堕胎的信息感兴趣的独特用户的增加。第一张图让我们相信用户主要是人类，而不是自动机器人。第二张图中的尖峰也表明了某种变化，需要整合到维基百科页面中，就像之前的时间线一样。维基百科页面描述了两部法律，这两部法律相互影响，正在讨论的变化可能是第 36 修正案的通过，这直接影响了第 8 修正案。

上面的图像显示了一个由人类组成的团体，他们在维基百科中的行为主要是爱尔兰式的。这回答了谁以及在某种程度上什么时候的问题。从数据来看，在这个集群中似乎没有关于堕胎的关注或争议，只有关于爱尔兰堕胎的争议或关注，而在集群的其他地方没有类似的关注(Munk:2014)。

正因为如此，我们想在更高的程度上理解事件的时间线。因此，我们继续绘制爱尔兰人的活动图。

Data visualization of user data from the Irish cluster. Made with Tableau. For a larger size, click here.

在第一张图中，我们看到在上述修订时间线峰值的同一时期，匿名和非匿名使用修订的情况有所增加。从这张图表中我们可以了解到的新情况是，在仅仅两个月的增加行动后，我们看到匿名用户的大幅下降。

当跟随修订和唯一编辑的时间线时，在可视化的中间，我们可以看到两条线彼此跟随，直到 2017 年 10 月左右，此时 pages 编辑的下降多于修订。这可能意味着一场“改版战争”，用户将精力用在改变现有内容上，而不是贡献新信息。它也可以指向一个专门的核心用户，他们修改和编辑新的信息。从左边的图表中，我们还可以看到修改页面上的大多数用户都是可识别的。这可能也是爱尔兰集群的普遍情况。正如我们在上面看到的，有一大群人参与了爱尔兰堕胎的话题。

当我们打开维基百科第八修正案和第三十六修正案的评论时，我们看到了民意调查的许多变化。像对第八修正案和第三十六修正案的民意调查这样的单一问题会产生大量的修改，因此会产生峰值。

将关键词映射到堕胎类别:

通过对通过 CorTexT 找到的堕胎辩论的语义关键词进行更深入的研究，并系统地回顾最常见的名词短语，我们可以确定 12 个关键词，我们可以在整个堕胎类别中找到它们。

Maps showing different keywords from the abortion debate category, mapped out on the abortion category of Wikipedia. For larger size, click here.

“反堕胎”和“反堕胎选择”主要与北美堕胎辩论有关。然而，关键词"反堕胎"，一个最常被支持堕胎群体用来称呼反对堕胎者的术语，主要出现在关于反堕胎暴力的页面上，显示当暴力被用来攻击堕胎做法时，它被命名为反堕胎而不是反堕胎。

关键词“死亡”主要出现在关于在爱尔兰和美国引发堕胎辩论的人的具体案例的页面中。萨维塔·哈拉帕纳瓦的案件对爱尔兰堕胎辩论和相关立法产生了巨大影响，克米特·戈斯内尔的案件同样是一个关于美国非法堕胎结果的有争议的案件

“权利”被视为既与胎儿的权利相关，这是一个反堕胎的焦点，也与生殖权利的概念相关，这是一个在欠发达国家主要与妇女权利相关的问题。这表明了世界各地权利问题的双重性。

Maps showing different keywords from the abortion debate category, mapped out on the abortion category of Wikipedia. For larger size, click here.

“婴儿”在流产和关于流产的哲学辩论中占主导地位。这显示了不同的观点，婴儿与胎儿依赖流产与堕胎，以及如何从哲学角度就堕胎的道德性进行辩论。

“生存能力”是美国堕胎法律纠纷中的一个核心概念，主要位于这一组中，可能是因为它与胎儿生存能力有关。

“母亲”出现在像共产主义下的堕胎这样的页面下，也许可以用现在和以前的共产主义国家法律来解释，这些法律允许堕胎来保护母亲的生命。

“健康”的分布表明，这一概念在很大程度上与发展中国家妇女的生殖权利和健康有关。

很明显，在某种程度上，描绘一场如此复杂的争议有其自身的生命力，越陷越深最终会产生更多的问题而不是答案。最终在这里，我们希望表明，没有真正的终结，我们仍然有新的机会进行调查，这个关键词分析揭示了以前没有探索的争议方面。这最后的分析标志着我们对堕胎争议和维基百科内部运作的探索的结束。这是一次旅行；一次紧张、激动人心、有时甚至令人疲惫不堪的学习经历。

那么，我们对堕胎辩论了解多少？

回到我们最初的网络，我们不再仅仅看到一只孤独的海星。

相反，我们看到了不同的反对堕胎的观点，以及由此产生的次级争议。我们看到了与主题的联系，从未想象过的联系，我们看到在我们的海星网络中严重缺乏医学专家，这是我们没有预料到的。

那么堕胎辩论是关于什么的呢？谁是持不同意见的一方，他们在哪里会面，分歧是什么，会停止吗？

在我们的映射中，参与堕胎辩论的行动者被简化为维基百科的编辑。他们可以是匿名的，也可以是固定的，甚至是机器人。他们只在维基百科见面，这里是当地的酒吧；一个人了解最新八卦、讨论生活、呐喊和闲逛的地方。尽管我们展示了辩论的主题，但我们没有可视化地展示分歧的实际内容。分歧的核心证据似乎隐藏在谈话页面中，隐藏在回复文章和在页面上添加观点的行列中。虽然我们已经谈到了这一点，但分歧的真正原因似乎从我们的手指间溜走了。

必须说几句维基百科在这场争论中扮演的角色。维基百科的结构和政策为不同意见提供了一定的舞台。我们映射的内容是通过一层层的页面构建的。大多数人从来不会点击超过这篇文章的无争议网页——但我们很少想到它是一个可能会因为用户的内部工作而不断变化的页面，在它背后的 talkpages 上进行辩论——修改和编辑。维基百科的用户一直在构建事实，利用网站的政策作为工具，将文章组织成事实的文学载体。

关于堕胎的争论还有很多方面需要探索，但是通过以上的回顾，无论是争论还是描绘争议的过程，我们希望至少已经阐明了其中的一小部分。

参考书目:

北卡罗来纳州马雷斯和北卡罗来纳州莫茨(2015 年)。用社交媒体描绘争议:对称的例子。https://doi.org/10.1177/2056305115604176

芒克，A. K. (2014 年)。在线绘制风能争议:方法和数据集介绍。

t .文图拉尼，m .雅克米和 d .佩雷拉。视觉网络分析:里约+20 在线辩论的例子。巴黎梅迪亚实验室科学。

绘制布鲁克林的房价图

原文：https://towardsdatascience.com/mapping-housing-prices-in-brooklyn-593d304c4fc?source=collection_archive---------22-----------------------

使用散景的地理测绘教程

Photo by NASA on Unsplash

在他的小说《如何毁灭一座城市》中，P.E .莫斯科维茨写了美国四个城市中产阶级化的影响:新奥尔良、底特律、旧金山和纽约。他认为地理学家尼尔·史密斯发展了自 1979 年以来关于中产阶级化最有影响力的学术理论——租金差距。中产阶级化是可以预见的。它遵循资本主义经济学的基本原则，“投资者会去潜在回报率最高的地方。”通过检查税收数据，人们可以在短时间内确定哪里的建筑可以便宜买到，哪里的建筑可以变得更贵。头奖将会是在一个中产阶级化的社区的几个街区内找到一栋破旧的建筑。关键是一处房产的可购买价格和一旦改造后的价值之间的差距。租金差距越大，建筑物成为目标的可能性就越大。寻找下一个中产阶级社区的房地产开发商依赖于这样一个事实，即卖家没有意识到潜在的价值。

Kaggle 有很多很棒的数据集，我很幸运地找到了一个很棒的数据集关于 2003 年至 2017 年的布鲁克林房屋销售。这些数据来自纽约冥王星的 shapefiles 和大量的空值。每个条目都有一个地址和 X、Y 坐标，这些坐标将这些点标绘成布鲁克林的形状。

我真的很想在布鲁克林的地图上绘制所有的点，并制作一些交互式的可视化，所以我决定与 Bokeh 合作这个项目。

我的第一步是把我所有的 X 和 Y 坐标转换成纬度和经度，这样我就可以把它们转换成正确的墨卡托坐标。因为你的电脑屏幕是平的，而地球不是平的，所以在绘制地图时，散景只接受墨卡托坐标。

It’s a banana.

由于我无法找到一个免费和快速的地理编码资源，我用我所拥有的。我取了 20 个数据点，一次查找一个数据点的经纬度坐标。利用这些坐标，我创建了一个训练数据集，以便通过简单的线性回归来预测其他 25，000 个点的纬度和经度。

自然地，我也对纵坐标重复了这个操作，并将这些值放入它们自己的列中。结果相当准确。当我比较一个随机数据点的估计坐标和实际坐标时，差异只有几个街区。此外，当我标绘最后一组坐标时，水里和公园里都没有房子。

这是一个将你的经纬度坐标转换成墨卡托坐标的函数。

散景图在交互和用户操作方面有很大潜力。你需要用 conda 命令安装 bokeh。要阅读文档和更详细的说明，请点击这里。以下是开始绘图时需要导入的重要包。

Bokeh 有自己的贴图图块集，允许在没有 shapefiles 或 API 的情况下进行贴图。这对我是一个巨大的加分。他们的牌组在这里列出。请注意，这里的文档中有一些令人困惑的方向。导入图块集的正确方法是直接导入。在上面的代码中，您调用包 bokeh.tile_providers 并导入您想要使用的任何样式的地图。使用 get_provider 或 Vendors 会返回一个错误。有些调色板是列表，有些是字典。确保像这样检查你选择的调色板的数据类型。

如果类型是一个列表，那么你只需要定义你的调色板就可以了。如果类型是字典，您必须在下面的第二行代码中指出要使用多少种颜色。

我会把这一大块的所有东西一行一行的分解。我定义了我的调色板，并指出我想要 10 种不同的颜色，这将对应于所售房屋的 10 个不同的价格范围。点击此处查看所有调色板散景报价。源被定义为我的数据帧，称为 TwoThree。这是 2003 年以来所有相关的住房数据。

我不仅想在地图上绘制数据来显示位置，还想用颜色来区分更贵的房子和不太贵的房子。映射器是为我的颜色条属性定义的。它需要一个字段名，以及一系列低值和高值。散景有一个伟大的可定制的悬停功能。当鼠标悬停在可视化中的任何一点上时，您可以决定在相应的窗口中会弹出什么信息。我使用变量工具提示来定义我想要显示的内容。每个属性都是标签和数据来源的元组。在这里看文档。如果数据来自您的数据集，第二个值必须以“@”开头，如果该值来自可视化本身，如索引或图表中的 X 和 Y 坐标，您将在该值前面加上“$”。我添加了一个小部件滑块，以便可视化能够根据所选年份改变和呈现新数据。我将在另一篇教程中更详细地介绍这一点。滑块现在将纯粹是装饰性的。

Pretty!

我将图形的 X 轴和 Y 轴定义为墨卡托。这将把墨卡托坐标转换成经纬度坐标，所以它将像一个真正的地图！我称之为工具提示，它是当你在每个点上悬停时出现的值，我给我的图形一个标题。因为这是一张地图，所以我也必须添加我的地图框。

我正在创建一个散点图，所以我只需引用引号中相应的列名，就可以在图中添加圆。颜色将由我的 mapper 变量和我的数据源中的值决定。我创建了一个颜色条作为我的点的键，在它下面我表示我想把我的颜色条放在图表的右边。

我可以将我的布局定义为一行或一列。列会将所有内容上下叠放(从上到下)，而行会将所有内容并排放置(从左到右)。我现在把我的形象放在我的滑块上面。

2003 年，布鲁克林似乎有很多售价低于 200 万美元的房子。事实上，我的很多数据表明，很多房屋售价低于 1000 美元，很可能是因为止赎。

通过缩放功能，我在公园坡找到了一些更贵的房子。2003 年，我敢肯定一些房地产投资者希望在公园坡北部的 Prospect Heights 附近买房。

是的，就在离这个 300 万美元的家几个街区远的地方，有一栋售价 16.5 万美元的房子。

我计划在这个项目上做更多的工作，并将创建至少一个与散景视觉交互的教程。让我知道你喜欢使用哪些绘图可视化工具，为什么。我一定会检查他们！

使用 Python 分析 Lending Club 贷款-教程

原文：https://towardsdatascience.com/mapping-inequality-in-peer-2-peer-lending-using-geopandas-part-1-b8c7f883d1ba?source=collection_archive---------18-----------------------

如何使用 pandas，geopandas，matplotlib 处理来自最大的在线 P2P 贷款平台的信贷。

市场借贷是可能存在歧视或不公平借贷行为的场所。在这个帖子系列中，我们研究了 1935-40 年间的红线和今天的 P2P 贷款格局之间的空间相关性。

red —main Redlining cities in the 1930s | green — Lending Club’s highest loan application rejects in 2012 | magenta — Lending Club’s highest interest rates in 2012

问题定式化

作为一家的平等住房贷款机构，一个 P2P 贷款市场应该“不分种族、肤色、宗教、国籍、性别、残疾或家庭状况”地筛选贷款申请系统性地拒绝来自特定邮政编码的贷款可能会伤害少数族裔申请人。这是一种在 1935 年至 1940 年间被称为划红线的做法，当时房主贷款公司或“HOLC”在近 250 个美国城市创建了用颜色标记社区信用价值和风险的地图。这些地图最近被数字化，可以在映射不等式上查看。尽管有联邦公平住房法案，现代的红线最近在美国 61 个城市被曝光。另一项调查发现有几家银行显然将一些少数民族排除在他们客户的投资组合之外。

我们使用 Python、Pandas、Jupyter Notebook 和 Geopandas 库来可视化来自 Lending Club 的 2400 万份贷款申请，Lending Club【】是世界上最大的 P2P 贷款平台。目的是调查来自 20 世纪 30 年代被划红线的邮政编码的申请者是否更有可能被今天的市场拒绝。如果没有，我们将核实此类贷款申请人是否获得更高的违约利率。我们也想探究这些关系如何在 Lending Club 的整个生命周期中演变，从 2006-2007 年到现在。

标记数据收集

绘制不平等网站提供了一个选项，可以下载上世纪 30 年代被划上红线的所有美国城市的形状文件。shapefiles 包含描述每个城市中的街区(区域)的多边形的地理纬度和经度坐标，因为它们是由 HOLC 划定的。

*import geopandas as gpd
df_redlines_map = gpd.read_file('data/HOLC_ALL.shp')
df_redlines_map.head()*

Figure 1

每行代表一个具有以下特征的多边形(区域):

**状态:美国状态，
**城市:美国城市，
looplat，looplng :多边形起始坐标，
**名称:区域名称，
holc_id :区域编号，
holc_grade : HOLC(安全)等级，
area_descr :区域描述，
**几何:构建多边形的所有坐标的集合。

HOLC 等级描述了 20 世纪 30 年代分配给该区域的信用价值，如下所示:

最好的
b——仍然可取
c——肯定下降
D —危险

我们清除那些 HOLC 等级无效的多边形。

*df_redlines_map = df_redlines_map[df_redlines_map.holc_grade!='E']*

红线功能工程

在开始我们的分析之前，我们先来看看 HOLC 分配的等级分布，不仅是在每个邮政编码内，而且是在州一级。这需要追溯到 20 世纪 30 年代，对每个地区的人口进行估计。一种简单的方法是使用每个 HOLC 等级的分区数。因为相应多边形的大小变化很大，我们可能无法直观地了解人口数量。因此，我们选择使用区域面积(以平方公里为单位)作为基准单位。

我们从开始计算每个区域的平方公里面积，以及它的地理中心(“质心”)。

*proj = partial(pyproj.transform, pyproj.Proj(init='epsg:4326'),
               pyproj.Proj(init='epsg:3857'))
df_redlines_map['area'] = [transform(proj, g).area/1e+6 for g in df_redlines_map['geometry'].values]
df_redlines_map['centroid_lat'] = df_redlines_map.geometry.centroid.y
df_redlines_map['centroid_long'] = df_redlines_map.geometry.centroid.x
df_redlines_map.head()*

Figure 2

我们现在将使用每个区域的质心的坐标来添加每个区域的邮政编码。为此，我们依赖免费的 Python 库 uszipcode，，它使用自己最新的地理编码数据数据库对每批 100 个区域进行地理编码。

*from uszipcode import SearchEngine
i = 0
while i < df_redlines_map.shape[0]:
    df_redlines_map.loc[i:i+100,'zipcode'] = df_redlines_map[i:i+100].apply(lambda row: search.by_coordinates(row.centroid_lat,row.centroid_long, radius=30, returns=1)[0].zipcode, axis=1)    
    i = i + 100
df_redlines_map.head()*

Figure 3

计算每个邮政编码的**总红线区域现在很简单。**

*df_redlines = df_redlines_map.groupby(['zipcode']).agg({'area': np.sum}).reset_index().rename(columns={'area': 'zip_area'})
df_redlines.head()*

Figure 4

我们现在可以计算每个州的**总红线区域。**

*df_redlines_state = df_redlines_map.groupby(['state']).agg({'area': np.sum}).reset_index().rename(columns={'area': 'state_area'})
df_redlines_state.head()*

Figure 5

使用前面的计算，我们可以获得每个州内 HOLC 等级的百分比分布。

*df_redlines_state_details = df_redlines_map.groupby(['state','holc_grade']).agg({'area': np.sum}).reset_index().rename(columns={'area': 'holc_area'})
df_redlines_state_details = df_redlines_state_details.merge(df_redlines_state, on='state', how='left')
df_redlines_state_details['holc_ratio'] = df_redlines_state_details.holc_area/df_redlines_state_details.state_area
df_redlines_state_details.head()*

Figure 6

我们还可以计算每个邮政编码的相似值。

*df_redlines_details = df_redlines_map.groupby(['zipcode','holc_grade']).agg({'area': np.sum}).reset_index().rename(columns={'area': 'holc_area'})
df_redlines_details = df_redlines_details.merge(df_redlines[['zipcode','zip_area']], on='zipcode', how='left')
df_redlines_details['holc_ratio'] = df_redlines_details.holc_area/df_redlines_details.zip_area
df_redlines_details.head()*

Figure 7

正如我们将在后面看到的，一些有趣的可视化需要我们将等级值转换成特征。这允许我们计算每个区域内 A、B、C 和 D 分区的面积比，如下所示。我们用零填充缺失的比率值，以考虑没有 HOLC 区的邮政编码。

*for grade in ['A', 'B', 'C', 'D']:
    df1 = df_redlines_map[df_redlines_map.holc_grade==grade].groupby(['zipcode']).agg({'area': np.sum}).reset_index().rename(columns={'area': grade + '_area'})
    df_redlines = df_redlines.merge(df1, on='zipcode', how='left')
    df_redlines[grade + '_ratio'] = df_redlines[grade + '_area'] / df_redlines.zip_areadf_redlines.fillna(0, inplace=True)*

这些比率帮助我们估计所谓的 HOLC 拒绝比率，定义为在 20 世纪 30 年代由于的红线而在一个邮政编码内被拒绝的贷款申请的百分比。假设 A 分区申请人的比率为 0%，C 和 D 分区为 100%，B 分区为 90%。我们选择 B 为 90%，因为它接近文献[ ][ ]中的平均拒绝比率。

*df_redlines['holc_reject_ratio'] = (.9*df_redlines.B_ratio + df_redlines.C_ratio + df_redlines.D_ratio)
df_redlines.head()*

Figure 8

红线勘探

下面的条形图显示，在 20 世纪 30 年代，HOLC 考虑的大多数地区被列为危险区或衰落区。

*redlines_labels = {'grade': ['A', 'B', 'C', 'D'],
                   'desc':['A - Best', 'B - Still Desirable', 'C - Definitely Declining', 'D - Hazardous'],
                   'color': ['g', 'b', 'y', 'r']
         }
fig, ax  = plt.subplots(1,1,figsize=(15,5))
sns.countplot(y='holc_grade',data=df_redlines_map, palette=redlines_labels['color'], ax=ax)
ax.set_title('Count of zones per grade');*

Figure 9

HOLC 划定的区域通常不太大，不到 5 平方公里。我们注意到很少有表面达到 180 平方公里以下的异常值。

*fig, ax  = plt.subplots(1,1,figsize=(15,5))
sns.boxplot(y="holc_grade", x="area", palette=redlines_labels['color'],data=df_redlines_map, ax=ax)
sns.despine(offset=10, trim=True)
ax.set_title('Distribution of zone areas (km^2) per HOLC grade');*

Figure 10

根据 HOLC 在 20 世纪 30 年代的分类，阿拉巴马州和堪萨斯州的危险总面积最大。新罕布什尔州和印第安纳州的选区大部分被归类为绝对衰落。

*fig, ax  = plt.subplots(1,1,figsize=(20,5))
sns.barplot(x="state", y="holc_ratio", hue='holc_grade', data=df_redlines_state_details, ax=ax)
ax.set_title('Holc Grade Ratio per state');*

Figure 11

贷款特征工程

在探索了红线数据之后，现在让我们来看看今天的贷款情况。在 2007 年第一季度和 2018 年第二季度之间收到的所有贷款申请都是从 Lending Club 网站下载的。这里引用的项目的作者向我们提供了合并和清理后的数据。

*df_loan = pd.read_csv('data/df_reject_ratio_2007-2018.csv')
df_loan.head()*

Figure 12

每个贷款申请由以下特征描述:

issue_d :收到申请的日期。
**邮政编码:申请人(借款人)邮政编码的 3 位数字。出于隐私考虑，Lending Club 不公布完整的邮政编码。
**拒绝:如果申请被 Lending Club 拒绝，则标志值为 1，否则为 0。
**等级:表示利率的类别(仅适用于未被拒绝的申请)。

根据每一份贷款申请和信用报告，每一笔贷款都被分配一个从 A 到 G 的等级和相应的利率每个贷款等级及其对应的当前利率显示在 Lending Club 网站上。

*print('There have been {} loans requests received at Lending Club since 2007, of which {} have been rejected'.format(df_loan.shape[0], df_loan[df_loan.rejected==1].shape[0]))
There have been 24473165 loans requests received at Lending Club since 2007, of which 22469074 have been rejected*

探索大型时间序列的一种常用方法是根据更大的时间单位(如季度)聚合感兴趣的特征。Lending Club 数据的一个问题是 issue_d 的格式，对于许多行来说是 YYYY-MM-DD，但是我们也可以找到格式为 b-YYYY 的日期。例如，我们看到 2007 年 5 月 26 日和 2011 年 12 月的行。将日期转换为季度时，最好对每种格式进行不同的处理。

具体来说，我们将数据分成两组，每种日期格式一组。

*df1 = df_loan[(df_loan.issue_d.str.len()==10)]
df1['issue_q'] = pd.to_datetime(df1.issue_d, format='%Y-%m-%d').dt.to_period('Q')
df1.head()*

Figure 13

*df2 = df_loan[(df_loan.issue_d.str.len()!=10)]
df2['issue_q'] = pd.to_datetime(df2.issue_d, format='%b-%Y').dt.to_period('q')
df2.head()*

Figure 14

现在，我们可以合并两个数据集。

*df_loan = df1.append(df2)*

我们进一步使用这些数据来计算 Lending Club 贷款拒绝率，定义为每个季度每个邮政编码被拒绝的贷款申请的百分比。

*df_loan_reject_ratio = df_loan[['issue_q','zip_code','rejected']].groupby(['issue_q','zip_code']).agg(['count', 'sum'])
df_loan_reject_ratio.columns = df_loan_reject_ratio.columns.droplevel(level=0)
df_loan_reject_ratio = df_loan_reject_ratio.rename(columns={'count':'lc_total_requested', 'sum':'lc_total_rejected'})
df_loan_reject_ratio['lc_total_accepted'] = df_loan_reject_ratio.lc_total_requested - df_loan_reject_ratio.lc_total_rejected
df_loan_reject_ratio['lc_reject_ratio'] = df_loan_reject_ratio.lc_total_rejected/df_loan_reject_ratio.lc_total_requested
df_loan_reject_ratio = df_loan_reject_ratio.reset_index()
df_loan_reject_ratio.head()*

Figure 15

上面的汇总表给出了每个季度和邮政编码的以下数量:

lc_total_requested: 收到的贷款申请数量，
lc_total_rejected: 拒绝的贷款申请数，
lc_total_accepted: 接受的贷款申请数，
LC _ reject _ ratio:LC _ total _ rejected*与 lc_total_requested 的比率。*

类似地，我们计算 Lending Club 贷款等级比率(每个邮政编码和季度特定利率的贷款百分比)。

*df_loan_grades = df_loan[df_loan.rejected==0][['issue_q','zip_code','issue_d']].groupby(['issue_q','zip_code']).count().reset_index().rename(columns={'issue_d':'total_accepted'})for grade in ['A', 'B', 'C', 'D', 'E', 'F', 'G']:
    df1 = df_loan[(df_loan.rejected==0)&(df_loan.grade==grade)][['issue_q','zip_code','issue_d']].groupby(['issue_q','zip_code']).count().reset_index().rename(columns={'issue_d': 'LC_' + grade + '_accepted'})
    df_loan_grades = df_loan_grades.merge(df1, on=['issue_q','zip_code'], how='left')
    df_loan_grades['LC_' + grade + '_ratio'] = df_loan_grades['LC_' + grade + '_accepted'] / df_loan_grades.total_accepted*

Figure 16

例如， LC_A_accepted 是被接受并被分配利率 A 的申请数量。 LC_A_ratio 是相应的百分比。

贷款和标记数据合并

我们现在准备合并贷款和红线数据，允许我们尝试不同的可视化，并在查看 2007-2018 年的“贷款与红线”时提出有趣的问题。

因为 Lending Club 只披露了申请人邮政编码的 5 位数中的 3 位数，所以我们必须根据 123xx 邮政编码模式对数据进行汇总和合并。

*df_redlines[‘zip_code’] = df_redlines[‘zipcode’].astype(‘str’)
df_redlines[‘zip_code’] = df_redlines[‘zip_code’].str.pad(5, ‘left’, ‘0’)
df_redlines[‘zip_code’] = df_redlines[‘zip_code’].str.slice(0,3)
df_redlines[‘zip_code’] = df_redlines[‘zip_code’].str.pad(5, ‘right’, ‘x’)
df_redlines_aggr = df_redlines.fillna(0).groupby('zip_code').agg({'zip_area': np.sum, 
'A_area': np.sum, 'B_area': np.sum, 'C_area': np.sum, 'D_area': np.sum, 'A_ratio': np.mean,'B_ratio': np.mean,'C_ratio': np.mean,'D_ratio': np.mean,'holc_reject_ratio': np.mean}).reset_index()df_redlines_aggr.head()*

Figure 17

上表显示了 HOLC 在 20 世纪 30 年代对 A、B、C 或 D 区域的总面积(km2 ),这些区域由一个 123xx 邮政编码模式表示，其中 123 是 Lending Club 公布的邮政编码数字的代表数字。还提供了每个 HOLC 等级的总面积比以及总 HOLC 剔除率。

继续这个聚合的红线数据集，我们现在将添加贷款数据。对于缺少贷款数据或标记数据的 123xx 地区，空比率替换为 0。

*df_redlines_loan = df_loan_reject_ratio.merge(df_loan_grades, on=['zip_code','issue_q'], how='left').merge(df_redlines_aggr, on='zip_code', how='left')
df_redlines_loan.issue_q = df_redlines_loan.issue_q.astype('str')
df_redlines_loan.fillna(0, inplace=True)
df_redlines_loan.head()*

Figure 18

结果

看下面的线图，我们可以看到 Lending Club 平均拒绝的贷款比 HOLC 在 20 世纪 30 年代拒绝的要多。我们可以预料，将来拒收的数量会进一步增加。

*fig, ax = plt.subplots(1,1,figsize=(15,5))
sns.lineplot(x="issue_q", y="lc_reject_ratio",data=df_redlines_loan, ax=ax, label='LendingClub reject ratio')
plt.axhline(df_redlines_loan[df_redlines_loan.holc_reject_ratio>0].holc_reject_ratio.mean(), color='r', label='HOLC reject ratio')
plt.axhline(df_redlines_loan.lc_reject_ratio.mean(), color='black', label='LendingClub reject ratio Average')
plt.xlabel('quater')
plt.ylabel('ratio')
plt.title('Average Loan Reject Ratio over time')
plt.legend()
plt.xticks(rotation=45);*

Figure 19

下面的散点图显示了 Lending Club 和 HOLC 的贷款拒绝率之间的正相关关系。这表明了以下假设:在 20 世纪 30 年代，HOLC 拒绝大部分或几乎所有贷款的地区，也是 Lending Club 今天可能拒绝大量贷款的地区。

*fig, ax = plt.subplots(1,1,figsize=(15,5))
sns.scatterplot(x=’lc_reject_ratio’, y=’holc_reject_ratio’, data=df_redlines_loan[df_redlines_loan.holc_reject_ratio>0], ax=ax)
plt.title(‘Loan Reject Ratio per zipcode — LendingClub versus HOLC’);*

Figure 20

如下面的 distplot 所示，Lending Club 拒绝率分布似乎复制了 HOLC 在大面积地区的拒绝率分布，这些地区在 20 世纪 30 年代被划分为危险或明确拒绝贷款。

*fig, ax = plt.subplots(1,1,figsize=(15,5))
sns.distplot(df_redlines_loan[df_redlines_loan.holc_reject_ratio>0].holc_reject_ratio, color='r', hist = False, kde = True, kde_kws = {'shade': True, 'linewidth': 3}, label='HOLC', ax=ax)
sns.distplot(df_redlines_loan[df_redlines_loan.holc_reject_ratio>0].lc_reject_ratio, color='g', hist = False, kde = True, kde_kws = {'shade': True, 'linewidth': 3}, label='LendingClub', ax=ax)
plt.xlabel('ratio')
plt.title('Loan Reject Ratio Distribution over zipcodes');*

Figure 21

从下面的热图来看，HOLC 和 Lending Club 特征之间的相关性非常弱。这可能意味着，一般来说，知道一个地区的 HOLC 等级并不能帮助我们自信地预测 Lending Club 的贷款拒绝或贷款利率。

*corr = df_redlines_loan.corr()
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
f, ax = plt.subplots(figsize=(11, 9))
cmap = sns.diverging_palette(220, 10, as_cmap=True)
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})
ax.set_title('Correlation between HOLC and LendingClub');*

Figure 22

下面的分布图表明，几乎没有贷款俱乐部申请人在红线区获得最低利率(A)。大多数申请人获得中等利率(B、C 或 D)。只有少数申请人不得不面对非常高的利率(E、F 或 G)。这种分布表明，Lending Club 在评估信贷冲销风险时可能不会考虑红线。

*f = df_redlines_loan[(df_redlines_loan.holc_reject_ratio==1)&(df_redlines_loan.lc_reject_ratio!=1)].sort_values(by='lc_reject_ratio', ascending=False).reset_index()[['zip_code', 'holc_reject_ratio', 'lc_reject_ratio', 'LC_A_ratio', 'LC_A_ratio', 'LC_B_ratio', 'LC_C_ratio', 'LC_D_ratio', 'LC_E_ratio', 'LC_F_ratio', 'LC_G_ratio']]*

Figure 23

结论

我们的研究为借贷俱乐部的现代划红线提供了一些证据。1930 年代的红线图和今天的贷款俱乐部接受贷款请求和评估违约风险的政策之间存在内在联系的假设仍然有效。

Lending Club 使用的数据中有一些不公平算法或历史偏见的迹象。从我们的探索性数据分析中可以清楚地看到这一点，尤其是 HOLC 拒绝率和 Lending Club 拒绝率之间的正线性趋势。

感谢您阅读至此。

在本系列文章的第二部分中，我们将使用 Geopandas 在美国的地理地图上显示红线区域、贷款拒绝率和贷款利率分布。这将包括一个用于空间时间序列可视化的 choropleth 地图动画，显示 2007 年至 2018 年间 peer-2-peer lending 的地理景观在红线方面如何演变。

文献学

库特曼切，c .，斯诺登，K. (2011 年)。修复抵押贷款危机:HOLC 贷款及其对当地住房市场的影响。《经济史杂志》,第 71 卷第 2 期，第 307-337 页。

[ ]菲什巴克，p .，弗洛雷斯-拉古内斯，a .，霍拉斯，w .，坎特，s .，特雷伯。J. (2010)。20 世纪 30 年代房主贷款公司对住房市场的影响。金融研究评论，24(6)，1782 年至 1813 年。

用数字工具绘制知识图谱，解决 21 世纪的医疗保健问题

原文：https://towardsdatascience.com/mapping-knowledge-with-digital-tools-to-solve-healthcare-problems-in-the-21st-century-21a19a51c81d?source=collection_archive---------13-----------------------

托普塔尔奖学金赋能未来女性领导者的论文

介绍

当我在医学、学术研究和生物技术领域旅行时，我清楚地认识到，从业者和研究人员正在努力应对我们今天面临的复杂的健康挑战。这些健康问题需要超越生理学和生物化学的理解，因为疾病还受到社会和文化的影响。此外，我们还生活在一个以不断变化的气候和生物多样性丧失所加剧的新情况为特征的时代，当涉及到对人类健康的影响时，我们仍然难以完全理解这些因素。

The effects of climate change and loss of biodiversity on human health cannot be understood by reductionist scientific enquiry alone.

在理想的世界中，我们创造的知识和解决方案应该足以解决这些复杂的问题。不幸的是，纯粹的信息过载使获得一个概览成为一项艰巨的任务，导致大多数研究人员退缩到专业的筒仓中，从职业的角度来看，这些筒仓更容易管理，也更安全。

所有这一切让我意识到，我们今天面临的复杂的健康挑战无法通过当前推动医疗保健研究和知识创造的过程来解决。如果我们要创造持久的解决方案，作为研究人员，我们必须理解更大的图景，获得当今时代导致疾病的许多观点的概述，并将这些观点纳入我们的研究。

在寻找工具和方法来整合健康问题固有的不同观点的过程中，我继续探索远离科学和医学舒适区的领域。第一个是设计思维，或以人为中心的设计。作为斯坦福大学设计研究中心的访问学者，我每天都在学习设计师如何解决问题，并参与了许多设计项目。这一经历让我意识到使用设计方法探索复杂问题空间和以不同方式构建问题的可能性。

虽然设计方法对于创建医疗保健实际挑战的解决方案，甚至帮助组织转型非常有用，但我仍然缺乏获得研究信息概览的方法，而这对于开始更下游的设计过程是必要的。在这种需求的驱动下，我开始冒险进入另一个远远超出我最初专业知识的领域，一个将我带入算法和网络世界的领域。

测绘知识

众所周知，人类大脑处理视觉信息的效率远远高于书面信息，这种现象与大脑同时处理多个视觉信息的能力有关，而不是一次处理一个单词。尽管如此，大多数科学出版物和数据库都严重依赖书面信息。由于无法可视化，研究人员只能在长长的出版物列表中滚动，无法立即获得某个领域的概况。事实上，我遇到的大多数研究人员除了偶尔在一篇研究文章上乱涂乱画，然后存档，再也不会被看一眼之外，没有任何可视化的方法来跟踪他们领域的研究。一些新的 web 应用程序(如 Dimensions 和 Meta)稍微改进了这一过程，尽管数据仍然以长列表的形式呈现，而不是可视化。

在与一位从事图形数据库和网络工作的数据科学家讨论后，我偶然发现了映射的概念。从那里，我发现从事分析科学本身的个人，如科学计量学和科学知识社会学的人，一直在使用机器学习和数据提取技术的工具来绘制知识的演变。尽管如此，在这些专门的亚群体之外，很少有人敢于超越理论领域，将他们的发现付诸实际应用，这使得大多数研究人员、从业人员和政策制定者不太重视这些发现。这可能是解释为什么那些研究科学的人和那些实际实践科学的人之间很少交谈的一个原因。

与数据科学家一起，我们开始探索绘制结核病领域的地图，以找出这种方法可以带来什么。在这个过程中，我们发现许多免费工具要么太复杂，非数据科学家无法使用，要么缺乏复杂性，无法回答我们感兴趣的问题。通过我们的探索，我们开始开发自己的工具，使我们能够直观地浏览网络，并以有趣和创造性的方式处理数据。

将知识网络可视化使我能够从数据中获得洞察力，这在以前是不可能的。例如，使用我们新创建的工具来探索结核病领域的引用网络，很明显该领域正在朝着一个非常独特的方向发展，随着时间的推移，明确的研究领域被放弃。随着调查的深入，废弃区域被发现为结核病诊断区，由于该领域资金缺口巨大，世卫组织最近将该领域确定为优先领域。我们创建的可视化使我们能够在概览中看到这一差距，而无需手动梳理大量文献，我们相信这可以以更有效的方式促进决策者的战略进程。这种类型的分析也与研究人员相关，他们可能能够在更大的领域背景下可视化他们的研究，甚至识别最近被遗忘的潜在有趣的研究，如在中看到的这个例子。

A static screenshot of the interactive citation network using the tool we developed. The program allows users to scroll over each node (research article) and obtain details as well as visualize its direct connections within the network. The network can be seen to have a shape, which tells us that as new articles are published, older ones are no longer being cited. We can observe a clear area that had been thinning out over time, which in this case, corresponded to articles discussing TB diagnostics.

从那时起，通过使用我们的工具，我分析了合作网络中的模式，揭示了学术界和工业界之间的不同合作动态，以及目前处于边缘地位但代表未开发潜力的新兴研究领域。

Analyzing collaboration networks revealed clearly the disconnect between industry and academia in the field of multi-drug resistant tuberculosis. Here, a small cluster involving Johnson and Johnson’s pharmaceutical arm, Janssen Pharmaceuticals can be seen to be disconnected from the main research network.

为了理解围绕健康话题的更广泛的背景，我还分析了围绕结核病和全球健康话题的 twitter 网络，它提供了围绕这些主题的生态系统和观点的广泛概述。

Examining a twitter network reveals the ideas that are spreading and how they are inter-connected within a health topic, in this case, global health. It gives us an idea about the discourse, or the issues that are important in the community; knowledge that cannot be gathered from official research articles.

随着时间的推移，通过这项工作，一个愿景开始出现，一个我觉得令人兴奋且深具意义的愿景。重要的是，我认为这是一个愿景，它解决了知识创造和利用方式中的一个主要差距，因此可能具有深远的潜力，以我们尚未完全预见的方式转变科学进步并造福社会。

视力

你是一名研究人员，需要决定你的下一个调查，以便写下你将要申请的资助。或者，你可能是一个政策制定者，他需要决定是否有更多的钱需要分配给某个特定的领域。你也可以是一名设计师，与当地的流行病学家一起工作，寻求建立一个更好的系统来识别传染病爆发的源头。

在每一种情况下，你的下一步将取决于你对你将要从事的领域的理解和综合能力。这一过程通常需要几个小时、几周甚至几个月的时间来研究这个主题，以便对这个主题的所有可能的角度有一个全面的了解。

Fancy reading through these articles anyone?

现在想象一下另一个现实，点击几下鼠标，你会发现自己在浏览你感兴趣的主题的交互式视觉概览。然后，你迅速确定差距和追求的机会，引导你创建一个合理的和原创的战略或研究方向。当需要时，你现在可以将你更深入的研究锁定在一个非常具体的领域，而不必浪费无数的时间去挖掘不相关的信息。最重要的是，你意识到这是如此有趣，以至于你不断探索，直到你偶然发现一个有趣的见解，让你问了一个你以前从未想过的问题。顺便说一句，这个问题导致了改变生活的疗法或神奇产品的发展，它改变了整个社会人们的健康状况。

如果这个愿景让你兴奋，那么我会说这不是一个遥远未来的愿景。使这成为现实的工具和技术已经存在，而我今天的任务，就是把它引入你们的世界，并为了更大的利益改变我们利用知识的方式。

Data sources that can be used will originate from diverse sources and will be subjected to the same processing to create infoscapes that allow the investigator to play with the visualizations and extract insights.

履行

我们的工具目前处于开发的最后阶段，我们预计我们将能够在年内公开这一点。作为一名非技术(数据科学家)联合创始人，我的职责是在数据科学和医疗保健研究之间架起一座桥梁。为了做到这一点，我打算与该领域的专家建立合作关系，并用现实世界的问题创建用户研究。潜在的合作者已经确定，项目将在未来几个月启动。用户研究对于获得重要反馈至关重要，它将使我们能够进一步改进产品。

仅仅开发一个数字工具是不够的，而不开发使用它的技术。因此，我致力于开发一种方法，允许对数据进行更系统的调查。从这项工作中获得的一些见解可以在这里看到。在接下来的几个月里，我将继续研究这种方法，并对其进行微调，以创建一个完整的框架，供用户在探索数据时参考。

由于我们目前自筹资金，没有外部资金来源，下一步将是积极寻求和确保进一步开发该工具的资金。用户研究将是我们吸引合作伙伴或投资者能力的重要组成部分。尽管我们已经制定了业务计划，确定了增长潜力，并将我们的工具与潜在的竞争对手区分开来，但该计划需要进一步完善，才能更有影响力。

需要明确的是，这个项目的目标不是简单地启动一个创业公司来推广一个产品。该项目旨在通过确保有价值的知识不会迷失在信息的海洋中，确保社会从多年的科学研究中获得最大收益。因此，可能还有其他途径有待探索，以使这一愿景成为现实。

例如，这可能是一个咨询服务的路线，该服务将与产品一起提供，由我领导，以确保用户从使用该工具中获得最大利益。

成为女性领导者

2018 年，我参加了在巴塞罗那举行的 EIT Health 增强女性在健康创新方面的领导力研讨会。在这次研讨会期间，我意识到女企业家在企业家世界中的代表性不足的程度。我还了解到，有抱负的女性企业家应该寻求的最重要的东西之一是导师，而这正是我目前努力的方向。

使 Toptal 的提议特别相关的是它提供的指导支持。我认为，导师不仅仅是传授技术建议，对我来说更重要的是，它是从以前走过这条路的其他人的经验中学习。我理想的导师是一位探索过不同职业道路的女性领导者，从与企业合作到创办自己的企业或咨询公司。独立工作意味着大部分时间要么花在自己身上，要么花在与其他团队成员讨论上，这导致获得外部意见的机会很少。在我职业生涯的这一关键时刻，与导师进行定期讨论不仅能鼓舞士气，还能极大地增强我的观点和视野，并拓宽我的视野，让我能通过其他途径将这一愿景变为现实。

改变世界是一项艰巨的任务，单靠自己是无法完成的。只要有一点帮助，这个想法的种子就可以发芽，形成一个复杂的连接网络来维持它，并开花成为一棵宏伟的树。

The tree of knowledge 😃

使用 Python 绘制多伦多已报告坑洞的位置图

原文：https://towardsdatascience.com/mapping-locations-of-reported-pot-holes-in-toronto-using-python-376402d8da53?source=collection_archive---------19-----------------------

通过开放数据从 311 多伦多收集数据，用于可视化报告的坑洞。

欢迎来到我的第一个教程，可视化多伦多周围的坑洞的位置。我叫 Mumtahin，是一名数据科学专家，目前在加拿大支付行业工作。数据分析和数据科学项目的最大技能包括理解数据准备。为分析/研究收集数据所需的工作量因手头的任务而异。本教程的目的是提供清理数据和图形化表示数据的基本介绍，因为这是我日常工作的一个重要方面。

对于本教程，我们将从由 open data (由多伦多市维护)提供的可公开访问的 API 端点获取 JSON 格式的结构化数据。你可以通读这篇文章，并了解一步一步的过程，或者如果你熟悉下面的概念，请随意使用我的 Github 资源库中的 Jupyter 笔记本进行自己的探索！

入门指南

对于本教程，请确保您安装了 Python 3 版本。我用的是 Python 3.6.6。

如果您想安装并运行我的 Jupyter 笔记本，请确保您已经安装了 Jupyter 笔记本。关于设置 Jupyter 笔记本的简短的初学者友好教程，请点击这里。

安装所需模块

熊猫(我用的是 0.24.1 版本)
matplotlib(我使用的是 3.0.2 版本)
mpl 传单

导入模块

构建我们的查询

我们有一个由 311 多伦多提供的 API 端点命中。首先，我们需要构造一个查询，其参数反映了我们实际需要的信息。我们将要连接的 API 包含了各种主题的数据，例如垃圾收集、涂鸦清除和其他城市服务的报告数据，以及我们想要的实际坑洞数据。对我们来说，查询是没有意义的，而且可能会使服务器陷入困境，去获取我们一开始就不想要的信息。

到目前为止，我们知道些什么？我们知道我们只需要与报告的坑洞相关的数据。根据 311 发布的 README 文档并查看开放数据目录，我们还了解到以下信息:

API 记录限制:一次 1000 条记录
坑洞修复请求有一个服务代码:c rowr-12
jurisdiction_id 将始终为“toronto.ca”
agency_responsible:始终设置为 311 Toronto
service_notice:未退回
邮政编码:未返回

我们需要什么？

我们需要决定开始和结束日期范围来构造我们的查询。

选择日期范围并使用 API 限制

当决定一个日期范围时，很难选择一个有意义的时间向我们展示有价值的结果。因为我们的分析是关于坑洞的，一些关于坑洞成因的先验知识会有所帮助。在深度冻结和解冻期间，会导致路面出现裂缝，这是造成坑洞的原因。当我写这篇文章的时候，多伦多正在经历冰冻和解冻的时期，导致这个城市经历了比平常更高的报告。基于这些知识，查看最近 4 个月的数据会很有趣。

假设我们需要 4 个月的数据，记住为 API 响应设置的最大记录限制是很重要的。311 Toronto API 在其响应对象中有 1000 条记录的限制。使用 API 时有大小限制或速率限制是相当常见的。这是一种确保 311 Toronto 的服务器不会因试图满足大量请求而过载的方法，并且可以提供良好的服务质量。为了遵守 1000 条记录的限制，我首先抽查了不同月份的记录总数。我发现一个月的平均数据低于 1000 条记录的限制。考虑到最近该城市的报告比平时多，我们的数据可能会受到限制，但我们仍然应该有足够的数据点用于我们的可视化。我们将我们的日期范围(4 个月)划分为 29 天的时间段，并对这 29 天的每个时间段进行同步请求。

现在我们有了一个将日期分块的函数，我们将继续选择开始和结束日期。我们知道，在冬末和春季的冰冻和解冻季节，坑洞是有问题的。知道了这一点，看看今年冬天的数据会很有趣，因为我们有一些交替的寒冷和温暖的日子。我们在下面定义了我们的日期参数，但是你可以随意从我的 Github 中获取这个笔记本，并更改日期以获得更多信息。如果您在我的存储库中运行该笔记本，或者基于本教程创建您自己的版本，请随意调整日期范围。

使用上面写的函数，我们有一个反映日期范围块的日期列表。从这个列表中，我将把每个偶数索引项作为我的开始日期，每个奇数索引项作为我的结束日期。

[datetime.datetime(2018, 11, 1, 0, 0),
 datetime.datetime(2018, 11, 30, 0, 0),
 datetime.datetime(2018, 12, 1, 0, 0),
 datetime.datetime(2018, 12, 30, 0, 0),
 datetime.datetime(2018, 12, 31, 0, 0),
 datetime.datetime(2019, 1, 29, 0, 0),
 datetime.datetime(2019, 1, 30, 0, 0),
 datetime.datetime(2019, 2, 28, 0, 0),
 datetime.datetime(2019, 3, 1, 0, 0),
 datetime.datetime(2019, 3, 4, 0, 0)]

我们在上面的输出中看到，第一个范围是 2018–11–01 到 2018–11–30。第二个范围是 2018–12–01 到 2018–12–30 等等。我们看到每个偶数位置(0，2，4 等。)是开始日期，奇数位置的项目是结束日期。

提出 API 请求

基本网址:https://secure.toronto.ca/webwizard/ws/requests.json?

使用 311 自述文件中已知的参数，我们可以添加 service_code、jursidiction _ id、start_date 和 end_date 等参数。我们的 API 请求将从上面获取每个开始和结束日期范围分区。我们总共会做 5 个。

现在我们有了一个巨大的列表(data_clob ),其中包含了返回结果的嵌套 JSON，我们看到每个条目都以关键字“service_requests”开头。我们对每个“服务请求”的价值感兴趣。

查看熊猫数据框架中的数据

熊猫可以从 csv、字典、列表、SQL 查询等一系列格式中读取您的数据，并将其放入数据框中。如果您研究这个数据框架，您可以看到我们有一些重要的列，如 long(经度)和 lat(纬度)。

计算所需的调查天数和维修天数

我们可以根据“requested_datetime”和“updated_datetime”之间的时间差来计算调查报告的预计天数。“expected_datetime”似乎表示修补坑洞的预期日期，但它通常由一个固定的日期值填充。对于某些报告，我不确定这种自动填充背后的原因是什么。

在下面的要点中，我获取 requested_datetime、updated_datetime 和 expected_datetime 的字符串日期值，并使用 pandas 的 to_datetime 方法将其转换为 datetime 对象(第 4、5 和 6 行)。

一旦我们有了数据框架，我们就可以计算调查和维修所需的平均天数。使用这些平均值，我们设置一个阈值来决定服务请求是慢还是快。

使用上面的分类，我们用 mplleaflet 对应的经度和纬度来绘制坑洞的位置。

比平均响应/调查慢(地图上的蓝点)
比平均响应/调查更快(地图上的黑点)
比平均修复速度慢(地图上的红色方块)
比平均修复速度更快(地图上的绿色方块)

上面的文件保存为 HTML 格式，其中包含我们最终的可视化。

您可以在这里查看互动结果:http://www.mmonzoor.com/pot_holes.html

结论

到目前为止，我们已经学习了如何使用 JSON 对象等结构化数据，通过 GET 请求进行 API 调用，使用 pandas 清理数据，以及通过 matplotlib 可视化清理后的数据。现在你有了一个清晰的数据框架，可以随意调查你可能对你的城市有疑问的问题。如果你所在的城市有像 311 Toronto 这样的开放数据目录，试着模仿这个教程，也许你会发现一些有趣的见解！我希望这个教程是有帮助的，我愿意尽我所知回答任何问题，所以请随意评论。

GitHub 知识库

[## mmonzoor/introductive _ pot _ hole _ viz

在 GitHub 上创建一个帐户，为 mmonzoor/introductive _ pot _ hole _ viz 开发做贡献。

github.com](https://github.com/mmonzoor/introductory_pot_hole_viz)

将机器学习服务从 AWS 映射到 Google Cloud 再映射到 Azure

原文：https://towardsdatascience.com/mapping-machine-learning-services-from-aws-to-google-cloud-to-azure-32b7e76ef674?source=collection_archive---------28-----------------------

AWS、谷歌云和 Azure 的不同机器学习相关云服务列表。谷歌已经提供信息来帮助人们从 AWS 或 Azure 迁移

微软也提供了类似的对比—https://docs . Microsoft . com/en-us/azure/architecture/AWS-professional/services

下面的列表是基于上述链接，我添加了 AWS 和 Azure 服务的链接。

语音转文字——亚马逊转录|*|云语音转文字||天蓝色语音转文字*

文字转语音——亚马逊波利 | 云文字转语音||天蓝色文字转语音

视觉 — 亚马逊认知 | 云视觉 | 认知服务视觉

NLP — 亚马逊领悟|云自然语言 | 认知服务语言

翻译——亚马逊翻译 | 云翻译|*|语音翻译*

对话式 AI — 亚马逊 Lex | 谷歌 dialog flow|*Azure LUIS*

视频智能——亚马逊 Rekognition|*|云视频智能 | Azure 视频索引器*

AutoML—NA|*|Cloud AutoML(beta)||Azure ML Studio*

完全托管 ML——亚马逊 SageMaker | 云机器学习引擎 | Azure ML 服务

亚马逊最近推出了一些新服务，如用于时间序列预测的亚马逊预测和用于创建推荐系统的亚马逊个性化，目前谷歌云和 Azure 都没有类似的服务。

在命名服务方面，亚马逊有最好的名字，如 Polly、Lex 等:)。我认为谷歌和 Azure 应该开始更好地命名他们的服务:)

*[## 将 AWS 服务映射到谷歌云平台产品|谷歌云平台免费层|谷歌云

如果你熟悉亚马逊网络服务(AWS)，快速了解各种谷歌云平台…

cloud.google.com](https://cloud.google.com/free/docs/map-aws-google-cloud-platform)* *[## 将 Microsoft Azure 服务映射到 Google 云平台产品| Google 云平台免费层|…

如果你熟悉微软 Azure 服务，快速了解各种谷歌云平台…

cloud.google.com](https://cloud.google.com/free/docs/map-azure-google-cloud-platform)* * [## AWS 与 Azure 服务对比——Azure 架构中心

这篇文章帮助你理解微软 Azure 服务与亚马逊 Web 服务(AWS)的比较。无论你是…

docs.microsoft.com](https://docs.microsoft.com/en-us/azure/architecture/aws-professional/services)*

映射混乱的地址第 1 部分:获取纬度和经度

原文：https://towardsdatascience.com/mapping-messy-addresses-part-1-getting-latitude-and-longitude-8fa7ba792430?source=collection_archive---------11-----------------------

我的家乡多伦多有幸拥有北美唯一一个大型有轨电车网络，它在战后的街头铁路仇杀中幸存了下来。多伦多的有轨电车是整个快速交通系统的重要组成部分。然而，他们有一个明显的弱点——如果一辆电车被堵了，其他电车就不可能绕过它，所以电车延误有可能引发交通堵塞。我一直在研究一个模型，该模型使用一个公开的关于有轨电车延误信息的数据集来预测和帮助防止这种延误。

Streetcar delays can cause gridlock (photo by author)

电车延误数据集包括自 2014 年 1 月以来系统中每次延误的详细信息，包括延误的时间、持续时间和位置。

Streetcar delay dataset

问题是:杂乱的地址

位置字段完全是非结构化的-交叉点以多种格式表示(“Queen and Sherbourne”、“queen/sherbourne”)，街道和地标的指示不一致。

例如，单个地标可能出现在具有多个不同位置值的数据集中:

朗塞斯瓦勒斯场
朗西场
朗克。车房。

我需要可视化延迟的位置，以了解网络的哪些部分最容易出现拥堵。为了可视化位置，我需要将它们转换成纬度和经度值。在本文中，我描述了如何从输入数据集中杂乱的位置获取纬度和经度值。在本系列的下一篇文章中，我将描述如何使用这些纬度和经度值来生成地图以可视化延迟模式。

解决方案第 1 部分:清理位置值以减少冗余

在尝试获取纬度和经度值之前，我开始对位置值进行一些老式的清理，包括:

将所有位置值设置为小写
替换用多个字符串表示的公共值，包括不一致的街道名称，并对所有交汇点使用一致的连接:
应用一个函数为交叉点处的街道名称提供一致的顺序，以避免冗余，如“皇后和宽景”/“宽景和皇后”:

这些简单的清理将唯一位置的数量减少了 35%，从 15.6 k 减少到 10 k 多一点。正如我们将看到的，减少唯一位置的数量意味着对 API 进行更少的调用来将位置转换为经度和纬度值。Google 地理编码 API 每 k 次调用的成本为 5.00 美元，所以我通过减少唯一位置的数量节省了 25 美元。

解决方案第 2 部分:使用 Google 地理编码 API 获取纬度和经度值

我决定使用 Google 地理编码 API 来获取纬度和经度值。这一过程没有我预想的那么简单，我希望如果您使用地理编码 API，您可以从我学到的经验中受益，如下所述。

以下是我在从 Python 调用地理编码 API 之前必须采取的步骤:

在 Google Cloud 中建立一个项目。我按照说明这里。
查看地理编码 API 介绍材料，并按照其中的说明(1)为您的谷歌云项目激活地理编码 API，以及(2)获取地理编码 API 的 API 密钥
查看用于谷歌地图服务的 Python 客户端自述文件，了解如何从 Python 调用地理编码 API 的说明

要准备从 Python 调用地理编码 API:

安装客户端

! pip install -U googlemaps

2.将您的 API 键与地理编码 API 客户端相关联，并调用地理编码 API 获取已清理数据集中的样本地址:“lake shore blvd. and superior st .”请注意，传递给地理编码 API 的地址包括数据集中的位置和城市(数据集中所有位置的城市均为“多伦多”)。

3.检查返回的纬度和经度以确认它与输入地址匹配:

Latitude and longitude returned by the Geocoding API match the input location

既然我们已经验证了从位置值到纬度/经度再回到地址的往返过程，那么在我们能够转换整批位置值之前，还有一些障碍需要克服。

障碍#1:地理编码 API 在看似无辜的位置值上受阻

地理编码 API 阻塞了一些位置值，但不是我预期的位置值。我天真地试图通过发送垃圾地址“asdfasdfjjjj”来测试 API，并得到非空的 JSON:

然而，当我试图转换一批位置时，它在一个看起来不错的位置值上失败了:“roncesvalles to neville park”

为了可靠地转换一批位置，我必须将地理编码 API 调用封装在一个函数中，该函数检查返回的列表是否为空，如果是，则返回占位符值:

障碍 2:默认的每日 API 限制对于我需要转换的一批位置来说太小了

使用定义为可靠地调用地理编码 API 的 get_geocode_result 函数，我准备好进行批处理运行来转换位置值。为了最小化对 API 的调用，我定义了一个新的数据帧 df_unique ，它只包含唯一的位置值:

然而，当我调用 get_geocode_result 函数向 df_unique 数据帧添加纬度和经度值时:

我收到以下错误消息:

在谷歌云控制台中检查我的项目的配额页面，我可以看到我每天对地理编码 API 的调用限制只有 1400 次。这就是为什么当我试图为值超过 10k 的 df_unique 数据帧调用 API 时，会出现 OVER_QUERY_LIMIT 错误。

为了增加我对这个项目的地理编码 API 调用的每日限额，我必须向 Google Cloud support 开一张罚单，要求提高我对地理编码 API 的每日限额:

进行批处理运行以将位置转换为经度和纬度

随着我的每日地理编码 API 限制的提高，我能够在 df_unique 数据帧上无错误地调用 API。1.5 小时后(表示大约 110 次 API 调用/分钟)，我得到了一个数据帧，其中包括所有不同位置的纬度和经度值:

接下来，我在 df_unique 数据帧中创建不同的经度和纬度列，然后用 df_unique 连接原始数据帧:

最后，我有一个数据帧，包含所有原始数据以及与位置值对应的纬度和经度值:

摘要

下面总结了获取纬度和经度值以对应原始数据集中所有混乱位置所需的步骤:

清理原始数据集以移除冗余位置并减少唯一位置的数量
通过在 Google Cloud 中创建一个项目，获取一个 API 密钥，并为 Google Maps 服务设置 Python 客户端，设置 Python 对 Google 地理编码 API 的访问
使用地址(位置和城市)调用地理编码 API，并解析返回的 JSON 以获得纬度和经度。检查返回空列表的 API，如果您要转换的不同位置的数量大于默认的每日限制，请使用 Google Cloud 支持打开一个票证以获得增加的每日 API 限制。

在本系列的下一篇文章中，我将描述如何使用这些纬度和经度值来生成地图，以可视化来自原始数据集的延迟模式。

如果您想亲自尝试本文中描述的代码:

将位置转换为纬度和经度的主要笔记本是这里的。您将需要获得自己的 API 密钥来运行它。
你可以在这个笔记本上使用的输入数据帧的一个例子是这里的。请注意，该数据帧中的位置值已经被清除(小写，街道名称以一致的顺序),如上文解决方案第 1 部分:清除位置值以减少冗余一节所述。

绘制混乱的地址第 2 部分:来自叶的见解

原文：https://towardsdatascience.com/mapping-messy-addresses-part-2-insights-from-folium-bafd55858faf?source=collection_archive---------12-----------------------

Toronto streetcar delay heat map

在本系列第一篇文章的中，我描述了多伦多有轨电车延迟数据集，并经历了从具有不精确、混乱的位置值的原始数据集获取所需的步骤:

到包含所有位置的纬度和经度值的数据帧:

在本文中，我将回顾使用第一篇文章中的纬度和经度值获得延迟数据的地图可视化的步骤。

映射镜头 1:像素化灰尘

我第一次尝试可视化包括纬度和经度的数据集时，我决定使用像素化数据。

安装并导入 Pixiedust 后，显示数据框:

使用键纬度和经度和数值最小延迟:

选择简单的聚类风格，我得到如下的地图:

Some streetcar delay locations are obviously not correct

来自 Pixiedust 可视化的一些观察:

加纳以南的大西洋中的值位于本初子午线和赤道的交点(纬度/经度= 0.0/0.0)。在这些位置，地理编码 API 返回一个空列表，上一篇文章中描述的 get_geocode_result 函数返回一个占位符值。
在绘制的 10 k 个位置中，超过 97k 个位于多伦多地区，并且是有轨电车延迟的潜在有效地点。

除了多伦多地区的 9.7 k 个位置和[0.0，0.0]处的 238 个值之外，在世界其他地方有 43 个位置明显不符合有轨电车延迟的有效地点。

This “Toronto” streetcar is in San Francisco, but the dataset only covers Toronto (photo by author)

说完，我基本上用尽了我能用 Pixiedust 得到的东西。虽然 Pixiedust 没有给我想要的一切，但它确实提供了一些非常快速的见解，有助于节省时间。

贴图拍摄 2:叶子

在穷尽了我可以从 Pixiedust 获得的东西之后，我转向了follow，这是一个在 Python 的上下文中很容易利用 fleet . js 库的设施的库。

Pixiedust 可视化显示有轨电车网络上存在合法延迟位置之外的值。为了准备使用，我删除了位于有轨电车网络边界之外的记录。这将数据集的大小减少了 6.5%，只有 65 k 条记录。

Bounding box for valid streetcar delays

您可能想知道为什么街道网格不与边界框对齐。多伦多街道网格大致垂直于市中心的安大略湖海岸线，因此网格相对于由纬度和经度定义的边界框向左扭曲。

回到代码—现在我们已经准备好安装和导入 Folium 了:

然后，我们可以创建一个简单的映射，显示数据集中前 2.5 k 条记录的延迟聚类:

这是生成的地图，它让我们了解了城市不同区域延误的相对集中程度:

我们可以放大到西部市区。注意女王街西的热点，在巴瑟斯特和奥辛顿之间，由三一贝尔伍兹公园南边的伯爵指示。

放大来仔细观察热点，很明显，公园南面的皇后区和斯特拉坎区是吸引延误的地方。在这个例子中，全市 7%的延误发生在这个十字路口。

既然我们已经查看了集群，让我们修改集群视图的代码，以显示延迟持续时间的热图视图:

这是整个系统的样子:

如果我们放大到市中心的中心部分，延误的集中是显而易见的，包括巴瑟斯特、斯帕迪纳和海湾与皇后码头交汇处的湖泊附近的三个不同的热点。

结论

通过的上一篇文章和这篇文章，我已经描述了从杂乱的自由格式地址到纬度和经度，再到使用 leav 的有用地图可视化的旅程。这些可视化提供了对数据的深入了解，例如街车延误热点的位置，这些数据很难从原始数据集中提取。

如果您想探索本文中描述的代码:

本文描述的笔记本是这里
输入数据集在这里是这里是

绘制城市中最受欢迎的地方

原文：https://towardsdatascience.com/mapping-the-most-popular-places-in-the-city-1cd0737e7023?source=collection_archive---------19-----------------------

使用蟒蛇，熊猫和树叶

“Mass” by Gaetano Virgallito. Licensed under CC BY-ND 2.0

当“数据科学”一词出现时，一些与分析人类行为、大城市、服务消费等相关的研究引起了我的兴趣。上次工作时，我为巴西纳塔尔的优步服务制作了一张地图，对如何更好地服务中心街区很感兴趣。这一次，人们的兴趣来自于谷歌的一个地点搜索功能:“大众时报”。

谷歌虽然聪明，但它可以向我们展示(有时甚至是“直播”)你搜索的地方有多忙。所以…

如果我根据热门时间比较几个地方呢？并发现特定类型的地方比其他地方更受欢迎？使用这种数据可以提出许多问题。

那么，为什么不从纳塔尔市中心(我居住的城市)以 15 英里为半径获取不同类型的地方，然后获取每个地方的流行时间数据，并用这些数据绘制一个交互式地图呢？这就是我们在这里做的。

我会尽量解释，用足够的细节不要让这篇文章讨厌，我是怎么做的，以及这个实验如何能被复制。这里用到的技术有 Python，pandas，叶子库。如果你想了解更多，代码可以在 GitHub 上找到，比如interactives Colab notebooks你可以上传自己的数据库并生成地图。

谷歌，谷歌…

在绘制地图之前，我们必须提取我们需要的数据。这将需要两种类型的数据:纳塔尔的一组地点和这些地点中的每一个地点，关于流行时刻的数据。

我们将使用 Google Places API 来获取位置。这个 API 提供了几种服务，对于所有这些服务，您都需要一个访问令牌来消费数据。

我使用了“附近搜索”来寻找纳塔尔市中心附近半径 15 英里的地方。脚本通过类型(健身房、超市、银行……)搜索这些地方——我为每种类型定义了我想要的地方的数量；这样我会得到最相关的结果。然后，该脚本保存。将数据集放置为places.csv的 csv 文件。

现在我们有地方了。通过我设置的过滤器和界限，我们在纳塔尔有 800 个地方。下一步是捕捉所有这些流行的时间。在 Places API 文档中查找该主题，您会注意到没有提到任何“流行时间”(至少直到今天，2019 年 5 月。)但是用谷歌快速搜索，我找到了让我们获得这项服务的回购。回购协议中说，谷歌确实允许这种查询，但不是免费的，这个 API 调用被 SKU 称为“查找当前位置”。你可以用每月分配的预算给这个 API 打 5000 个电话。

使用该 API，get_places_popular_moments.py读取 places 数据集并在其上包含热门时刻，生成新的places_with_moments.csv数据集。现在，我们应该有 800 个地方，但我们只有 300 个，因为没有每个地方的“流行时间”。

到目前为止，我们的数据集看起来像这样:

对于每个工作日列，有 24 个位置，具有一天中每个小时的力矩值。

用 follow 和 Kepler 生成地图

现在，我们希望将这些数据可视化在一个漂亮的交互式地图中。我们将使用基于 fleet . js 的 Python 库——来可视化地图。

这是纳塔尔周一上午 10 点的热门地点地图。圆圈的颜色表示地点的类型和大小，以及时刻值。

生成这个地图代码是这样的:

def generate_map(weekday, hour, types=places_types):
  natal = folium.Map(location=[-5.831308, -35.20470], zoom_start=13)
  ptypes_groups = {} for ptype in types:
    ptypes_groups[ptype] = FeatureGroup(name=ptype) for index, place in natal_places.iterrows():
    moments = json.loads(place[weekday])
    if (place.type in types):
      folium.Circle(location=[place.lat, place.lng],
                radius=int(moments[hour])*3,
                fill_color=colors[places_types.index(place.type)],
                fill_opacity=0.6).add_to(ptypes_groups[place.type])
  for ptype, group in ptypes_groups.items():
    group.add_to(natal) LayerControl().add_to(natal)
  return natal

它将星期几、小时和可选的地点类型子集作为参数。它做的第一件事是创建一个新的地图natal，并为每个想要的类型创建一个FeatureGroup。这个资源允许我们在地图上创建一个带有切换类型选项的菜单。

遍历数据集上的所有项目，我们将每个项目添加到相应的特征组。

深入到 colab 笔记本中，您会看到对数据集进行了修改，使其适合与 Kepler.gl 一起使用，这是一个强大的地理空间分析 web 工具。开普勒给了我们比叶更多的资源，而且性能非常好。所以我们可以这样做:

Anitation made with Kepler

上面的动画是使用开普勒生成的，让我们可以看到纳塔尔在这一周的移动情况。开普勒还允许我们导出环境，使其可以在线访问，在这个地址你可以访问上面的地图。

我们还能做什么？

乍一看，关于流行时间的信息没什么意义。谷歌说的“地方 100 拥挤”是什么意思？这是这个地方的人口密度等级？这些流行的时代数据到底意味着什么？

通过更好地分析一些值，我意识到“momet”的范围是从 0 到 100，这导致了诸如“通常不太忙”或“通常有点忙”之类的分类。但我真正的问题是“这些信息有多大意义？”

为了更好地理解它，我采用了另一种方法，对在数据集中找到一些有用的信息感兴趣。这是我的发现:

这个不错。图表中显示的健身房流量证实了一个常识:健身房周一更忙，周五没那么忙。高峰时间大约是晚上 20 点

大多数图表在午餐时间没有高峰时间，这与机场不同，机场在下午 12 点更忙

星期五下午，医疗诊所有所减少。

纳塔尔的人们喜欢在星期五下午去理发店。

这些是从我们获得的数据中可以推断出的一些有趣的信息。总的来说，我很高兴这些数据与现实相符，这让我相信这确实是“流行时代”数据中的一个含义。这些结果可能会引导我们进行有趣的分析，这对理解纳塔尔，当然还有其他城市的行为是有意义的。

用主题建模描绘技术世界

原文：https://towardsdatascience.com/mapping-the-tech-world-with-topic-modelling-bfc3c40af507?source=collection_archive---------31-----------------------

我们用流行的话题建模算法 LDA 分析了 20 万篇科技新闻文章

克里斯托夫·乔迪、祖卡斯·纳瓦罗、米查什·帕利斯基、马切伊·维拉莫夫斯基(德拉布·UW，华沙大学)

Image by: DELab UW

作为 NGI 前进项目的一部分，德拉布·UW正在支持欧盟委员会的下一代互联网计划，确定与互联网相关的新兴技术和社会问题。我们的团队一直在尝试各种自然语言处理方法，以发现不同类型的在线媒体中的趋势和隐藏模式。您可以在这里找到我们的工具和演示文稿。

这篇文章展示了我们对科技新闻的最新分析结果。我们有两个主要目标:

在讨论新兴技术和社会问题的新闻中发现最重要的话题，
来映射这些主题之间的关系。

我们的文本挖掘练习基于由 213 000 篇科技媒体文章组成的科技新闻数据集。数据收集时间为 40 个月(2016 年 1 月 1 日至 2019 年 4 月 30 日)，包括文章的纯文本。如图所示，出版商位于美国、英国、比利时和澳大利亚。关于数据集的更多信息可以在我们的 Zenodo 知识库中获得。

Sources by number of articles and country

在这篇简短的介绍中，我们关注一种广泛使用的文本挖掘方法:潜在狄利克雷分配(LDA)。LDA 因其易用性、灵活性和可解释的结果而广受欢迎。首先，我们为所有非技术读者简要解释算法的基础。在文章的第二部分，我们展示了 LDA 在一个足够大的数据集上可以实现什么。

皱胃向左移

文本数据是高维的。在最基本的形式中，它通常被表示为单词包(BOW)矩阵，其中每行是一个文档，每列包含一个单词在文档中出现的频率。这些矩阵可通过线性代数方法进行转换，以发现其中隐藏的(潜在的和低维的)结构。

主题建模假设文档(如新闻文章)包含各种不同的主题。例如，报道剑桥分析丑闻的新闻文章可能包含以下主题:社交媒体、政治和技术法规，具有以下关系:60%社交媒体、30%政治和 10%技术法规。另一个假设是，主题包含特征词汇，例如，社交媒体主题由脸书、推特等词描述。

LDA 是由 Blei 等人(2003) 基于贝叶斯统计提出的。该方法的名称提供了它的关键基础。潜在来自于文档包含我们事先不知道的潜在主题的假设。分配表明我们将单词分配给主题，将主题分配给文档。狄利克雷是一个多项式似然分布:它提供了任何数量的结果的联合分布。例如，狄利克雷分布可以描述野生动物园中观察到的物种的出现(唐尼，2013 )。在 LDA 中，它描述了主题在文档中的分布，以及词在主题中的分布。

主题建模方法背后的基本机制很简单:假设文档可以由有限数量的主题描述，我们试图从由特征词组成的主题组合中重建我们的文本。更准确地说，我们旨在通过两个矩阵的组合来重新创建我们的 BOW 单词-文档矩阵:包含文档中主题的狄利克雷分布的矩阵(主题-文档矩阵)，以及包含主题中的单词的矩阵(单词-主题矩阵)。最终矩阵的构建是通过一个叫做吉布斯采样的过程实现的。Gibbs 抽样背后的思想是将改变逐字引入两个矩阵:改变文档中所选单词的主题分配，并评估这种改变是否改进了我们文档的分解。在所有文档中重复 Gibbs 抽样的步骤提供了提供样本的最佳描述的最终矩阵。

关于主题建模的更多细节，我们推荐这个和这个的优秀帖子。关于这项研究的完整技术描述，请阅读我们的完整报告。

结果

主题建模最重要的参数是主题的数量。主要目标是达到令人满意的主题分离水平，即主题既不是所有问题都集中在一起，也不是过于分散的问题。为了实现这一点，我们试验了不同的 LDA 超参数水平。对于有 20 个主题的设置，主题是平衡的和可分离的。

因此，我们确定了 20 个主要主题，呈现在下面的可视化中。每个圆圈代表一个主题(大小反映了主题在文档中的流行程度)，距离由词汇的相似性决定:共享相同单词的主题彼此更接近。在第二个图中，条形代表当前所选主题的特有术语(对于图示，主题 1。被选中)。一对重叠的条表示给定术语在语料库范围内的频率，以及其特定主题的频率。我们设法达到逐渐减小的主题大小:最大的主题占 19%，第五个 8%，第十个 5%。

要探索呈现结果的交互式可视化，请点击此处。

For the interactive visualisation see: https://mpalinski.github.io/ngi-fwd-deliv/

在研究了这些最相关的术语后，我们用最接近的总括术语标记了每个主题。经过仔细检查，我们将话题数量减少到了 17 个(话题 5 和 16 成为了联合类别太空技术，话题 10 &和 19 被融合在一起形成了一个关于媒体的话题，而话题 14 &和 15 则专注于 CPU 和其他硬件)。在接下来的章节中，我们将简要介绍已确定的主题。

话题一: AI &机器人

人工智能和机器人构成了最大的主题，约占所有令牌的 19%，其特点是机器学习术语(例如训练数据)以及流行的人工智能应用(机器人、自动驾驶汽车)。

话题 2:社交媒体危机

社交媒体话题也同样普遍，涵盖了现代社交媒体平台( facebook 、 twitter )有争议的方面，如隐私权、内容节制、用户禁令或选举干预使用微目标(例如:隐私、禁令、选举、内容、删除)。

话题三:商业新闻

大量科技文章报道了商业新闻，尤其是在主要平台(T0)、T2 亚马逊、云计算(T4 AWS、T5)等服务或物联网、区块链 T9 等新兴技术上。主题词也暗示了对科技公司财务结果的高度关注(收入、亿、销售、增长)。

主题 4:智能手机

主题 4 涵盖了关于 522 亿美元智能手机市场的文章。两大制造商——三星和苹果——以同样的出场次数名列关键词列表之首。文章重点介绍设备的特点、参数及提供的附加服务(摄像头、显示器、 alexa 等)。).

主题 5 和 16:空间

对太空探索的兴奋在科技媒体中很常见。这些主题包括关于美国国家航空航天局、未来的火星和月球任务以及致力于空间技术的公司的报告，如 SpaceX。

主题 6:隐私

主题 6 围绕剑桥分析隐私丑闻展开，并在语料库中收集该关键词的所有提及内容。英国退出欧盟公投期间，剑桥分析公司(Cambridge Analytica)参与公投脱欧运动是一个主要焦点，诸如 eu 和 uk 等关键词的高位表明了这一点。不出所料，在处理加州争议后果的文章中也经常提到 GDPR。

话题七:网络安全

主题 7 涉及网络空间安全问题。它探索恶意软件和系统漏洞的主题，既针对传统的计算机系统，也针对基于区块链的新型分散技术。

主题 8: 5G

备受期待的第五代无线网络具有巨大的潜力，可以通过 ICT 组件改变所有领域。话题 8 涉及向市场提供 5G 技术的全球竞争(华为、爱立信)。它还捕捉到了关于 5G 对网络中立性的影响的争论。5G 的主要质量是实现信号的“分段”，这就引发了一场争论，即根据网络中立法，它是否能像前几代移动通信一样被对待。

话题九:跨平台

主题 9 的重点是操作系统，包括移动( ios 、 android )、桌面( windows 、 macos )以及专用服务(浏览器 chrome 、 mozilla )和应用商店( appstore )。

主题 10 和 19:媒体

媒体主题围绕最重要的媒体平台:流媒体和社交媒体。2018 年，全球视频流媒体市场规模约为 370 亿美元，音乐流媒体在此基础上又增加了 90 亿美元，占音乐行业收入的近一半。特别是，本主题关注主要的流媒体平台( youtube 、网飞、 spotify )、社交媒体( facebook 、 instagram 、 snapchat )、播客的日益流行以及流媒体服务的商业策略(订阅、广告)。

话题 11:微软

在其 40 年的历史中，微软已经进行了 200 多次收购。其中一些被认为是成功的(如 LinkedIn、Skype)，而另一些则不那么成功……(诺基亚)。话题 11 收集了描述微软近年来完成、计划和失败的收购的文章( github 、 skype 、 dropbox 、 slack )。

话题 12: 自动驾驶汽车

自主交通是公众辩论的一个重要话题。决策者应该考虑是否应用补贴或税收来平衡这项技术的公共和私人成本和利益。视听技术为社会福利提供了巨大利益的可能性——拯救生命；减少撞车、拥堵、油耗和污染；增加残疾人的行动能力；并最终改善土地利用(兰德，2016 )。专题 12 阐述了该技术的技术缺陷(电池)以及积极的外部性，如降低排放( epa 、排放)。

话题 13:特斯拉

LDA modelling 已经将特斯拉和其他 Elon Musk 项目确定为一个单独的主题。除了特斯拉电动汽车和自动驾驶汽车的发展，该主题还包括与其他移动解决方案相关的词汇(如 Lime)。

主题 14 和 15: CPU 和其他硬件

主题 14 涵盖英特尔和 AMD 之间的 CPU 创新竞赛，以及因国家安全问题被 Donald Trump 阻止的 Broadcom-高通收购事件。主题 15 包括关于各种标准( usb-c )、存储设备( ssd )等的新闻。

主题 17:初创企业

主题 17 集中于创业生态系统和众包融资。文章讨论了创业战场或创业小巷等主要创业竞赛，以及 Patreon 等众筹服务。

话题 18: 可穿戴设备

我们观察到可穿戴设备的采用激增，如健身追踪器、智能手表或增强和虚拟现实耳机。这一趋势带来了重要的政策问题。一方面，可穿戴设备在监测健康方面提供了巨大的潜力。另一方面，它可能会被对用户隐私和个人数据访问的担忧所掩盖。专题 18 中的文章讨论了可穿戴设备领域关于新设备、新功能等的新闻。( fitbit ，心率)。

话题 20: 博彩

主题 20 涉及博彩业。它涵盖了流行游戏(口袋妖怪)、游戏平台(任天堂)、各种游戏控制台( switch )和游戏博览会( e3 )。

结论

我们通过主题建模提供了技术世界的鸟瞰图。主题建模是探索广泛主题的适当基础，如社交媒体危机、人工智能或商业新闻。在这个阶段，我们能够确定引发公众辩论的主要总括主题。

我们的完整报告还包括另一种机器学习方法:t-SNE。在这种算法的帮助下，我们创建了一个新闻的二维地图，其中涉及相同主题的文章是邻居。

使用 Python 中的 Matplotlib、Pandas、Geopandas 和底图进行制图

原文：https://towardsdatascience.com/mapping-with-matplotlib-pandas-geopandas-and-basemap-in-python-d11b57ab5dac?source=collection_archive---------0-----------------------

作为 FORSK TECHNOLOGIES，的一名实习生，我探索了相当多的 Python 库(Matplotlib、Pandas、Numpy、Seaborn、Shapefile、Basemap、Geopandas ),它们对绘制数据(某种程度上也是实时数据)很有帮助..)过地图。

用 Python 绘制地理地图

在处理数据科学时，可视化地图上的数据非常有用，这可以通过 geopandas 等模块来完成。在这里，我们将探索使用 shapefiles ()创建地理地图并在其上可视化数据的方法。shp)和其他一些 Python 库。

在这里，我们将根据地图上的可视化数据来研究拉贾斯坦邦的城市人口。

本文所需的 shapefile 可以从这个链接下载 点击这里

安装 Shapefile 库

*~ conda/pip install pyshp*

导入库

*import numpy as np
import pandas as pd
import shapefile as shp
import matplotlib.pyplot as plt
import seaborn as sns*

初始化可视化集

*sns.set(style=”whitegrid”, palette=”pastel”, color_codes=True) sns.mpl.rc(“figure”, figsize=(10,6))*

打开矢量地图

矢量地图是一组具有. shp 格式的文件。

*#opening the vector map**shp_path = “\\District_Boundary.shp”**#reading the shape file by using reader function of the shape lib**sf = shp.Reader(shp_path)*

shp.reader 导入的不同形状的数量

*len(sf.shapes())*

结果将是 33，这告诉我们有 33 个形状，或者我们可以说拉贾斯坦邦地区的城市。

要浏览这些记录:

*sf.records()*

A sample output

要浏览特定记录，其中 1 是 Id 或行号，0 表示列:

***sf.records()[1][0]***

结果-

Output= Barmer

将形状文件数据转换为熊猫数据帧:

通过将 shapefile 数据转换为更相关的 Pandas Dataframe 格式，使访问城市变得更加容易。

**def read_shapefile(sf):**
    #fetching the headings from the shape file
    fields = [x[0] for x in sf.fields][1:]#fetching the records from the shape file
    records = [list(i) for i in sf.records()]
    shps = [s.points for s in sf.shapes()]#converting shapefile data into pandas dataframe
    df = pd.DataFrame(columns=fields, data=records)#assigning the coordinates
    df = df.assign(coords=shps)
    return df

数据转换为数据帧后的可视化，其中数据帧指的是行和列

*df = read_shapefile(sf)****df.shape***

具有(33，6)形状的数据帧意味着其中有 33 行和 6 列。

让我们看看创建的数据帧的示例

*# sample of a data representation the last point has the coordinates of the data latitude and longitude which will be used to create a specific map shape****df.sample(5)***

结果会是这样的—

Output

这里的线是用来创建地图的纬度和经度。

借助 Matplotlib 绘制拉贾斯坦邦的城市地图或特定形状

a)根据城市坐标绘制形状(多边形),

b)计算并返回该特定形状的中点(x0，y0)。

此中点也用于定义打印城市名称的位置。

**def plot_shape(id, s=None):**
    plt.figure()
    #plotting the graphical axes where map ploting will be done
    ax = plt.axes()
    ax.set_aspect('equal')#storing the id number to be worked upon
    shape_ex = sf.shape(id)#NP.ZERO initializes an array of rows and column with 0 in place of each elements 
    #an array will be generated where number of rows will be(len(shape_ex,point))and number of columns will be 1 and stored into the variable
    x_lon = np.zeros((len(shape_ex.points),1))#an array will be generated where number of rows will be(len(shape_ex,point))and number of columns will be 1 and stored into the variable
    y_lat = np.zeros((len(shape_ex.points),1))
    for ip in range(len(shape_ex.points)):
        x_lon[ip] = shape_ex.points[ip][0]
        y_lat[ip] = shape_ex.points[ip][1]#plotting using the derived coordinated stored in array created by numpy
    plt.plot(x_lon,y_lat) 
    x0 = np.mean(x_lon)
    y0 = np.mean(y_lat)
    plt.text(x0, y0, s, fontsize=10)# use bbox (bounding box) to set plot limits
    plt.xlim(shape_ex.bbox[0],shape_ex.bbox[2])
    return x0, y0

设置城市名称以绘制各自的地图

*DIST_NAME = ‘JAIPUR’**#to get the id of the city map to be plotted**com_id = df[df.DIST_NAME == ‘JAIPUR’].index.get_values()[0]****plot_shape(com_id, DIST_NAME)****sf.shape(com_id)*

Output

为了绘制特定的形状，我们必须知道特定城市的 ID，但是将 shapefile 文件数据更改为 Pandas dataframe 使工作变得更加容易和简单，现在我们可以直接调用它的名称。

绘制全图

这个特殊的函数将所有使用坐标制作的单个形状组合起来，并显示为一个组合形状。

def plot_map(sf, x_lim = None, y_lim = None, figsize = (11,9)):
    plt.figure(figsize = figsize)
    id=0
    for shape in sf.shapeRecords():
        x = [i[0] for i in shape.shape.points[:]]
        y = [i[1] for i in shape.shape.points[:]]
        plt.plot(x, y, 'k')

        if (x_lim == None) & (y_lim == None):
            x0 = np.mean(x)
            y0 = np.mean(y)
            plt.text(x0, y0, id, fontsize=10)
        id = id+1

    if (x_lim != None) & (y_lim != None):     
        plt.xlim(x_lim)
        plt.ylim(y_lim)*#calling the function and passing required parameters to plot the full map****plot_map(sf)***

绘制缩放地图

*y_lim = (2900000,3000000) # latitude**x_lim = (200000, 400000) # longitude****plot_map(sf, x_lim, y_lim)***

output

在完整的地图上突出显示一个单一的形状

结合以前的功能就可以了。我们可以在一张完整的地图上画出一个形状。ID 和颜色代码将是该功能的必需参数。

**def plot_map_fill(id, sf, x_lim = None, 
                          y_lim = None, 
                          figsize = (11,9), 
                          color = 'r'):**

    plt.figure(figsize = figsize)
    fig, ax = plt.subplots(figsize = figsize)
    for shape in sf.shapeRecords():
        x = [i[0] for i in shape.shape.points[:]]
        y = [i[1] for i in shape.shape.points[:]]
        ax.plot(x, y, 'k')

    shape_ex = sf.shape(id)
    x_lon = np.zeros((len(shape_ex.points),1))
    y_lat = np.zeros((len(shape_ex.points),1))
    for ip in range(len(shape_ex.points)):
        x_lon[ip] = shape_ex.points[ip][0]
        y_lat[ip] = shape_ex.points[ip][1]
    ax.fill(x_lon,y_lat, color)

    if (x_lim != None) & (y_lim != None):     
        plt.xlim(x_lim)
        plt.ylim(y_lim)*#plot_map_fill(0, sf, x_lim, y_lim, color=’y’)****plot_map_fill(13, sf,color=’y’)***

Desired Output

用城市 ID 在整个地图上突出显示多个形状

在这个函数的帮助下，作为参数，我们可以给出多个城市的 ID，这将导致突出显示多个城市而不是 1 个。

**def plot_map_fill_multiples_ids(title, city, sf, 
                                               x_lim = None, 
                                               y_lim = None, 
                                               figsize = (11,9), 
                                               color = 'r'):**

    plt.figure(figsize = figsize)
    fig, ax = plt.subplots(figsize = figsize)
    fig.suptitle(title, fontsize=16)
    for shape in sf.shapeRecords():
        x = [i[0] for i in shape.shape.points[:]]
        y = [i[1] for i in shape.shape.points[:]]
        ax.plot(x, y, 'k')

    for id in city:
        shape_ex = sf.shape(id)
        x_lon = np.zeros((len(shape_ex.points),1))
        y_lat = np.zeros((len(shape_ex.points),1))
        for ip in range(len(shape_ex.points)):
            x_lon[ip] = shape_ex.points[ip][0]
            y_lat[ip] = shape_ex.points[ip][1]
        ax.fill(x_lon,y_lat, color)

        x0 = np.mean(x_lon)
        y0 = np.mean(y_lat)
        plt.text(x0, y0, id, fontsize=10)

    if (x_lim != None) & (y_lim != None):     
        plt.xlim(x_lim)
        plt.ylim(y_lim)

让我们看看地图是什么样子的

*#naming the id numbers of the cities to be coloured**city_id = [0, 1, 2, 3, 4, 5, 6]****plot_map_fill_multiples_ids(“Multiple Shapes”,******city_id, sf, color = ‘g’)***

通过城市名称在整个地图上突出显示多个形状

最近，我们遇到了用城市 ID(索引)突出显示形状的问题，但尽管我们的数据是熊猫数据框架，我们也可以通过提到城市名称来做到这一点。

# plotting the city on the map to be coloured by using the dist_name**def plot_cities_2(sf, title, cities, color):**

    df = read_shapefile(sf)
    city_id = []
    for i in cities:
        city_id.append(df[df.DIST_NAME == i.upper()]
                         .index.get_values()[0])
    plot_map_fill_multiples_ids(title, city_id, sf, 
                                       x_lim = None, 
                                       y_lim = None, 
                                       figsize = (11,9), 
                                       color = color);

让我们来看看输出

*south = [‘jaipur’,’churu’,’bikaner’]**plot_cities_2(sf, ‘DIST’, south, ‘c’)*

绘制热图

这是一种根据提供的值用不同强度的特定颜色填充形状的地图。它以地理格式提供清晰的数据解释。

在第一个函数中，我们将把我们的数据列表划分为区间或箱，其中每个箱将具有特定的颜色强度，6 个箱和 4 个不同的颜色托盘。

**def calc_color(data, color=None):**
        if color   == 1: 
            color_sq =  ['#dadaebFF','#bcbddcF0','#9e9ac8F0','#807dbaF0','#6a51a3F0','#54278fF0']; 
            colors = 'Purples';
        elif color == 2: 
            color_sq = ['#c7e9b4','#7fcdbb','#41b6c4','#1d91c0','#225ea8','#253494']; 
            colors = 'YlGnBu';
        elif color == 3: 
            color_sq = ['#f7f7f7','#d9d9d9','#bdbdbd','#969696','#636363','#252525']; 
            colors = 'Greys';
        elif color == 9: 
            color_sq = ['#ff0000','#ff0000','#ff0000','#ff0000','#ff0000','#ff0000'];

        else:           
            color_sq = ['#ffffd4','#fee391','#fec44f','#fe9929','#d95f0e','#993404']; 
            colors = 'YlOrBr';
        new_data, bins = pd.qcut(data, 6, retbins=True, 
        labels=list(range(6)))
        color_ton = []
        for val in new_data:
            color_ton.append(color_sq[val]) 
        if color != 9:
            colors = sns.color_palette(colors, n_colors=6)
            sns.palplot(colors, 0.6);
            for i in range(6):
                print ("\n"+str(i+1)+': '+str(int(bins[i]))+
                       " => "+str(int(bins[i+1])-1))
            print("\n\n   1   2   3   4   5   6")    
        return color_ton, bins;

函数 plot_cities()和 plot_map_fill_multiples_ids 应进行调整，以利用这种新的颜色方案:

**def plot_cities_data(sf, title, cities, data=None,color=None, print_id=False):**

    color_ton, bins = calc_color(data, color)
    df = read_shapefile(sf)
    city_id = []
    for i in cities:
        city_id.append(df[df.DIST_NAME == 
                            i.upper()].index.get_values()[0])
    plot_map_fill_multiples_ids_tone(sf, title, city_id, 
                                     print_id, 
                                     color_ton, 
                                     bins, 
                                     x_lim = None, 
                                     y_lim = None, 
                                     figsize = (11,9));**def plot_map_fill_multiples_ids_tone(sf, title, city,  
                                     print_id, color_ton, 
                                     bins, 
                                     x_lim = None, 
                                     y_lim = None, 
                                     figsize = (11,9)):** 
    plt.figure(figsize = figsize)
    fig, ax = plt.subplots(figsize = figsize)
    fig.suptitle(title, fontsize=16)
    for shape in sf.shapeRecords():
        x = [i[0] for i in shape.shape.points[:]]
        y = [i[1] for i in shape.shape.points[:]]
        ax.plot(x, y, 'k')

    for id in city:
        shape_ex = sf.shape(id)
        x_lon = np.zeros((len(shape_ex.points),1))
        y_lat = np.zeros((len(shape_ex.points),1))
        for ip in range(len(shape_ex.points)):
            x_lon[ip] = shape_ex.points[ip][0]
            y_lat[ip] = shape_ex.points[ip][1]
        ax.fill(x_lon,y_lat, color_ton[city.index(id)])
        if print_id != False:
            x0 = np.mean(x_lon)
            y0 = np.mean(y_lat)
            plt.text(x0, y0, id, fontsize=10)
    if (x_lim != None) & (y_lim != None):     
        plt.xlim(x_lim)
        plt.ylim(y_lim)

让我们举一个例子，以热图演示格式绘制数据。

*names= [‘jaipur’,’bikaner’,’churu’,’bhilwara’,’udaipur’]**data = [100, 2000, 300, 400000, 500, 600, 100, 2000, 300, 400, 500, 600, 100, 2000, 300, 400, 500, 600]**print_id = True # The shape id will be printed**color_pallete = 1 # ‘Purple’****plot_cities_data(sf, ‘Heat map of given cities’, names, data, color_pallete, print_id)***

绘制真实数据

绘制拉贾斯坦邦地区的人口图，这里指的是真实数据。

*# reading data set
census_17 = df.POPULATION**census_17.shape**#plotting**title = ‘Population Distrubution on Rajasthan Region’**data = census_17**names = df.DIST_NAME****plot_cities_data(sf, title, names, data, 1, True)***

希望你已经理解了通过 Python 库绘制地图的概念。

具体代码可以参考我的GITHUB。

使用 Geopandas 制图

我们已经看到了用 Pandas 数据帧进行制图的过程，现在轮到用 Geopandas 数据帧对其进行可视化了。Geopandas 简化了 Python 中地理空间数据(包含地理成分的数据)的处理。它结合了熊猫和 shapely 的功能，通过运行一个更紧凑的代码。这是开始制作 choropleth 地图的最好方法之一。

让我们先通过 Geopandas 绘制一些地图，然后在上面绘制拉贾斯坦邦的人口！

上一主题中使用的 Shapefile 足以进一步用于 Geopandas。

安装

conda install geopandas

第一步是导入所需的库

import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd

获取感兴趣的数据

作为印度最大的邦，拉贾斯坦邦是一个人口高度密集的邦。绘制人口地图将使可视化更加简单和高效。让我们设置路径，通过 Geopandas 打开 Rajasthan 地区的 shapefile。

# set the filepath and load
fp = “\\District_Boundary.shp”#reading the file stored in variable fp
map_df = gpd.read_file(fp)# check data type so we can see that this is not a normal dataframe, but a GEOdataframe**map_df.head()**

让我们预览一下地图

#plotting the map of the shape file preview of the maps without data in it
**map_df.plot()**

现在是时候打开包含要绘制的数据的 CSV 文件了。在这里，我们也可以为所需的数据制作一个 csv，但我只从 shapefile 中提取数据，而不是制作 csv 或在 web 上搜索，这样可以节省大量时间。

#opening the csv(.shp) file which contains the data to be plotted on the map
df = gpd.read_file(\\District_Boundary.shp”)df.head()#selecting the columns required
df = df[[‘DIST_NAME’,’POPULATION’]]#renaming the column name
data_for_map = df.rename(index=str, columns={‘DIST_NAME’: ‘DISTRICT’,‘POPULATION’: ‘POP’})

让我们预览一下地理数据框架

# check dat dataframe
**data_for_map.head()**

现在，让我们将地理数据与数据集连接起来

# joining the geodataframe with the cleaned up csv dataframe
merged = map_df.set_index(‘DIST_NAME’).join(data_for_map.set_index(‘DISTRICT’))#.head() returns the top 5(by default ) lines of the dataframe
**merged.head()**

Output after merging datasets

映射时间

首先，我们需要为 Matplotlib 绘制地图做一些预先要求的工作，如设置变量、范围和为地图创建基本图形。

# set a variable that will call whatever column we want to visualise on the map
variable = ‘POP’# set the range for the choropleth
vmin, vmax = 120, 220# create figure and axes for Matplotlib
fig, ax = plt.subplots(1, figsize=(10, 6))

创建地图的时间

merged.plot(column=variable, cmap=’BuGn’, linewidth=0.8, ax=ax, edgecolor=’0.8')

这就是我们想要的，地图已经准备好了！但是需要一些美化和定制。

# remove the axis
ax.axis(‘off’)# add a title
ax.set_title(‘Population of Rajasthan’, fontdict={‘fontsize’: ‘25’, ‘fontweight’ : ‘3’})# create an annotation for the data source
ax.annotate(‘Source: Rajasthan Datastore, 2019’,xy=(0.1, .08), xycoords=’figure fraction’, horizontalalignment=’left’, verticalalignment=’top’, fontsize=12, color=’#555555')

颜色条是地图中必不可少的东西，它告诉我们要寻找的参数，让我们为我们的地图定制它。

# Create colorbar as a legend
sm = plt.cm.ScalarMappable(cmap=’BuGn’, norm=plt.Normalize(vmin=vmin, vmax=vmax))# empty array for the data range
sm._A = []# add the colorbar to the figure
cbar = fig.colorbar(sm)#saving our map as .png file.
fig.savefig(‘map_export.png’, dpi=300)

您可能已经知道为什么使用 Geopandas 进行制图更好了。它有一个非常紧凑和简单的代码，并给出了一个很好的期望输出。通过这种方法，我们可以绘制任何地区的任何类型的数据。

关于 th e 的确切代码，请参考我的 GITHUB 。

使用底图制图

Matplotlib 底图工具包是一个用于在 Python 中的地图上绘制 2D 数据的库。底图本身不进行任何绘图，但提供了将坐标转换为 25 种不同地图投影之一的工具。 Matplotlib 用于在转换后的坐标中绘制轮廓、图像、矢量、线或点。提供了海岸线、河流和政治边界数据集，以及绘制它们的方法。

在本节中，您将了解如何通过底图工具包在地图上绘制数据。

让我们通过底图工具包来查看地图可视化。

安装

conda install basemap
conda install basemap-data-hires

导入库

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.basemap import Basemap
import geopandas as gpd
import pandas as pd

注意:如果在导入底图库时遇到任何困难或错误(PROJ_LIB ),您可以直接设置其路径，以便在导入底图之前导入并运行它。

#to import the basemap library give the direct path to the libraryimport os
os.environ["PROJ_LIB"]="C:\\Users\\Anaconda3\\Library\\share"

让我们从 csv 和 shapefile 中获取感兴趣的数据。以下是下载所需 csv 文件的链接 点击此处 和所需 shapefile】点击此处

city=gpd.read_file("F:\\District_Boundary.shp")
csv=pd.read_csv("\\latlong_raj.csv")

我们从加载数据开始。Lat-long 是从一个单独的 csv 中导入的，其他数据如地区名称及其人口来自。在前面部分下载的 shp 文件。

lat=csv['LAT'].values
lon=csv['LONG'].values
population = city['POPULATION'].values
dist=city['DIST_NAME'].values

这些数据已经被保存为一个 numpy 数组，你可以通过[ type(lat)] 来检查它。

接下来，我们设置地图投影，散布数据，然后创建一个颜色栏

fig = plt.figure(figsize=(8, 8))
m = Basemap(projection='lcc', resolution='h', 
            lat_0=27.0238, lon_0=74.2179,
            width=1.05E6, height=1.2E6)
m.shadedrelief()

我们的地图背景现在已经准备好了，可以在上面绘制数据。印度拉贾斯坦邦的 lat-long 已经用“lcc”投影设置了一定的缩放量，以便只聚焦特定的状态。

我们来给它添加一些细节，划分一下界限。

m.drawcoastlines(color='blue',linewidth=3)
m.drawcountries(color='gray',linewidth=3)
m.drawstates(color='gray')

现在是时候在地图投影上散布数据并设置颜色条了。

# scatter city data, with c reflecting population
m.scatter(lon,lat, latlon=True,
          c=population,s=700,
          cmap='YlGnBu_r', alpha=0.5)#create colorbar 
plt.colorbar(label=r'Population')
plt.clim(300000, 4000000)

看起来是不是少了点什么？是啊！当然，区名。我们无法通过这种投影来识别地区。

让我们把它们画出来。

我们在上面的变量中存储了地区名称及其经度，但是我们将数据存储为 numpy 数组，所以我们需要将它们存储在列表或字典中。

dict1={}
list1=[]
list2=[]
list3=[]
n=0#storing each value in different lists
for z in lat:
    list1.append(z)
for c in lon:
    list2.append(c)
for b in dist:
    list3.append(b)#storing the values of lat long in a dictionary with lat as keys and long as values    
while(n<len(list1)):
    dict1[list1[n]]=list2[n]
    n+=1

现在，lat-long 已被存储到字典(dict1)和区名列表(list3)中。让我们用它们来命名区域。

i=0# Map (long, lat) to (x, y) for plotting
#naming the cities of Rajasthan with the help of their lat(z)long(c)for z,c in dict1.items():
    x,y = m(c, z)
    plt.plot(x, y, 'ok', markersize=5)
    plt.text(x, y,list3[i], fontsize=10);
    i+=1

参考我的GITHUB获取 th e 确切代码。

这就是了。感谢您的阅读。

有关 Geopandas、Basemap 的更多信息，或者您想了解 Python、ML、DL、AI、IoT 等行业趋势技术，请联系 Forsk Technologies。

使用线程在 C 中从头开始使用 MapReduce:Map

原文：https://towardsdatascience.com/mapreduce-in-c-from-scratch-using-threads-map-c6b1b01f020c?source=collection_archive---------17-----------------------

Source: Pixabay

Hadoop 的 MapReduce 不仅仅是一个框架，还是一种解决问题的哲学。

借鉴函数式编程，MapReduce 团队意识到很多不同的问题可以分成两种常见的操作: map ，和 reduce 。

映射和缩减步骤都可以并行完成。

这意味着只要你能以那种特定的方式框定你的问题，就会有一个解决方案，它可以很容易地并行运行。这通常会大大提升性能。

这听起来不错，并行运行通常是一件好事，尤其是在大规模工作时。但是，坐在后面的一些人可能会想，什么是地图和减少？

什么是 MapReduce？

为了理解 MapReduce 框架，我们需要了解它的两个基本操作: Map 和 Reduce 。

它们都是高阶函数:也就是说，它们是可以把其他函数作为自变量的函数。

具体来说，当您需要将 A 类型的某个元素序列转换为 B 类型的一个结果或一系列结果时，您将:

将你所有的输入映射到不同的域:这意味着你将用一个选择的函数来转换它们，并应用到每个元素。
根据某种标准对映射的元素进行分组，通常是一个分组关键字。
用其他函数减少每个组上的映射元素。这个函数需要两个参数并返回一个相同类型的参数，连续运行一个累加器和集合中每个值之间的运算。它应该是交换和关联，因为并行执行不会保证操作的任何顺序。

为了更清楚地说明这一点，让我们看一个例子。

MapReduce 解决方案示例

假设你在一家电子商务公司工作，他们给你一个如下形式的日志文件:

John Surname bought 2 apples 
Alice Challice bought 3 bananas 
John Surname bought 5 pineapples

然后他们让你告诉他们每个顾客买了多少水果。

在这种情况下，在解析该文件并将其转换为实际格式(如 CSV)后，您可以轻松地遍历每一行，并在字典上的每个名称下添加购买的水果的数量。

你甚至可以用一点 Bash 脚本来解决它，或者将 CSV 加载到熊猫数据帧上并获得一些统计数据。

然而，如果日志文件有一万亿行长，bash 脚本并不能真正减少它。尤其是如果你不是永生的。

您需要并行运行这个。让我提出一个 MapReduce-y 的方法:

通过解析每个字符串，将每一行映射成一对形式为<的名称、数量>。
按名称分组。
通过对数量求和来减少。

如果您熟悉 SQL 和关系数据库，您可能会想到类似的解决方案。该查询类似于

select user, sum(bought_fruits)
from fruit_transactions group by user;

为什么 MapReduce 缩放

注意映射器不需要看到整个文件，只需要看到一些行。另一方面，减速器，只需要具有相同名称的线(属于同一组的线)。

你可以在同一台计算机上用许多不同的线程来做这件事，然后把结果连接起来。

或者，您可以让许多不同的进程运行地图作业，并将它们的输出提供给另一个运行归约作业的集合。

如果日志足够大，您甚至可以在许多不同的计算机上运行 Mapper 和 Reducer 进程(比如说，在一个集群上)，然后最终在某个湖中加入它们的结果。

这种解决方案在 ETL 作业和其他数据密集型应用程序中非常常见，但我不会深入研究应用程序。

如果你想了解更多关于这种可扩展解决方案的知识，我建议你去看看这本关于大规模设计应用的 O'Reilly 书籍。

用 C 语言编程 MapReduce

现在你已经了解了什么是 MapReduce，以及为什么 MapReduce 会扩展，让我们开门见山吧。

对于这第一篇文章，我们将编写两个不同的实现 Map 函数的程序。

其中一个将是单线程，介绍几个概念并展示一个简单的解决方案。另一个将使用 pthread 库来制作一个真正的多线程，和快得多的版本的 Map 。最后，我们将对二者进行比较，并运行一些基准测试。

像往常一样，所有的代码都可以在这个 C GitHub 项目上获得。

Map 在 C 中的单线程实现

首先，我们先记住地图是做什么的。

Map 函数接收一个 序列 和一个 函数 ，并返回 将该函数应用于序列中每个元素 的结果。

因为这是 C 语言，表示一个序列可以非常直接:我们可以使用一个指针指向我们映射的任何类型！

然而，有一个问题。C 是静态类型的，我们希望我们的 Map 函数尽可能的通用。我们希望它能够映射任何类型的元素序列(假设它们都共享一个类型)。我们不要在这里失去理智，孩子们。

我们如何解决这个问题？这个问题可能有几种不同的解决方案。我选择了看起来最简单的一个，但也可以随意加入其他想法。

我们将使用void*的序列，并将所有东西都转换成这种类型。这意味着每个元素都将被表示为一个指向随机内存地址的指针，而无需指定类型(或大小)。

我们将相信我们在所有这些序列元素上调用的任何函数都知道如何在使用它们之前将它们转换为正确的类型。我们有效地将那个问题委托出去了。

我们需要解决的一个小问题是序列长度。指向 void 的指针不携带序列有多少元素的信息。它只知道从哪里开始，不知道从哪里结束。

我们将通过传递序列长度作为第二个参数来解决这个问题。知道了这一点，我们的 Map 函数变得非常简单。

您可以看到，该函数接收一个void**来表示它将映射的序列，以及一个void* (*f)(void*)函数，该函数将某种泛型类型的元素转换为另一种(或相同的)元素。

之后，我们可以在任何序列上使用我们的映射函数。我们只需要事先做一些笨拙的包装和指针运算。

这里有一个例子，使用一个函数，对于质数返回 1，对于其他的返回 0。

正如所料，结果指针指向一个整数序列:1 对应于质数，0 对应于合数。

现在我们已经完成了单线程 Map 函数，让我们看看如何在 c 语言中并行运行这个函数。

C 语言中的多线程映射函数

(如果您想使用流程和分叉添加一个基准，请随时提出拉取请求！)

为了在 C 语言中使用并行执行，我们可以求助于进程或线程。

对于这个项目，我们将使用线程，因为它们更轻量级，在我看来，它们的 API 对于这类教程来说更直观一些。

如何在 C 语言中使用线程

C 中的 threads API 非常直观，即使一开始有点晦涩。

一个指向pthread_t的指针:实际的线程。
一个配置struct。在这种情况下，我们将使用NULL作为默认配置。
我们希望线程运行的函数。与进程不同，线程只会运行一个函数，直到它返回，而不是继续执行任意代码。这个函数必须接受一个void*参数，并返回另一个void*值。
前述函数的输入。必须投给void*。

要使用它们，我们必须使用#include <pthread.h>。手册页很好地解释了他们的界面。然而，对于本教程，我们将使用的是pthread_create函数。

pthread_create需要四个参数:

在调用pthread_create之后，一个并行执行线程将开始运行给定的函数。

一旦我们为我们希望映射的每个块调用了pthread_create，我们将不得不对它们中的每一个调用pthread_join，这使得父(原始)线程等待直到它旋转的所有线程完成运行。

否则，程序会在映射完成之前结束。

现在，让我们尽情欣赏一些代码。

在 C 语言中使用 pthread 实现并行 MapReduce

为了用 C 语言编写 MapReduce 的 Map 函数，我们要做的第一件事是定义一个struct来存储它的通用输入和输出，以及我们将要映射的函数。

由于并行执行需要某种方式的切片和分区，我们也将把那个逻辑存储在这个结构中，使用两个不同的索引作为我们切片的开始和结束。

接下来，我们将编写实际执行映射的函数:它将从start到end循环输入，将映射函数应用于每个输入的结果存储在输出指针中。

最后，节目的主角，启动线程的函数，给每个线程分配一个map_argument,等待所有的地图作业运行，最后返回结果。

注意这个函数如何允许我们选择我们想要多少线程，并相应地对数据进行分区。它还处理 pthreads 的创建和加入。

最后，我们在 main 中调用该函数的方式如下所示:

concurrent_map( (void**) numbers, twice, N, NTHREADS)

其中NTHREADS是我们想要的线程数，N是numbers拥有的元素数。

现在代码完成了，让我们运行一些基准测试！这真的会更快吗？所有这些包装代码会使事情变得更慢吗？让我们来了解一下！

C 语言中的映射，基准:单线程与多线程

为了衡量使用并行 Map 带来的性能提升，我测试了一些单线程算法与多线程算法的对比。

第一个基准:slow_twice

对于我的第一个测试，我使用了 slow_twice 函数，它只是将每个数字乘以 2。

你可能会奇怪，“为什么叫慢？”。答案很简单:我们将每个数字翻倍 1000 次。

这使得操作更慢，所以我们可以测量时差，而不必使用太多的数字，初始化需要太长时间。它还让我们对许多内存写入的情况进行基准测试。

因为每个数字的执行时间是恒定的，所以非并行算法的时间随着输入大小几乎成线性增长。

然后我用 2、4 和 8 个线程运行它。我的笔记本电脑有 4 个内核，我发现这也是使用线程的最佳数量。对于其他一些算法，我发现使用我的核心数量的倍数是最佳的，但事实并非如此。

基准测试结果

我将每个基准测试运行 10 次，取平均值，以防万一。

结果如下:

对于这两个测试案例，使用 4 个线程比单线程实现大约快三倍。这证明了使用并行 Map 比使用普通单线程版本要快得多。

添加 4 个以上的线程也是有代价的，可能是由于初始化和上下文切换的开销。

第二个基准:is_prime

对于这个基准测试，我编写了一个朴素的质数测试函数:它简单地遍历所有小于输入的数，如果任何数被整除，则返回 1，否则返回 0。

注意，这个函数对每个元素取 O(n ),而不是 O(1 ),所以数据的一些分区(有序的)会比其他的慢很多。我想知道这会如何影响运行时间？

在这种情况下，并行算法再次击败了单线程算法。没有什么大的意外。然而，这一次当使用超过 4 个线程时有了一个改进！

我认为这是因为在对我们的输入进行分区时，将它分成更小的块会使最慢的分区花费更少的时间，从而使我们的瓶颈变小。

结论

我从这个实验中获得了很多乐趣。

挑选多少线程使用比仅仅“使用相同数量的内核”要困难得多，而且很大程度上依赖于我们的输入，即使是非常愚蠢的算法。

这可能有助于我们理解为什么优化集群的配置对于一个大型应用程序来说是一项如此艰巨的任务。

将来，我可能会添加一个并行的 reduce 实现来完成这个小框架。

其他一些可能会很有趣并且我可能会在未来运行的基准测试是 C 语言中的MapvsPython 列表理解，以及 C 语言 vs SIMD 汇编。

如果你想提升数据科学家的水平，可以看看我的 最佳机器学习书籍 清单和我的 迎头痛击教程 。

记住，你可以以任何你喜欢的方式使用这段代码，或者运行你自己的实验，如果你这样做了，请不要忘记在评论中让我知道你的结果！

如果你想对我说什么或问什么，请随时在 Twitter 、 Medium 或 dev.to 上联系我！

原载于 2019 年 10 月 19 日http://www . data stuff . tech。

马拉松围兜识别和认可

原文：https://towardsdatascience.com/marathon-bib-identification-and-recognition-25ee7e08d118?source=collection_archive---------6-----------------------

使用深度学习和图像处理来识别马拉松围兜上的数字。

Me after finishing the Mumbai Marathon 2019, and, of course, the bib number recognition (using AWS Rekognition API)

开始

我最近参加了一场马拉松。几天后，我收到了一封电子邮件，里面有一个链接，我可以在那里查看并下载我的比赛日照片。我需要把我的号码放在网页上，它就会调出所有我的照片。这让我思考这是如何成为可能的！

对于那些不熟悉跑步项目的人来说，围兜是一张贴有电子标签的纸。这个标签用来记录运动员在马拉松过程中的准确时间。围兜也有一个独特的围兜号码，用大字体印刷，还有跑步者的名字和其他一些文字。(见照片供参考)

我开始思考标记照片的可能方法。一个显而易见的方法是手动标记——有一组人看着照片，阅读围嘴号码，并用这些围嘴号码标记照片。这是一项繁琐的任务，假设每场马拉松会有超过 5000 张照片。另一种方法是使用计算机视觉。

计算机视觉

我的理念是，任何需要人类看着一幅图像，然后以一种近乎机械的方式跟着它做动作的任务，都可以而且应该用计算机视觉来实现自动化。我们拥有最先进的算法来解决这个问题，并拥有强大的计算能力来实现这些解决方案。为什么不利用它呢？这个项目就是这样开始的。

我开始探索不同的计算机视觉技术，这些技术可以用来给照片贴上号码标签。我将简要描述我能想到的每一种方法:

EAST text detector+tessera CT text recognition:想法是首先检测图像中的文本区域，然后识别文本以识别 bib 号码。我使用 EAST 文本检测器模型来识别图像中带有文本的区域，然后将这些区域传递给 Tesseract 模型来识别文本。
优点:实施简单快捷。
缺点:不太准确，会检测到照片中的大量其他文本。
图像处理使用 OpenCV 识别围脖区域，然后进一步处理围脖区域提取数字。提取的数字可以传递给预先训练的 ML 模型以识别号码。
优点:对计算能力要求不高。
缺点:很难概括不同的围兜设计
分割使用深度学习模型，如 MaskRCNN，从图像中分割出 bib。在 bib 上应用图像处理来提取数字。将提取的数字传递给预先训练的 CNN 网络以识别数字。
优点:分割围脖和识别数字的准确性高。
缺点:功耗大，因此速度较慢，难以针对不同的围兜设计推广图像处理方法
物体检测使用深度学习模型直接识别 bib 号码区域而不是整个 bib。与以前的方法相比，这可以为我们节省许多图像处理步骤。应用图像处理来提取数字，并将它们传递给预先训练的 CNN 网络来识别它们。
优点:与前面的方法类似，深度学习模型可以非常准确。
缺点:计算要求高
人脸识别:这种方法在识别照片中的跑步者方面具有很大的优势，即使围兜被遮挡，这种情况确实经常发生。有多种方法来实现面部识别，我不会进入它的细节，因为它本身可以是一本书。我会马上提到我能想到的几种方法。一种方法是根据注册时提供的身份证照片匹配人脸(可能使用暹罗网络和三联丢失)。另一种方式可以是上述两种方法的混合。我们可以基于人脸识别将每个跑步者的照片聚集在一起，然后尝试从其中一张照片上读取围兜号码，在那里围兜清晰可见。
来自谷歌(Vision)、AWS (Rekognition)或微软 Azure 的基于云的 API:使用这些 API 来检测和识别图像中的文本，然后过滤掉 bib 号码(可能使用所有 bib 号码的数据库)。

项目

首先，我尝试了第一种方法，以了解一个经过一般训练的模型将如何处理这个问题。不出所料，它的表现不是很好。无法保证正确识别 bib 编号，而且在图像中检测到大量假阳性文本。我将在以后的文章中写更多关于它的内容。后来，我开始尝试(第三)种方法，包括使用实例分段。这是这个项目的核心。

当我第一次着手解决这个问题时，它似乎不是一个大任务。只有当我深入到这个项目中，细微之处开始浮出水面时，我才意识到这个问题是多么具有挑战性。只是给你一个想法，唯一可能的方法，我可以得到正确阅读的照片上的数字在顶部是使用 AWS Rekognition API。虽然对人类来说阅读这个围嘴可能很容易，但训练计算机阅读这个数字就没那么简单了。我用自定义图像处理管道得到的最好结果是“1044”而不是“21044”。这是有原因的，比如为不同的围兜设计和配色方案创造一个通用的启发。我将在以后的博客中讨论。

我提出的解决方案可能还不是最好的。我意识到对解决方案的改进是无止境的。这个解决方案的端到端执行是本系列文章的主题。我选择这个项目的主要原因是尝试构建计算机视觉项目的各个方面——收集数据集、注释图像、实现用于分割的深度学习模型、图像处理、创建用于 OCR 的 CNN 模型、为给定的数据集定制训练、将这些不同的部分缝合在一起等。

我会把上面提到的每一个部分都写出来，并分享代码。您可以自由地获取代码并进行改进，或者将其用于您自己的应用程序。从这个项目中学到了很多，我希望社区能从中受益。

请随时留下任何建议/评论/批评。我会尽可能快。

这是这个系列的下一部分:

[## 创建数据集—使用 Selenium 和 BeautifulSoup 抓取马拉松图片

创建用于围兜识别的马拉松图像数据集(第 1 部分)

medium.com](https://medium.com/@kapilvarshney/gathering-data-scraping-marathon-images-using-selenium-and-beautifulsoup-fe52d9cc9023)

三月版:理解如此多的数据

原文：https://towardsdatascience.com/march-edition-making-sense-of-so-much-data-a3adb3f77c24?source=collection_archive---------26-----------------------

8 篇必读文章

What are the most pressing problems in data science? Take our survey

在 21 世纪，我们有幸在计算、存储和数据方面取得了快速进步。数据可能是新的石油，但如果没有正确的工具、方法和基础设施，它就像坐在油井上无所事事一样毫无用处。随着越来越多的企业试图从其海量数据存储中获取丰富的信息，大数据不再被大肆宣传，而是一种必需品。机器学习和深度学习模型变得越来越好，越来越快，产出比以前更多，当时它们只是在小型玩具数据集的研究论文中展示。

机器学习与云计算相结合可以成为您组织的主力，帮助您解决现实世界的问题，而不必担心购买、设置和维护基础架构。除此之外，它对于利用大规模集群上的深度学习在 GPU 上进行数字运算非常方便。

随着包括 Auto-ML 和元学习在内的机器学习领域的快速发展，我强烈认为，要构建挖掘机器学习最大潜力的端到端项目，数据科学家应该建立一套多样化的技能，不仅要构建模型，还要能够处理大规模数据集，扩展他们的解决方案，还要关注他们的解决方案最终如何在现实世界中部署和使用的端到端工程方面。我希望我们收集的这些不同的文章能让你对这些方面有所了解。

— 迪潘然(DJ)萨卡尔，TDS 编辑

从 0 到百万用户的规模机器学习

由朱利安·西蒙 — 11 分钟读完

我认为大多数机器学习(ML)模型都是在白板或餐巾纸上构思出来的，诞生于笔记本电脑上。当这些羽翼未丰的生物开始咿咿呀呀地说出它们的第一个预言时，我们充满了自豪，并对它们未来的能力寄予厚望。

如何使用 Dask 数据帧在 Python 中运行并行数据分析

由卢西亚诺·斯特里卡 — 5 分钟阅读

有时候，你打开一个包含 Python 熊猫的大型数据集，试图获取一些指标，整个事情就僵住了。

为什么以及如何使用大数据熊猫

由阿德蒙德·李 — 5 分钟阅读

在现实世界中，数据不可避免地是杂乱的。在清理、转换、操作和分析数据方面，Pandas 是真正的游戏规则改变者。简单来说，熊猫帮着收拾残局。

利用深度学习的最新进展预测股价走势

通过鲍里斯 B — 34 分钟读取

在这本笔记本中，我将创建一个预测股票价格变动的完整过程。坚持下去，我们会取得一些不错的成果。为此，我们将使用一种生成式对抗网络(GAN ),其中 LSTM 是一种递归神经网络，作为生成器，而卷积神经网络 CNN 作为鉴别器。

学习足够有用的 Docker

由杰夫·黑尔 — 7 分钟读完

容器对于提高软件开发和数据科学中的安全性、可再现性和可伸缩性非常有帮助。它们的崛起是当今科技领域最重要的趋势之一。

创业公司数据科学项目流程

通过 Shay Palachy — 20 分钟阅读

最近，我正在咨询的一家初创公司( BigPanda )要求我就数据科学项目的结构和流程发表意见，这让我思考是什么让它们独一无二。

让你的神经网络说“我不知道”——使用 Pyro 和 PyTorch 的贝叶斯神经网络

由 Paras Chopra — 17 分钟阅读

构建图像分类器已经成为新的“hello world”。还记得你第一次遇到 Python 的那一天，你的打印“hello world”感觉很神奇吗？

不，机器学习不仅仅是美化了的统计学

由乔·戴维森 — 10 分钟阅读

机器学习真的没什么好兴奋的，或者它只是古老的统计技术的修正，这种观点越来越普遍；问题是这不是真的。

我们也感谢最近加入我们的所有伟大的新作家，尤金·西多林，埃申·乔利，约翰·科，保罗·穆尼，兰迪·奥，普拉奇·贾恩，格雷格·萨默维尔，贾维尔·伊达米，亚历克斯·克鲁格，萨姆路易斯·加文，特恩·波林，吉勒斯·范德维尔，柳文欢·拉松，弗洛里安·林德斯塔德以及许多其他人。我们邀请你看看他们的简介，看看他们的工作。

三月疯狂-分析视频以检测球员、球队和尝试投篮的人

原文：https://towardsdatascience.com/march-madness-analyze-video-to-detect-players-teams-and-who-attempted-the-basket-8cad67745b88?source=collection_archive---------5-----------------------

用数据做很酷的事情！

介绍

这是三月疯狂月！这是一个多么激动人心的赛季。作为数据科学家，让我们利用这个机会对篮球片段做一些分析。通过使用深度学习和 opencv，我们可以从视频剪辑中提取有趣的见解。见下面的例子 gif 的游戏 b/w UCF 和杜克大学，我们可以确定所有的球员+裁判，标签球员到球队的球衣颜色为基础。在博客的后面，我将展示我们如何识别哪个球员试图投篮。所有这些都可以实时完成。

Detecting players and teams

你可以在我的 Github repo 上找到代码

那我们开始吧。

检测玩家

我已经使用了一个预训练的检测模型，如更快的 RCNN 来检测球员。很容易从 Tensorflow 对象检测 API 下载一个在 COCO 数据集上训练的更快的 RCNN 并测试它。API 将图像的每一帧作为输入，并在 80 个不同的类别中进行检测。如果你是 Tensorflow 对象检测的新手，想了解更多，请查看这个博客。该模型在检测人方面做得相当好，但是由于人群中有大量的人，所以在该视频中有许多检测。参见下面的样品检测。我抑制了太大的检测，以更干净地分割出球员。您还可以在 API 中使用分数阈值来过滤掉低可信度检测。查看 Github 上的代码，了解如何抑制分数低和多次错误检测的盒子的提示。

Detection output from Pretrained Tensorflow model

探测队

现在有趣的部分来了。我们如何检测哪些球员是 UCF 对杜克大学？我们可以使用 OpenCV 来做到这一点。

如果您不熟悉 OpenCV，请参阅下面的教程:

OpenCV 教程

OpenCV 允许我们识别特定颜色的面具，我们可以用它来识别白人和黑人球员。主要步骤是:

将图像从 BGR 转换到 HSV 色彩空间。
在 HSV 空间中，指定白色和黑色的颜色范围。这需要一点实验，你可以在笔记本中想象不同阈值的影响。
使用 OpenCV 遮蔽(着色)阈值范围内的像素。
OpenCV Bitwise_and 将不在蒙版中的任何像素涂成黑色

白色请参见下面的输出。它们被伪装成“粉红色”,背景中的其他东西都是黑色的

Detecting white colour pixels

为了识别每个玩家的团队，我们从 tensorflow 对象检测中提取边界框，并计算边界框中非黑色像素的百分比，以确定该玩家的团队。

整体代码工作得很好。然而，这是一个识别黑白球衣球员的硬编码逻辑。通过使用聚类来查找相似的玩家，可以使其更通用

检测姿势和拍摄者

OpenPose 是一个实时多人姿势检测库。它可以检测图像中的人，并输出每个人的主要关节的关键点——每个人最多可以有 25 个关键点。代码是开源的。你必须按照自述文件中的建议安装这里。安装后，你可以通过它运行图像，并获得场景中所有球员的关键点，如下所示。

Open pose output

那么我们如何识别试图投篮的球员呢？

我们可以寻找手腕关键点在头顶的玩家。意味着举起双手。这可能表明像上面的场景一样准备射击，或者可能是防御性的。此外，球的坐标以及手腕关键点的坐标可用于识别哪个玩家举手将球靠近他们。

结论

深度学习通过链接不同的想法，使得进行真正酷的分析成为可能。有许多开源代码和预训练的模型，您可以使用这些数据开始学习。以上只是起点。其他可以做的很酷的事情包括:

使用 OCR 读取比赛分数，让您的系统了解哪个队赢了
跟踪球以预测何时射门得分
跟踪玩家以获得每个玩家的统计数据
检测事件，如灌篮，三分篮球等。

希望你拉代码自己试试。

我有自己的深度学习咨询公司，喜欢研究有趣的问题。我已经帮助许多初创公司部署了基于人工智能的创新解决方案。请到 http://deeplearninganalytics.org/的来看看我们吧。

你也可以在https://medium.com/@priya.dwivedi看到我的其他作品

如果你有一个我们可以合作的项目，请通过我的网站或 info@deeplearninganalytics.org 联系我

参考文献

Tensorflow 对象检测 API
关于使用 OpenCV 检测颜色的好教程

马里奥对瓦里奥——第二轮:CNN 在 PyTorch 和 Google Colab

原文：https://towardsdatascience.com/mario-vs-wario-round-2-cnns-in-pytorch-and-google-colab-48b968cf4ace?source=collection_archive---------9-----------------------

在 PyTorch 中快速构建卷积神经网络对视频游戏截图进行分类

很长一段时间我都在玩 Google Colab(是的，免费访问 GPU…)。我认为这是一个非常棒的倡议，它使个人电脑上没有 GPU 的人能够玩深度学习和训练模型，否则他们将无法训练。基本上，我们有 12 个小时的时间来玩，然后虚拟机就死了。但是，我们当然可以开始一个新的会议，并且有办法继续以前会议的工作。

在这篇文章中，我想介绍我之前的作品的延伸。然而这一次，我将使用 PyTorch 构建一个 CNN，并在 Google Colab 上对其进行训练。最终，我希望取得比以前更好的成绩！开始吧:)

1。建立谷歌实验室

Medium 上已经有一些关于如何开始使用 Google Colab、如何启用 GPU 等的好文章。我想展示几个有用的命令来检查我们实际上在做什么样的硬件/软件:

我们看到我们正在开发 Tesla K80，并且已经安装了 Cuda 9.2。这样事情就简单多了！

找到如何有效处理存储在 Google Drive 上的大型数据集并不容易。许多课程和帖子使用 PyTorch 或其他库中的内置数据集。但是一开始，我发现使用我自己的一组图像有点棘手。所以我做了以下事情:

将数据集(带有训练/测试文件夹的压缩文件)上传到 Google Drive。

这可以通过驱动程序 UI 轻松完成。最初的目录树如下所示:

mario_vs_wario/
    training_set/
        mario/
            mario_1.jpg
            mario_2.jpg
            ...
        wario/
            wario_1.jpg
            wario_2.jpg
            ...
    test_set/
        mario/
            mario_1.jpg
            mario_2.jpg
            ...
        wario/
            wario_1.jpg
            wario_2.jpg
            ...

安装 Google Drive

使用 Colab 时，重要的是将文件存储在 Colab 目录中，而不是安装在 Google Drive 上。下面的单元格包含连接到 Google Drive 并安装该驱动器的代码，这样我们就可以访问存储在那里的所有文件。然而，用从 Google Drive 加载的数据训练神经网络(即使启用了 GPU)在大多数情况下会比在 CPU 上本地训练它慢得多。这是由于在 Colab 和 Drive 目录之间复制所有数据，这非常慢。

将 zip 文件从我的 Google Drive(通过可共享的链接)移动到在 Colab 环境中创建的目录中，然后解压缩。

为了解决上述问题，我分别压缩了训练集和测试集，并通过使用gdown和 Google Drive 的链接(当您在 Drive 的 UI 中单击 download shareable link)下载文件。然后，我将包含图像的文件夹解压到指定的目录。在最后一步，我删除了一个剩余的目录。

2.加载数据

在这一部分，我加载并预处理数据(图像)。我将一步一步地描述这个过程:

首先，我定义了一些参数和我想在图像上执行的转换(调整到 128x128，转换成张量和归一化)。这也是我可以进行图像放大(随机裁剪，剪切，旋转等)的步骤。).然而，由于这个特殊的问题是关于视频游戏图像的分类，我认为应用这些转换没有意义，因为图像将不再类似于原始截图。但是，如果您正在构建一个猫/狗分类器，并且没有真正大的数据集(即使您有)，这将是应用转换的地方。
我为训练/测试数据指定目录，并应用所选择的转换。
我从训练集中随机选择了一个索引子集来使用它们进行验证。我还创建了从给定索引(不是整个数据集)中采样图像的SubsetRandomSampler。
我通过组合数据集和采样器来创建DataLoader。在 GPU 上训练的情况下，我使用pin_memory = True(推荐设置)。对于test_loader,我也混洗数据集，否则，它将首先从一个类中取出所有观察值，然后从第二个类中取出所有观察值，而不进行任何混洗。在测试集的情况下，这实际上无关紧要。但是知道这个功能是很好的。

在下面的代码中，我检查了 10 张随机选择的图片。由于DataLoaders作为迭代器工作，我首先使用iter()，然后使用next()来获得随机选择的图像及其标签(来自第一批)。

3.CNN 架构

我提出了两种定义神经网络结构的方法。第一种方法是构建一个继承自nn.Module的类。第二个更类似于 Keras，我们创建了一系列的层。这里没有对错，完全看个人喜好。

在这两种方法中，我使用了相同的架构，所以在培训之前应该只使用一种。

3.1.课堂教学方法

我定义了一个继承自nn.Module的类，它与super().__init__()结合创建了一个跟踪神经网络架构的类，并提供了各种方法和属性。需要注意的是，该类必须继承自nn.Module。

该类必须包含两个方法:__init__和forward。

我会对每一个必需的方法做更多的解释:

__init__ -用于定义类的属性，并在初始化时填充指定的值。一个规则是总是调用super()方法来初始化父类。除此之外，我们可以定义所有的层，这些层具有一些要优化的参数(要调整的权重)。我们不需要定义激活函数，比如这里的relu，因为给定相同的输入，它们将总是返回相同的输出。定义的层的顺序并不重要，因为这些纯粹是定义，而不是指定层如何连接的架构。
forward -在这种方法中，我们定义了层之间的连接。我们指定它们连接的顺序，并最终返回网络的输出。另外，变量不一定要被称为x，重要的是它以正确的顺序通过各层。

3.2.顺序方法

对于那些使用过 Keras 的人来说,Sequential方法可能很熟悉。我创建了一个OrderedDict,按照执行的顺序指定了每一层。使用OrderedDict的原因是我可以给这些层起一个有意义的名字。如果不这样做，它们的名字将是整数。

开始时，我定义了一个Flatten类，它基本上将矩阵重新整形为一个长向量，就像 CNN 通常做的那样。OrderedDict放在nn.Sequential中，它定义了我们的模型。

4.损失函数和优化器

第一步是将模型转移到 Cuda，以防它将在 GPU 上训练。然后，我将二进制分类问题的损失函数和优化器指定为学习率为 0.01 的随机梯度下降。

5.训练网络

网上已经有很多关于训练神经网络所需步骤的资料。我将只概述这些步骤:

正向通过网络(如forward()方法中所述)
根据网络输出计算损耗
用loss.backward()反向通过网络计算梯度
通过使用优化器来更新权重

还有其他一些事情值得一提:

optimizer.zero_grad() -当使用相同的参数进行多次反向传递时，梯度在累积。这就是为什么我们需要在每次向前传递时将梯度归零。
训练时，我们可能会使用辍学来防止过度适应。然而，对于预测/验证，我们想要使用整个网络，因此我们需要通过使用model.eval()将丢失概率更改为 0(关闭它)。要返回训练模式，我们使用model.train()。
torch.no_grad() -关闭验证渐变，节省内存和计算

为了有一个可重用的框架来训练 CNN，我将逻辑封装在一个函数中。我假设网络将在训练和验证损失的情况下被训练。当然，它可以进一步参数化，只有当参数不是None时，才可以考虑验证集。不过对于这款笔记本的情况来说，相信这已经足够了。

那么训练模型就归结为:

我检查了显示培训/估价损失随时代演变的图表。我们的目标不仅是减少培训损失，也是减少验证损失。如果训练损失继续减少，而验证损失增加，我们将观察到过度拟合-模型将不能很好地概括训练期间没有看到的数据。在这种情况下，我们看到模型的损失在第 7 个历元之后(或者更早，取决于偏好)没有显著减少。

鉴于此，我将从第 7 纪元开始加载模型。通过保存所有的中间模型，我能够看到测试集的性能会是什么样子(以防万一，我想比较)。

6.评估测试集的结果

在这一部分，我在测试集上评估网络的结果，即网络在训练期间没有见过的那个。我编写了一个与验证脚本类似的脚本，不同之处在于我存储的用于评估的指标数量。

准确率 99%，甜！让我们来看一些更详细的统计数据:

99.2%的召回率——这意味着从数据集中的所有 Wario 截图来看，该模型正确预测了其中的 99.2%。
99.3%的精确度——这意味着在所有的 Wario 预测中，99.3%实际上都是 Wario。
99.25%的 F1 分数—没有明确的解释，因为 F1 分数是精确度和召回率的加权平均值。在类分布不均匀的情况下，F1 比精度更有用。就像在这种情况下，测试集中有相同数量的 Mario/Wario 类，准确度= F1 分数。

总的来说，该网络在图像分类方面做得非常出色。2000 张照片中只有 15 张分类错误。为了获得更多的洞察力，我们将在下面考察其中的一些。

我不得不说，网络在这些图片上遇到麻烦并不奇怪。有些明显是来自游戏的过渡帧(地图和关卡之间或者屏幕之间加载屏幕)。没有办法从中推断出正确的游戏。其余的是地图或来自 Wario(第三张图片)的特定屏幕。这些游戏的地图非常相似，就像从等轴视图中看到的角色一样。

我不得不说，我对这个网络的表现和 PyTorch 总体上非常满意。它提供了很多可能性，并且非常具有 pythonic 风格。要了解更多关于 PyTorch 的基础知识，我会推荐你去 Udacity 的免费“PyTorch 深度学习简介”MOOC，你可以在这里找到。

如果你对这篇文章有任何反馈，请在评论中告诉我。一如既往，整个笔记本可以在我的 GitHub repo 上找到。

马克·吐温曾写道…或者是爱伦坡？

原文：https://towardsdatascience.com/mark-twain-once-wrote-or-was-it-poe-47268538ecab?source=collection_archive---------26-----------------------

BiblioEater is all set to identify the writer

作者归属的 StanfordNLP 和 Keras

假设你追随某个作家，吞食了她/他的任何一部作品。如果给你提供一本全新的书，你检查几段就能认出作者的风格吗？

很可能你会。这篇文章的目的是探索一台机器完全做到这一点的可能性。我们将分析两位著名作家作品的一些文学特征，然后训练一个神经网络将新的文本分配给一位或另一位作家。

我们的工具将是刚刚推出的 StanfordNLP Python 包，我们最近写了一个简短介绍以及直观的深度学习 API Keras，在我们的例子中是 Tensorflow。我们将由此产生的模型戏称为食书者。

Edgar Allan Poe and Mark Twain

作者和他们的书

我们选出了两位十九世纪的著名作家。一边是非常有趣的马克·吐温，另一边是才华横溢的讲故事者埃德加·爱伦·坡。两个原因导致我们选择他们。我们需要足够老的作品进入公共领域。我们还希望两位作者使用大致相同的语言变体，在他们的例子中是美国英语。

请记住，StanfordNLP 包括能够处理 53 种不同人类语言的模型，因此您可以使用相同的方法将雨果与左拉或塞万提斯与奎维多进行比较。

我们将从一个稍微更具挑战性的角度来处理这个问题，而不是像机器学习中的规范那样，获取每个作者的一批文本，并在训练和验证桶中分割数据集。我们将用两本小说进行训练，用两本不同的作品进行验证。即:

亚瑟·戈登·皮姆的叙述将被用来训练埃德加·爱伦·坡式的读书人。
《汤姆·索亚历险记》将被用来为马克·吐温做同样的事情。
Eureka 将用于验证 Poe 模型。爱伦·坡主要写短篇小说，但我们选择了长篇小说，尽管不太长。
而哈克贝利·费恩历险记是吐温为了验证而选的作品。

这种方法有许多障碍:书籍的主题不同，作者可能随着时间的推移而演变，等等。

此外，在所选的吐温小说中，作者使用了当地方言。虽然这可能有助于对文本进行分类，但从解析的角度来看，这将是一个挑战。

另一方面,《尤利卡》不是一部虚构的作品，爱伦坡在写作的时候，他的个性可能已经跨越了天才和疯子之间的界限。

然而，我们打赌，每个作者的作品中都有某种文学特征。

环境

我们在一个 Ubuntu 盒子里用 Python 3.6 工作过。GitHub 中提供了用于生成本文中讨论的结果的完整代码(细节在底部)。

数据集足够小，可以在没有 GPU 的工作站上运行神经网络训练，尽管有一个 GPU 总是有帮助的。下载英文版的 StanfordNLP 模型可能是更耗时的任务。

Polishing the text — but not a lot!

文本准备

只要遵守许可条款，古腾堡计划就有数以千计的免费电子书——大多数情况下，你必须避免分发任何修改过的副本。我们用网络浏览器下载了上面提到的四篇文章。

之后，我们用标准的文本编辑器删除了不需要分析的文本部分。这使得我们无法按照古登堡计划的许可分发它们，所以如果你想运行代码，你需要直接从古登堡计划下载电子书。

我们还在吐温的两部作品中发现了许多弯曲的双引号和下划线。我们在文本编辑器中处理它们。对于我们的目的，这种级别的数据清理就足够了。然而，让我们记住，一流的数据准备+平均算法往往胜过平均数据清理+一流的算法。

从语法上分析

正如我们在上一篇文章中所解释的，我们将应用 StanfordNLP 模型来解析这些书中的每一个句子。这将为每个单词分配的词性和的特征。例如:

他拿起画笔，平静地开始工作

从汤姆·索亚，变成了

He (PRON - Case=Nom|Gender=Masc|Number=Sing|Person=3|PronType=Prs) took (VERB - Mood=Ind|Tense=Past|VerbForm=Fin) up (ADP - _) his (PRON - Gender=Masc|Number=Sing|Person=3|Poss=Yes|PronType=Prs) brush (NOUN - Number=Sing) and (CCONJ - _) went (VERB - Mood=Ind|Tense=Past|VerbForm=Fin) tranquilly (ADV - _) to (PART - _) work (VERB - VerbForm=Inf)

看看不同句子中语言的使用，我们期望捕捉到作者的部分写作风格。例如，这项研究的一个目标曾经写道:

当你抓住一个形容词时，杀死它。(马克·吐温)

所以你不会期望在他的文章中过度使用形容词。事实上，我们会看到坡在形容词的使用上超过了吐温——尽管不是很多。

一些文体特征

我们接受这样的假设，每个作家都有他/她自己的文学风格，这样的个人足迹应该是显而易见的，即使看一些粗糙的特征，就像下面的那些。有一门名为文体学的成熟学科专门研究这些现象。

句子长度

你喜欢简短直接的句子，还是喜欢制造复杂冗长的句子？(哦不，四个形容词，对不起马克！)在所附的图表中，很明显吐温比爱伦·坡更喜欢使用短句——这并不奇怪。

以这样或那样的方式，我们的作者属性算法应该捕捉这个特征，因为它看起来很有鉴别性。

词类的使用

在 StanfordNLP 的帮助下，我们为两本书的每个句子都指定了词类。作者中动词、形容词和名词的比例是多少？数据会有什么不同吗？

Usage of parts-of-speech in both works

Poe 倾向于更重视介词，如中的或到*，以及从属连词，如 if 或 while。这暗示了一种更复杂的风格。吐温的书比坡的书包括更多的标点符号，这与组成更短的句子是一致的。*

这个简单的分析没有显示出词性之间的顺序关系。正如我们将要展示的，这是一份适合阅读者的好工作。

其他功能

以上只是我们可以在两个文本中分析的特征的几个例子。鉴于 StanfordNLP 所提供的，我们可以看看作品的其他特点:

单词特征可用于建立动词的使用方式(哪种时态和模式是首选？)以及类似的名词(单数、复数)。
词汇的使用。例如，单词 vessel 在《亚瑟·戈登·皮姆》中出现了 96 次，而在《汤姆·索亚》中一次也没有出现。同样，吐温写了 156 次男孩，这个词没有出现在 Pym 中。这似乎是一个棘手的话题，因为词汇可能过多地与情节联系在一起，就像这里的情况，而不是与写作风格联系在一起。
我们甚至还没有触及 StanfordNLP 中的依赖解析器。它分析句子，识别主要术语或句法中心。那些词头(动词、名词等)的选择。)可能与每个作家的选择有关。

文本结构分类与作者归属

让我们直接进入分类。给定这些书中的一篇短文，找出它最可能的作者。

战略

有许多关于二进制或多标签文本分类的深入文章。这就是为什么我们在这里做一些稍微不同的事情。我们不是用实际的文本来训练我们的网络，而是只输入它的语法结构。

所以对于 BiblioEater 来说，这两句话看起来是一样的:

红狮子追逐瞪羚

我们年轻的研究员找到了解决办法

因为两者都符合 DET-ADJ-名词-动词-DET-名词的顺序。让我们记住，我们不会使用单词特征，例如限定词是被定义的冠词()还是所有格代词( Our )。

通过这样做，我们忽略了大量的信息，我们的模型可能会因为保留它们而变得更好。然而，这篇文章的目的是要表明，即使信息有限，我们也能捕捉到作者的部分风格。请继续阅读。

一键编码

如果我们是在处理文字，比如加利纳·奥莱尼克这里所解释的 word2vec 将是一个自然的选择。但是我们只处理 17 种不同的词性。因此，我们可以很容易地提供一个独热编码，将它们中的每一个表示为长度为 17 的向量，所有元素都设置为零，只有一个元素对应于语音的顺序位置。视觉上，

红狮子追赶瞪羚。(DET-ADJ-名词-动词-DET-名词-标点)

转换为

段落，而不是句子

在确定了我们将如何处理文本之后，我们现在来解决我们向模型提供多少文本以确定作者的问题。一次一个句子似乎太少了，因为两个作者产生相同句法结构的几率有时似乎很高。

我们决定输入 3 个连续的句子作为网络的输入。我们称之为一个段落，尽管从技术上来说，大部分时间它并不是一个段落。

Tom Sawyer 是两部作品中最长的一部，我们对所有生成的段落进行采样，因此 Tom 和 Pym 在训练过程中使用相同数量的段落来代表他们。

输出显然是二进制的:要么是 Poe，要么是 Twain 是作者。

Ready to eat books

阅读者——神经网络

在定义神经网络的拓扑结构时，你可以随心所欲地发挥创造力。但是考虑几件事情:

我们讨论的是输入层的几千个段落。不完全是大数据，是吗？我们必须小心，不要设计太重的网。
整个练习归结为一个简化的文本分类问题，就像 Yoon描述的用词性代替原始单词的问题。

因此，我们选择了相对简单的设计，甚至比 Yoon 论文中的设计还要简单:

BiblioEater topology

它由一系列基本的卷积层和最大池层对组成，最后由两个密集层组成，以获得二进制输出。你也可以找几个脱层作为防止过度合身的安全网。该代码保存了 BiblioEater 类中的所有细节。

驱动训练过程的各种参数，例如过滤器数量、步幅等。可以在代码中找到。它们被隔离为常量，以便于调整和比较结果。

当 StanfordNLP 使用 PyTorch 进行机器学习时，我们自然会选择 PyTorch 而不是 Keras。然而，我们用 Keras，因为它通常更容易阅读。

结果

利用代码中保存的建模值， BiblioEater 有 18，954 个参数，不是很多，因此即使是一个无 GPU 的工作站也可以轻松处理训练工作。我们输入了来自两本书的偶数个带标签的段落，得到了 0.9313 的准确度。不算太坏，我们已经提到了所有的警告。

但是当我们强迫食书者吞下《尤利卡》和《哈克贝利·费恩历险记》时，布丁的真正证据就来了。请记住，这些书中的任何文本都没有包含在培训中。还要记住，每次网络上出现的都是 3 句话的段落，这并不多。这是我们得到的混淆矩阵。

因此,阅读者在 90%以上的时间里都对两本它以前没看过的书。这是考虑到我们决定不包括但在文本中存在的所有特征。如果我们给它输入 4 句话的段落，我们可以为每个作者增加大约 0.015 的准确率。

调整参数，我们得到了类似的结果，但结果有些不稳定，这表明数据集有点小。也许我们应该选择狄更斯的所有作品！

我能运行代码吗？

你当然可以。从 github 下载，请先通读 README.md 文件。

结论

作家在作品中打上自己风格印记并不新鲜。我们在这篇文章中试图传达的是他如何仅仅基于三个连续句子的词性来处理文本归属。添加我们忽略的功能后，我们的结果应该会显著改善。高质量开源软件(Keras、Tensorflow 和最近的 StanfordNLP)的出现使这成为可能。

降价单元格— Jupyter 笔记本

原文：https://towardsdatascience.com/markdown-cells-jupyter-notebook-d3bea8416671?source=collection_archive---------21-----------------------

我不知道如何开始。这将是我第一个与编程相关的故事。今天，我将努力缩小 Jupyter 笔记本中的降价单元格描述。我想我不必在 Jupyter 笔记本上花费太多的文字。根据 Jupyter.org的说法，“ Jupyter 笔记本是一个开源的网络应用程序，允许你创建和分享包含实时代码、方程式、可视化和叙述文本的文档”。Markdown 是一种流行的标记语言，被用作数据科学家和分析师的标准。它既不是 HTML Markdown 的超集，也不是 HTML 的替代品，甚至接近它。它的语法非常小，只对应于 HTML 标签的一个非常小的子集。通常在 Jupyter Notebook 中，单元格类型默认为 code。如果我们想要输入任何文本来描述不被认为是代码的任何东西，那么我们需要使用单元格类型作为 Markdown。

要将 code 单元格转换为 markdown 单元格，我们可以使用快捷键 m 从切换工具栏或单元格菜单中更改单元格类型。现在让我们简要讨论 Jupyter Notebook 支持的 markdown 语法。

Convert cell type from Code to Markdown

标题:有六种类型的标题，每种标题都以散列符号**(#)**开头，后跟一个空格，其中最大的标题使用单个散列，最小的标题使用六个散列符号。

可选地，标题可以以标记标签开始，即，从标题 1 到标题 6，具有以下语法。如果我们单击工具栏上的 run 按钮，输出文本将如下图所示。如果有人想描述几个问题，用几个标题类型来突出问题的重要性是很容易的。

Output for Headings and Headings 2 markdown cell.

样式和变化(粗体、斜体文本、背景):markdown 中的标题和其他文本都可以是粗体、斜体或常规字体样式，有几种颜色和不同的背景颜色。我们也可以改变字体像时间新罗马或 Calibri。

枚举列表:通过 markdown 可以形成有序列表、项目符号列表或嵌套的条目列表。一个编号列表是由 HTML 的<ol>标签完成的，也可以应用在 Markdown 中。也可以应用几种其他方法来制作这种有序或无序的列表。

1\. First 
    1\. First one
    2\. First two
2\. Main list <br>
a. Sub-list <br>
b. sub list 
3\. Main list
* main list 
* A
  * B
    * C
+ A
  + B
    + C
- A
  - B
    - C

内部&外部链接(超链接):以 http 或 https 开头的 Markdown 文本自动呈现超链接。外部和内部超链接都可以通过以下方式添加。Markdown 中的内部链接以<a>标签开始，该标签具有由属性‘id’定义的唯一 id。

<a> [https://www.google.com](https://www.google.com) </a> <br>
<a href="[http://www.google.com](http://www.google.com)">Google</a><br>[http://typora.io](http://typora.io)<br>
[Google]([https://www.google.com](https://www.google.com))<br><a id =integer> </a> 
[Arman](#integer)

表格:表格可以在 markdown 单元格中通过管道符号**(|)**和破折号**(-)**组成，用来标记列和行。分号(:)或 das **(-)** 符号用于对齐各列。

图像:您可以从工具栏中插入图像，方法是从编辑菜单中选择“插入图像”，并从您的计算机中选择目标文件夹中的图像。我们还可以通过以下命令在 markdown 单元格上添加图像。

<img src="Name.png" width="240" height="240" align="right"/>![Title](https://gitcode.net/OpenDocCN/towardsdatascience-blog-zh-2019/-/raw/master/docs/img/Name.png)

Inserting image using the Edit menu.

方程式:在 markdown 单元格中提到方程式时，数学符号包含在 ' $symbol here$ ' 中。内联表达式可以通过用$包围 latex 代码来添加，而在它们自己的行上的表达式用$$包围。

$e^{i\pi} + 1 = 0$
$$e^x=\sum_{i=0}^\infty \frac{1}{i!}x^i$$
$$e^{i\pi} + 1 = 0$$<br>
$\sqrt{k}$

Github 风味降价:使用反引号或左引号 **()**` 键三次，我们可以获得与降价单元格输出相同的代码风味甲酸盐。

```python
A = "Python syntax highlighting"
print(A)
for i in range(0,10):
    print(A)


输出:

![](https://gitcode.net/OpenDocCN/towardsdatascience-blog-zh-2019/-/raw/master/docs/img/75bd3704f36691bf5916a6df5e7346b3.png)

GitHub flavored Markdown.

**块引号、换行符和水平线:**换行符使用 2 个空格或该代码进行手动换行符:`<br>`。可以通过使用符号`'>'`或包含预期文本分块列表的`<blockquote>text for blockquote</blockquote>`获得块引号。我们还可以使用`(___) or (***) or (---)`三个连字符或标记标签添加一条水平线`<hr>.`文本或标题可以通过`<center>text<center>`集中。

Professor says

It's good for
This is good
> 1 Blockquotes

2 Blockquotes

3 Blockquotes

4 Blockquotes

8 BlockquotesAsterisks

Underscores

hipen--- #

Your centered level h1 title

This is a centered header

```

我已经在 GitHub 库中添加了 markdown 单元格的所有命令。你可以在这里查看。

[## arman-Null/Markdown-Cells-Jupyter-笔记本

此时您不能执行该操作。您已使用另一个标签页或窗口登录。您已在另一个选项卡中注销，或者…

github.com](https://github.com/Arman-Null/Markdown-Cells---Jupyter-Notebook.git)

我感谢丹尼尔·布克、乔纳森·惠、何塞·马西亚尔·波尔蒂利亚和威尔·科尔森以及其他一些人，他们总是激励我在这个神奇的平台上写作。我会试着继续写具体的问题。

参考链接:

基于购物篮分析的关联规则挖掘

原文：https://towardsdatascience.com/market-basket-analysis-knowledge-discovery-in-database-simplistic-approach-dc41659e1558?source=collection_archive---------13-----------------------

无监督学习&数据库中的知识发现

https://sarit-maitra.medium.com/membership

M 市场购物篮分析 (MB)是一种关联分析，是一种流行的数据挖掘技术。这是一种数据中的知识发现(KDD) 这种技术可以应用于各种工作领域。在这里，我将使用一个零售交易数据，并展示如何向企业提供信息来捕获买方的购买行为。这也可以是决策支持系统的一部分。

各种形式的数据挖掘可应用于这类数据集，例如分类、关联、预测、聚类、异常值分析等。在这里，我将重点介绍关联规则挖掘技术，它发现隐藏在数据集中的有趣关系。如果你有兴趣，可以访问我早前的文章(1)；(2)；(3)。

我们很多人都熟悉 UCI 机器学习数据库发布的以下数据集。MB 分析中使用的数据是事务性数据。在这里，数据具有 MB 分析的所有基本成分。然而，从我的经验来看，交易数据很少或者我们可以说，从来不会以这种格式出现。因此，由于交易数据的复杂性，数据清理和数据读取是 MB 分析的主要活动。

让我们看看数据框的尺寸以及唯一的发票号和客户号

如果我们比较【发票号】和【描述】，我们可以看到一些行没有发票号。

data[‘invoiceno’].value_counts()

让我们删除没有发票号的行，并删除信用交易(发票号包含 C 的交易)。

现在，我们需要将商品合并为每行 1 个交易，每个商品 1 个热编码。让我们检查数据框中的国家名称。

让我们看看澳大利亚的销售情况，并将结果与法国的销售情况进行比较。在我们深入分析之前，让我们先了解一下关联规则。

关联规则挖掘

在这种情况下，规则生成是挖掘频繁模式的首要任务。关联规则是形式为 x → y，的蕴涵表达式，其中 x 和 y 是不相交的项目集。为了评估这样一个关联规则的【兴趣】，已经开发了不同的度量标准。我将使用 支持、 和提升度量。

韵律学

假设商品 x 正在被客户购买，那么商品 y 在同一个交易 ID 下被客户挑选的几率也就被找出来了。衡量联想有 3 种方式: 支持度、 信心度、 升力度。

Support {freq (x，y) / n，range: [0，1]} 给出包含项目 x 和 y 的交易的分数。它告诉我们经常购买的项目或经常购买的项目组合，我们可以筛选出频率较低的项目。

Confidence {freq(x，y) / freq (x)，range: [0，1]} 根据 x 出现的次数，告诉我们 x 项和 y 项一起出现的频率。

Lift { support/support(x) support(y)，range: [0，inf]}* 表示一个规则对 x 和 y 的随机出现的强度，它解释了一个规则的强度，Lift 越大就是强度越大。

Apriori 算法

这是一种数据挖掘方法，也是关联规则的基础。Apriori 算法使用【频繁项集】生成关联规则。它考虑到了一个【频繁项集】的子集也一定是一个【频繁项集】。【频繁项集】 >的值超过一个阈值(即支持度)。

数据中有相当多的零，但我们还需要确保任何正值都被转换为 1，任何小于 0 的值都被设置为 0。因此，让我们对数据应用一种热编码，并删除邮资列；我们不打算探讨邮资。

既然数据的结构是正确的，我们可以生成支持度至少为 7%的频繁项集(选择这个数字是为了让我得到足够多有用的例子)。

数据挖掘中的信心和支持

为了选择感兴趣的规则，我们可以使用最著名的约束，这些约束是置信度和支持度的最小阈值。

支持度是项集在数据集中出现频率的指示。信心是规则被发现为正确的频率的指示”

# generate the rules with their corresponding support, confidence 
# and lift
frequent_itemsets = apriori(basket_sets, min_support=0.07, use_colnames=True)
print (frequent_itemsets)rules = association_rules(frequent_itemsets, metric=”lift”, min_threshold=1)
rules.head()

如果我们打印关联的数量，我们会看到找到了 800 条关联规则。

support=rules.as_matrix(columns=[‘support’])
confidence=rules.as_matrix(columns=[‘confidence’])

下面的支持度和置信度散点图显示了数据集的关联规则(前 10 个规则)。

让我们看看这告诉了我们什么。例如，我们可以看到有相当多的规则具有很高的值，这意味着它比给定的交易和产品组合的数量所预期的更频繁地出现。我们还可以看到几个 置信度 也很高的地方。在这方面，领域专长有很大优势。我就在这里找一个大抬 (6)高信心 (0.8)。

查看规则，我们可以发现，" RED retro spot CAKE STAND "和 "36 支铅笔管 RED RETROSPOT" 是一起购买的，而 "4 个传统旋转陀螺"、"闹钟 BAKELIKE GREEN "和" RED DINER WALL CLOCK" 是一起购买的，购买方式高于整体概率。在这一点上，我们可能想看看有多少机会可以利用一种产品的受欢迎程度来推动另一种产品的销售。

我们可以看到，虽然有关联规则存在，但是相比于 385 个数字的“36 支铅笔管红色逆行点”而言，只有 73 个数字的“红色逆行点蛋糕摊”所以也许企业必须采取某种策略来使两者不相上下。

同样有趣的是，看看不同购买国家的组合是如何变化的。让我们来看看在法国有哪些流行的组合。

所以，这样我们就可以比较，准备一份分析报告。根据我们定义的关联规则，我们发现一些产品之间存在显著的相关性。这里应用的先验算法具有一定的阈值。我们也可以试验不同阈值。**越大抬抬**意味着联想越有趣。具有高 支持度 的关联规则是潜在有趣的规则。类似地，具有高 置信度的规则 也会是有趣的规则。

我这里可以联系到***。*****

购物篮分析——多支持频繁项目集挖掘

原文：https://towardsdatascience.com/market-basket-analysis-multiple-support-frequent-item-set-mining-584a311cae66?source=collection_archive---------19-----------------------

对缺省 MSApriori 算法的改进。

Pic credit: Upgrad

简介:

从交易数据库(购物篮)中生成关联规则的问题是许多零售商感兴趣的。关联规则的形式是𝑋 → 𝑌，其中 x，y 是 I(所有产品(或项目)的集合)和𝑋 ∩ 𝑌 = ∅.的子集

可以将上述关联规则的含义理解为，如果顾客购买了集合 X 中的物品，那么他可能购买集合 y 中的物品。关联规则的一些众所周知的例子可以是{ Milk }--> {Bread } 、{ Milk }--> { Bread，Eggs} 、{ Bread，Butter }--> { Jam }和幽默的{ Diapers }--> { Beer }。请注意，关联规则是不可交换的，即𝑋 → 𝑌不等于𝑌 → 𝑋.

为给定的交易数据库(市场篮)寻找关联规则的问题定义如下:

a.给定一个大小为 z 的事务数据库，其中有 n 个不同的项目和一个输入支持度和置信度，找出满足给定支持度和置信度约束的所有规则𝑋 → 𝑌。

b.支持度是一个阈值，该阈值将确定 X 中的项目是否足够频繁以被考虑用于关联规则生成。更具体地说，如果{X}。count / Z >= support，那么 X 被认为是一个频繁项集。

c.置信度是决定购买 y 的条件概率的阈值。更具体地说，如果{𝑋⋃𝑌}.count / {X}。计数> =置信度，则𝑋 → 𝑌被视为有效的关联规则。

假设零售商销售了“N”种不同的商品/产品，那么计数和生成关联规则的强力方法的复杂度为 O(N！).

Apriori 算法是对蛮力算法的改进，它基于这样的观察:只有当 X 的所有真子集都是频繁项目集时，项目集 X 才是频繁项目集。这将减少为生成所有可能的关联规则而需要探索的状态/规则的数量。Apriori 算法根据这一原理工作，分两步执行

a.在大小为 1，2，3…k 的事务数据库中查找所有频繁项集。

b.从频繁项目集 2，3，4…k 中生成所有有效的关联规则。

c.如果不能再生成 k + 1 大小的频繁项集，则停止。

Apriori 算法至少需要对事务数据库进行“k”次扫描。

MSApriori:

MSApriori 代表多重支持 Apriori，它是 Apriori 算法在现实生活场景中的一个更受约束的定义。Apriori 算法只考虑交易中所有项目的一个支持值，而不管项目是频繁销售的项目(如杂货)还是不太频繁销售的项目(高价项目，如家居装饰)。因此，要为经常/很少售出的商品建立称重方案，每件商品都有单独的支撑。MSApriori 算法的问题定义修改如下:

a.给定一个交易数据库和每个项目和置信度的不同最小输入支持(MIS ),找出满足给定支持和置信度约束的所有规则𝑋 → 𝑌。

b.支持度是一个阈值，该阈值将确定 X 中的项目是否足够频繁以被考虑用于关联规则生成。由于 MSApriori 中对不同的项目有不同的支持，任何满足其集合中项目的最小 MIS 的项目集合都被认为是频繁的。更具体地说，如果

a.|X| = 1，

{X}。count/n > = miss(X)，那么 X 被认为是一个频繁项集。

b.|X| >= 1，

{X}。count / n >= MIN (MIS(X1)，MIS(X2)，MIS(X3)…MIS(Xk))；Xi ∈ X，i=1 到 k

c.为了阻止非常频繁和不太频繁的项目一起出现在任何频繁项目集合中，在候选项目集合 X 上施加支持差异约束φ

a.|X| >= 1，

MAX(Supp(X1)，Supp(X2)…Supp(Xk))–MIN(Supp(X1)，Supp(X2) … Supp(Xk)) <= Φ

The task of assigning MIS to items must be done in a meticulous manner. For highly moving items such as daily groceries, a high value of MIS is desired. For not so frequently sold items such as high end electronics, a less value of MIS is desired. One such assignment of MIS can be done using the following approximation.

MIS (item) = δ * Supp (item); δ ∈ [0, 1]

The above assignment is discussed in 刘兵等人的网络挖掘。求解 MSApriori 的算法也是刘兵在上面的书里提出的，姑且称之为默认的 MSApriori 算法。默认的 MSApriori 算法对每个候选项集 Ck 扫描事务数据库；k > =2 来计算频繁项集 Fk。

考虑到数据库中有“Z”个总事务和“N”个唯一项，默认的 MSApriori 算法需要计算对所有 C2 的支持；如果每个项目的 MIS 按上述等式定义，C2 将有 N*(N-1)/2 个项目集。

总时间复杂度= N*(N-1)/2 * Z ~ O(n3)。

类似地，C3、C4… Ck 也会有相应的复杂性，这是基于项集的大小乘以数据库中的事务数量。

对 MSApriori 的改进建议:

对缺省 MSApriori 提出的改进是使用一种前瞻策略，在事务数据库扫描的第一遍中计算每个 Ck 的支持，将它们存储在哈希表(Hk)中，并在需要时检索它们。在事务数据库扫描的第一遍中，对于长度为“L”的每个事务，每个 Ck (k <= L) is generated locally and the count of its support increased in Hk. So, for C2, the proposed modification would work as follows,

/* modified MSApriori Algorithm form Bing et al */Modificaiton-1: init-pass()For each item(i) in Transaction T:a. Compute/increment the support of item(i)b. For each item(j) in Transaction T: // (j>i)
       Compute the hashcode of itemset(i,j)
       Retrieve the support of itemset(i,j) from the hash table(H2)
       Initialize/Increment the support of itemset(i,j).Modificaiton-2: CandidateGen2() //Candidate generation function for 2-itemsetFor each item(i) in list L/C2:
    For each item(j) in list L: // (j>i)
        Compute the hashcode of itemset(i,j)
        Retrieve the support of itemset(i,j) from the hash table(H2)
        If support > MIS(item(i)) // and other constrains like Φ
            Return itemset(i,j) into F2.

NOTE: CandidateGen2() directly returns the items into F2, no need for scanning the transaction database again!

In the Modificaiton-1, an extra sub-loop is added for each transaction to compute the support for 2-itemsets, assuming the average length of transaction is ‘L’ then this step would add further processing time of L*(L-1)/2 for each transaction in the database. Assuming, there are ‘Z’ transactions in the database, the time required to complete the init-pass() is

Time complexity (init-pass) = L*(L-1)/2 * Z

~= c * Z ~ O(Z) //for all practical reasons L << Z

In the Modificaiton-2, I am adding an extra step for accessing the hash table (H2) which can be done in constant time (TH) in most library implementations. The time required to complete CandidateGen2() is given as

Time complexity = N(N-1)/2TH ~ O(n2).

Combining both modifications, total time complexity = O(Z) + O(n2) < O(n3)! (from the default algorithm).

Verification of the result:

The default MSApirioi algorithm is implemented by Phillipe et al in the 开源 java data mining library SPMF )。我已经用我在 MSAprori _ H.java 程序中提出的修改修改了 SPMF 库中的默认 MSApriori 算法。MSApriori 和 MSApriori_H 的执行结果如下:

考虑的数据集:retail1.txt

数据集中不同项目的数量:N = 2603。

数据集中的事务数量:Z = 541909。

关于此算法的哈希函数要求的注释。理想情况下，我们需要一个散列函数，它能为一组整数提供唯一的散列值，而不考虑给定集合中整数的顺序。生成这样一个散列函数肯定不是一件简单的任务，所以我在实现中将散列值放宽为一个 Java 对象。我选择了一个要在 MSApriori_H.java 中实现的 BitSet 对象。

MSApriori_H.java 中的哈希函数:

/* Input k-item set in Integer[] items */BitSet hashcode = new BitSet(Integer.MAX_VALUE);for(int i=0; i<items.length; i++) {hashcode.set(items[i])};return hashcode;

带推荐人的购物篮分析

原文：https://towardsdatascience.com/market-basket-analysis-with-recommenderlab-5e8bdc0de236?source=collection_archive---------9-----------------------

我对购物篮分析的看法——第 2 部分，共 3 部分

Photo by Victoriano Izquierdo on Unsplash

O verview

最近我想学习一些新的东西，并挑战自己进行端到端的市场篮子分析。为了继续挑战自己，我决定将我的努力成果展示给数据科学界。

这是三柱中的第二柱，排列如下:

第一部分 :(可以在这里找到*)用推荐算法* 第二部分 :用 推荐器 lab R 包
应用各种产品推荐模型

加载包

*# Importing libraries
library(data.table)
library(tidyverse)            
library(knitr)
library(recommenderlab)*

数据

为了进行分析，我将使用在第 1 部分中准备和清理的retail数据集。如果你想继续这篇文章，确保你得到了数据集并运行第 1 部分的 R 代码，你可以在我的 Github 简介中找到。

***glimpse(retail)
## Observations: 528,148
## Variables: 10
## $ InvoiceNo   <dbl> 536365, 536365, 536365, 536365, ...
## $ StockCode   <chr> "85123A", "71053", "84406B", "...
## $ Description <fct> WHITE HANGING HEART T-LIGHT HOLDER, ...
## $ Quantity    <dbl> 6, 6, 8, 6, 6, 2, 6, 6, 6, 32, 6, 6, 8, ...
## $ InvoiceDate <dttm> 2010-12-01 08:26:00, 2010-12-01 08:26:00, 2010-12...
## $ UnitPrice   <dbl> 2.55, 3.39, 2.75, 3.39, 3.39, 7.65, ....
## $ CustomerID  <dbl> 17850, 17850, 17850, 17850, 17850, ...
## $ Country     <fct> United Kingdom, United Kingdom, ...
## $ Date        <date> 2010-12-01, 2010-12-01, 2010-12-01, ...
## $ Time        <fct> 08:26:00, 08:26:00, 08:26:00, 08:26:00, ...***

系统模型化

对于这个项目的分析部分，我使用的是re commender lab，这是一个 R 包，它提供了一个方便的框架来评估和比较各种推荐算法，并快速建立最适合的方法。

创建评级矩阵

在开始之前，我需要在一个评级矩阵中安排购买历史，订单按行排列，产品按列排列。这种格式通常被称为 user_item matrix ，因为“用户”(例如客户或订单)往往位于行上，而“项目”(例如产品)位于列上。**

推荐者实验室接受两种类型的评级矩阵用于建模:

实际评分矩阵由实际用户评分组成，需要标准化。
二进制评级矩阵，由 0 的和 1 的组成，其中 1 的表示产品是否被购买。这是分析所需的矩阵类型，不需要标准化。

但是，在创建评级矩阵时，很明显有些订单不止一次包含相同的商品，如下例所示。

***# Filtering by an order number which contains the same stock code more than onceretail %>% 
  filter(InvoiceNo == 557886 & StockCode == 22436) %>% 
  select(InvoiceNo, StockCode, Quantity, UnitPrice, CustomerID)## # A tibble: 2 x 5
##   InvoiceNo StockCode Quantity UnitPrice CustomerID
##       <dbl> <chr>        <dbl>     <dbl>      <dbl>
## 1    557886 22436            1      0.65      17799
## 2    557886 22436            3      0.65      17799***

向 UCI 机器学习库 捐赠该数据集的公司可能有一个订单处理系统，该系统允许将一个项目多次添加到同一订单中。对于这个分析，我只需要知道一个项目是否包含在一个订单中，因此需要删除这些重复的项目。

***retail <- retail %>% 
# Create unique identifier
    mutate(InNo_Desc = paste(InvoiceNo, Description, sep = ' ')) # Filter out duplicates and drop unique identifier
    retail <- retail[!duplicated(retail$InNo_Desc), ] %>% 
    select(-InNo_Desc)# CHECK:  total row count - 517,354***

我现在可以创建评级矩阵。

***ratings_matrix <- retail %>%
# Select only needed variables
  select(InvoiceNo, Description) %>% # Add a column of 1s
  mutate(value = 1) %>%# Spread into user-item format
  spread(Description, value, fill = 0) %>%
  select(-InvoiceNo) %>%# Convert to matrix
  as.matrix() %>%# Convert to recommenderlab class 'binaryRatingsMatrix'
  as("binaryRatingMatrix")ratings_matrix
## 19792 x 4001 rating matrix of class 'binaryRatingMatrix' with 517354 ratings.***

评估方案和模型验证

为了确定模型的有效性，推荐者实验室实施了许多评估方案。在这个scheme中，我选择 train = 0.8 进行 80/20 训练/测试分割，将数据分割成一个训练和一个测试集。我还设置了 method = "cross" 和 k = 5 进行 5 重交叉验证。这意味着数据被分成 k 个大小相等的子集，80%的数据用于训练，剩下的 20%用于评估。模型被递归估计 5 次，每次使用不同的训练/测试分割，这确保了所有用户和项目都被考虑用于训练和测试。然后可以对结果进行平均，以产生单个评估集。

选择 given = -1 意味着对于测试用户来说，除了 1 个项目外，所有随机选择的项目都被保留进行评估。

***scheme <- ratings_matrix %>% 
  evaluationScheme(method = "cross",
                   k      = 5, 
                   train  = 0.8,  
                   given  = -1)scheme
## Evaluation scheme using all-but-1 items
## Method: 'cross-validation' with 5 run(s).
## Good ratings: NA
## Data set: 19792 x 4001 rating matrix of class 'binaryRatingMatrix' with 517354 ratings.***

设置算法列表

推荐实验室的主要特性之一是能够一次评估多个算法。首先，我用我想要估计的algorithms创建一个列表，指定所有的模型参数。在这里，我考虑在二元评级矩阵上评估的方案。我包含了随机项目算法，用于基准测试。**

***algorithms <- list(
  "association rules" = list(name  = "AR", 
                        param = list(supp = 0.01, conf = 0.01)),
  "random items"      = list(name  = "RANDOM",  param = NULL),
  "popular items"     = list(name  = "POPULAR", param = NULL),
  "item-based CF"     = list(name  = "IBCF", param = list(k = 5)),
  "user-based CF"     = list(name  = "UBCF", 
                        param = list(method = "Cosine", nn = 500))
                   )***

评估模型

我现在要做的就是将scheme和algoritms传递给evaluate()函数，选择 type = topNList 来评估前 N 个产品推荐列表，并使用参数 n = c(1，3，5，10，15，20) 指定要计算多少个推荐。

请注意基于 CF 的算法每种都需要几分钟来估计。

***results <- recommenderlab::evaluate(scheme, 
                                    algorithms, 
                                    type  = "topNList", 
                                    n     = c(1, 3, 5, 10, 15, 20)
                                    )## AR run fold/sample [model time/prediction time]
##   1  [0.32sec/73.17sec] 
##   2  [0.24sec/72.72sec] 
##   3  [0.23sec/72.27sec] 
##   4  [0.24sec/72.82sec] 
##   5  [0.24sec/72.69sec] 
## RANDOM run fold/sample [model time/prediction time]
##   1  [0sec/20.08sec] 
##   2  [0sec/19.01sec] 
##   3  [0sec/18.69sec] 
##   4  [0sec/19.26sec] 
##   5  [0.02sec/19.41sec] 
## POPULAR run fold/sample [model time/prediction time]
##   1  [0.01sec/15.94sec] 
##   2  [0sec/16.34sec] 
##   3  [0sec/15.91sec] 
##   4  [0.02sec/16.02sec] 
##   5  [0.01sec/15.86sec] 
## IBCF run fold/sample [model time/prediction time]
##   1  [515.11sec/3.11sec] 
##   2  [513.94sec/2.88sec] 
##   3  [509.98sec/3.05sec] 
##   4  [513.94sec/3.13sec] 
##   5  [512.58sec/2.81sec] 
## UBCF run fold/sample [model time/prediction time]
##   1  [0sec/296.54sec] 
##   2  [0sec/291.54sec] 
##   3  [0sec/292.68sec] 
##   4  [0sec/293.33sec] 
##   5  [0sec/300.35sec]***

输出存储为包含所有评估的列表。

***results## List of evaluation results for 5 recommenders:
## Evaluation results for 5 folds/samples using method 'AR'.
## Evaluation results for 5 folds/samples using method 'RANDOM'.
## Evaluation results for 5 folds/samples using method 'POPULAR'.
## Evaluation results for 5 folds/samples using method 'IBCF'.
## Evaluation results for 5 folds/samples using method 'UBCF'.***

想象结果

推荐者实验室有一个基本的plot功能，可用于比较型号性能。然而，我更喜欢把结果整理成整齐的格式，以增加灵活性和图表定制。

首先，我以一种方便的格式安排一个模型的混淆矩阵输出。

***# Pull into a list all confusion matrix information for one model 
tmp <- results$`user-based CF` %>%
  getConfusionMatrix()  %>%  
  as.list() # Calculate average value of 5 cross-validation rounds 
  as.data.frame( Reduce("+",tmp) / length(tmp)) %>% # Add a column to mark the number of recommendations calculated
  mutate(n = c(1, 3, 5, 10, 15, 20)) %>%# Select only columns needed and sorting out order 
  select('n', 'precision', 'recall', 'TPR', 'FPR')##    n  precision     recall        TPR          FPR
## 1  1 0.06858938 0.07420981 0.07420981 0.0002327780
## 2  3 0.04355442 0.14137351 0.14137351 0.0007171045
## 3  5 0.03354715 0.18148235 0.18148235 0.0012076795
## 4 10 0.02276376 0.24627561 0.24627561 0.0024423093
## 5 15 0.01762715 0.28605934 0.28605934 0.0036827205
## 6 20 0.01461690 0.31627924 0.31627924 0.0049253407***

然后，我把前面的步骤代入一个公式。

***avg_conf_matr <- function(results) {
  tmp <- results %>%
    getConfusionMatrix()  %>%  
    as.list() 
    as.data.frame(Reduce("+",tmp) / length(tmp)) %>% 
    mutate(n = c(1, 3, 5, 10, 15, 20)) %>%
    select('n', 'precision', 'recall', 'TPR', 'FPR') 
}***

接下来，我使用purrr包中的map()函数以一种整齐的格式获得所有结果，为图表制作做好准备。

***# Using map() to iterate function across all models
results_tbl <- results %>%
  map(avg_conf_matr) %>% # Turning into an unnested tibble
  enframe() %>%# Unnesting to have all variables on same level
  unnest()results_tbl## # A tibble: 30 x 6
##    name                  n precision   recall      TPR      FPR
##    <chr>             <dbl>     <dbl>    <dbl>    <dbl>    <dbl>
##  1 association rules     1  0.0428   0.0380   0.0380   0.000197
##  2 association rules     3  0.0306   0.0735   0.0735   0.000579
##  3 association rules     5  0.0266   0.0979   0.0979   0.000944
##  4 association rules    10  0.0224   0.139    0.139    0.00179 
##  5 association rules    15  0.0202   0.162    0.162    0.00255 
##  6 association rules    20  0.0188   0.176    0.176    0.00325 
##  7 random items          1  0.000202 0.000219 0.000219 0.000250
##  8 random items          3  0.000253 0.000820 0.000820 0.000750
##  9 random items          5  0.000242 0.00131  0.00131  0.00125 
## 10 random items         10  0.000222 0.00241  0.00241  0.00250 
## # ... with 20 more rows***

受试者工作特征曲线

可以使用 ROC 曲线来比较分类模型的性能，该曲线绘制了真阳性率 (TPR)与假阳性率* (FPR)。***

基于项目的协同过滤模型是明显的赢家，因为它在任何给定的 FPR 水平上都实现了最高的 TPR。这意味着，对于相同级别的不相关推荐(误报)，该模型正在产生最高数量的相关推荐(真阳性)。

注意使用fct_reorder2()按最佳最终 FPR 和 TPR 排列情节图例条目，用曲线排列它们，使情节更容易阅读。

***results_tbl %>%
  ggplot(aes(FPR, TPR, 
             colour = fct_reorder2(as.factor(name), 
                      FPR, TPR))) +
  geom_line() +
  geom_label(aes(label = n))  +
  labs(title = "ROC curves", colour = "Model") +
  theme_grey(base_size = 14)***

精确回忆曲线

另一种比较分类模型性能的常用方法是使用精度与召回曲线。Precision 显示模型对假阳性(即推荐不太可能被购买的商品)的敏感程度，而 Recall(TPR 的另一个名称)则显示模型对假阴性(即不推荐极有可能被购买的商品)的敏感程度。**

通常，我们关心的是准确预测哪些商品更有可能被购买，因为这将对销售和收入产生积极影响。换句话说，我们希望在精度相同的情况下，最大化召回(或最小化 FNs)。**

该图证实了基于项目的协作过滤器* (IBCF)是最好的模型，因为它对于任何给定的精度水平都具有更高的召回率。这意味着 IBCF 将所有级别的第一手资料的 FNs 降至最低(即不建议购买可能性很高的物品)。***

***results_tbl %>%
  ggplot(aes(recall, precision, 
             colour = fct_reorder2(as.factor(name),  
                      precision, recall))) +
  geom_line() +
  geom_label(aes(label = n))  +
  labs(title = "Precision-Recall curves", colour = "Model") +
  theme_grey(base_size = 14)***

对新用户的预测

最后一步是生成具有最佳性能模型的预测。为此，我需要创建一个虚构的采购订单。

首先，我创建了一个包含 6 个随机选择的产品的字符串。

***customer_order <- c("GREEN REGENCY TEACUP AND SAUCER",
                     "SET OF 3 BUTTERFLY COOKIE CUTTERS",
                     "JAM MAKING SET WITH JARS",
                     "SET OF TEA COFFEE SUGAR TINS PANTRY",
                     "SET OF 4 PANTRY JELLY MOULDS")***

接下来，我将这个订单以一种推荐者 lab* 接受的格式放置。***

***new_order_rat_matrx <- retail %>% # Select item descriptions from retail dataset
  select(Description) %>% 
  unique() %>% # Add a 'value' column with 1's for customer order items
  mutate(value = as.numeric(Description %in% customer_order)) %>% # Spread into sparse matrix format
  spread(key = Description, value = value) %>% # Change to a matrix
  as.matrix() %>% # Convert to recommenderlab class 'binaryRatingsMatrix'
  as("binaryRatingMatrix")***

现在，我可以创建一个Recommender。我使用getData来检索训练数据，并设置 method = "IBCF" 来选择性能最好的模型(“基于项目的协同过滤”)。

***recomm <- Recommender(getData(scheme, 'train'), 
                       method = "IBCF",  
                       param = list(k = 5))recomm## Recommender of type 'IBCF' for 'binaryRatingMatrix' 
## learned using 15832 users.***

最后，我可以将Recommender和生成的订单传递给predict函数，为新客户创建前 10 名推荐列表。

***pred <- predict(recomm, 
                newdata = new_order_rat_matrx, 
                n       = 10)***

最后，建议的项目可以作为一个列表进行检查

***as(pred, 'list')## $`1`
##  [1] "ROSES REGENCY TEACUP AND SAUCER"   
##  [2] "PINK REGENCY TEACUP AND SAUCER"    
##  [3] "SET OF 3 HEART COOKIE CUTTERS"     
##  [4] "REGENCY CAKESTAND 3 TIER"          
##  [5] "JAM MAKING SET PRINTED"            
##  [6] "RECIPE BOX PANTRY YELLOW DESIGN"   
##  [7] "SET OF 3 CAKE TINS PANTRY DESIGN"  
##  [8] "GINGERBREAD MAN COOKIE CUTTER"     
##  [9] "3 PIECE SPACEBOY COOKIE CUTTER SET"
## [10] "SET OF 6 SPICE TINS PANTRY DESIGN"***

这就结束了这个项目的建模和评估部分，我发现这很简单，也很愉快。 recommenderlab 直观易用，我特别欣赏它同时评估和比较几种分类算法的能力。总之，我已经学会了如何在 R 中使用 recommenderlab 进行市场购物篮分析，以解释结果并选择表现最佳的模型。

代码库

完整的 R 代码可以在我的 GitHub 简介中找到

参考

有关推荐的实验室包，请参见:https://cran.r-project.org/package=recommenderlab
关于推荐者实验室软件包简介，请参见:https://cran . r-project . org/web/packages/re commender lab/vignettes/re commender lab . pdf

原载于 2019 年 3 月 25 日https://diegousei . io。**

市场概况:金融市场的统计观点

原文：https://towardsdatascience.com/market-profile-a-statistical-view-on-financial-markets-6a00cd62410d?source=collection_archive---------5-----------------------

关于如何在 Matplotlib 中绘制市场轮廓的简单介绍和简短方法

Market profile is a technique used to contextualize current market conditions.

市场概况方法简介

市场分析是 J. Peter Steidlmayer 在 60 年代开发的一种技术。该方法代表给定市场在给定时期的统计分布。

Steidlmayer，一个富裕农民的儿子，在 60 年代成为 CBOT 的场内交易者，并最终在 80 年代初成为 CBOT 导演之一。他融合了最小相关价格变动、平衡和高斯分布的概念，定义了一种方法，可以跟踪特定市场在特定时间的变动情况。

市场概况理论在几本书中都有适当的介绍，在互联网上也有一些好的资料。这种方法在 80 年代末和 90 年代引起了极大的兴趣，Steidlmayer 是这种方法的主要推动者，他还在 80 年代初负责在 CBOT 提供第一批电子数据服务。虽然它不再是一种主流的分析技术，但它仍然拥有一批积极使用它的追随者。

市场概况使用时间和价格来定位交易时段的价值区域(即参与者认为给定资产/工具的公允价格所在的价格区域)。虽然它不是一种交易方法或系统，但它是一种分析给定市场当前状态的可靠方法，因为它有助于澄清市场是否正在盘整或形成趋势。

市场概况优于交易量概况的一个优点是不需要交易量数据。这对于不受监管的场外交易市场来说尤其有趣，在这种市场中，交易量信息要么不可用，要么没有意义。它还允许使用非昂贵的历史数据进行模拟。

由于市场概况使用 TPO(时间价格机会)的概念来反映感兴趣的领域，这些领域与高交易量领域高度相关。所以最后，这两种方法可以得到相似的结果，有时看到这两种情况如此相似真的令人吃惊。对此的解释是，在市场上以给定的价格移动大量货物需要时间，而这一时间转化为给定价格下的大量 TPO。这有效地有助于关联市场概况和数量概况。

尽管所有主要的交易软件都有一些插件，但市场概况在某种程度上是一个不同的野兽。在 20 世纪 90 年代的巅峰时期，市场概况通常是通过专业软件(如 Steildmayer 曾经发行的软件 Capital Flow)来开发的。这种软件包价格昂贵，因为它们是为基金和机构参与者设计的。

我一直对市场和销量非常感兴趣，在过去的几个月里，我一直在深入研究和研究这些领域。

这些分析技术帮助你确定主要参与者可能在哪里，他们的行动方向是什么。有人可能会说，市场剖析是另一个时代的技术；我们不能忘记，这是 60 年代为大宗商品场内交易构想的一种方法，一些帮助市场概况发光的配套信息(如 CBOT 的流动性数据库)不再可用，但我认为支持该方法的基本统计概念仍然适用。

在我看来，平衡/不平衡和高斯分布概念的使用使该方法强大并得到科学支持，因为这些概念有助于处理无法以确定性方式描述的复杂自然过程——股票市场很适合这一类别。这是个人观点，我可能有偏见，因为我的市场策略是尽可能利用统计数据。

我对市场概况的兴趣特别集中在日内交易上。我特别使用 30 分钟蜡烛线，这是为市场概况定义的原始时间框架。30 分钟是一个没有被广泛使用的时间框架，但它有一个很大的优势，足够大以避免小时间框架的玩家(特别是 HFT)，并且足够小以获得足够的日内交易。在不久的将来，我想将市场概况的概念扩展到更大的时间范围，就像 90 年代基金使用的所有主要软件一样。超越 30 分钟时间框架的优点是可以检测到有效周期——不容易但可行——通过这样做，可以预测更大的市场波动。因此，可以计划回转操作。关于如何实现这一点的一些信息包含在下一部分的书籍中。

掌握市场概况

市场概况是一个复杂的方法，需要专注和经验来掌握。对于那些有兴趣了解更多的人，我会指出我所找到的关于这个主题的最相关的书籍。

141 West Jackson and Markets & Market Logic are the classic books writen by Steidlmayer about Market Profile

关于市场概况的经典书籍有“ 141 West Jackson ”(对于那些好奇的人，那是 CBOT 在芝加哥的地址)和“ Markets & Market Logic ”。

一个更现代的重温将是 J. Peter Steidlmayer 和 Steven B. Hawkins 的《 Steidlmayer 谈市场:用市场概况进行交易》。

这三本书都很好地介绍了市场概况。“141 West Jackson ”特别令人愉快，而“Steidlmayer on Markets:Trading with Market Profile”可能是最实用的一个。

作为建设性的批评，我要指出，在某些方面，一些摘录可能过于关注专有软件的功能，而没有对这些功能如何工作进行适当的解释，这可能会给人一种被促销营销所针对的感觉。除此之外，书籍值得任何对该主题感兴趣的人阅读，因为它们是由该方法的关键利益相关者编写的。

Matplotlib 和 Python 中的市场概况

作为一个关于市场概况的实践示例，我使用 Matplotlib 在 Python 中包含了一个获取市场概况分布及其绘图的例程。

假设您在 Python 中有以下市场概况数据:

day_market_profile = [
  (Decimal(1.4334), 1, 'n'),
  (Decimal(1.4335), 1, 'n'),  
  (Decimal(1.4336), 1, 'n'),
   ...
  (Decimal(1.4360), 14, 'bcdijklmpqrsuv'),
   ...
  (Decimal(1.4482), 1, 'E'),  
  (Decimal(1.4483), 1, 'E'),
]

该数据是在定制的 market_profile 例程中获得的，该例程使用 30 分钟 TPOs 生成每日市场概况。

day = datetime(2010,1,5)
day_market_profile = market_profile(day, Decimal('0.0001'))
for i in day_market_profile:
    print(str(i[0]) + ' | ' + str(i[1]).rjust(2,' ') + ' | '  + i[2])

打印元组列表会导致:

1.4334 |  1 | n
1.4335 |  1 | n
1.4336 |  1 | n
1.4337 |  1 | n
1.4338 |  1 | n
1.4339 |  1 | n
1.4340 |  1 | n
1.4341 |  1 | n
1.4342 |  3 | noq
1.4343 |  3 | noq
1.4344 |  3 | noq
1.4345 |  4 | noqr
1.4346 |  5 | bnoqr
1.4347 |  6 | bmnoqr
1.4348 |  6 | bmnoqr
1.4349 |  7 | bcmnoqr
1.4350 |  8 | bckmnoqr
1.4351 |  9 | bckmnoqrs
1.4352 | 10 | bckmnoqrst
1.4353 | 11 | bckmnopqrst
1.4354 | 14 | bcklmnopqrstuv
1.4355 | 14 | bcklmnopqrstuv
1.4356 | 13 | bcklmopqrstuv
1.4357 | 13 | bcklmopqrstuv
1.4358 | 12 | bcklmopqrsuv
1.4359 | 12 | bcdklmpqrsuv
1.4360 | 14 | bcdijklmpqrsuv
1.4361 | 14 | bcdijklmpqrsuv
1.4362 | 13 | bcdijklmpqrsu
1.4363 | 11 | bdhijklmpqs
1.4364 | 10 | bdhijklmpq
1.4365 | 11 | bdfhijklmpq
1.4366 | 12 | bdfghijklmpq
1.4367 | 11 | bdefghjklpq
1.4368 | 10 | bdefghklpq
1.4369 |  9 | bdefghklq
1.4370 |  7 | befghkl
1.4371 |  7 | abefghk
1.4372 |  6 | abefgh
1.4373 |  5 | abegh
1.4374 |  2 | ab
1.4375 |  1 | a
1.4376 |  1 | a
1.4377 |  1 | a
1.4378 |  1 | a
1.4379 |  1 | a
1.4380 |  1 | a
1.4381 |  1 | a
1.4382 |  1 | a
1.4383 |  2 | Ya
1.4384 |  2 | Ya
1.4385 |  2 | Ya
1.4386 |  4 | XYZa
1.4387 |  5 | TXYZa
1.4388 |  5 | TXYZa
1.4389 |  5 | TXYZa
1.4390 |  5 | TXYZa
1.4391 |  5 | TXYZa
1.4392 |  5 | TXYZa
1.4393 |  5 | TXYZa
1.4394 |  4 | TXYZ
1.4395 |  4 | TXYZ
1.4396 |  4 | TXYZ
1.4397 |  5 | TWXYZ
1.4398 |  5 | TWXYZ
1.4399 |  4 | TWXY
1.4400 |  5 | MTWXY
1.4401 |  6 | MTUWXY
1.4402 |  6 | MTUWXY
1.4403 |  5 | MTUWY
1.4404 |  5 | MTUWY
1.4405 |  5 | MTUWY
1.4406 |  7 | HMSTUWY
1.4407 |  6 | HMSTUW
1.4408 |  6 | HMSTUW
1.4409 |  8 | HMNSTUVW
1.4410 |  8 | HMNSTUVW
1.4411 |  8 | HMNSTUVW
1.4412 |  8 | HMNSTUVW
1.4413 |  8 | HMNSTUVW
1.4414 | 10 | HILMNSTUVW
1.4415 | 10 | HILMNSTUVW
1.4416 | 11 | AHILMNSTUVW
1.4417 | 12 | AHILMNOSTUVW
1.4418 | 13 | AHIJLMNOSTUVW
1.4419 | 13 | AHIJLMNOSTUVW
1.4420 | 14 | AHIJKLNORSTUVW
1.4421 | 14 | AHIJKLNORSTUVW
1.4422 | 15 | AGHIJKLNORSTUVW
1.4423 | 15 | AGHIJKLNORSTUVW
1.4424 | 15 | ABGHIJKLNORSUVW
1.4425 | 14 | ABGHIJKLNORSUV
1.4426 | 13 | ABGHIJKLORSUV
1.4427 | 13 | ABGHIJKLORSUV
1.4428 | 12 | ABGHIJKLORUV
1.4429 | 11 | BGIJKLOPRUV
1.4430 | 11 | BGIJKLOPRUV
1.4431 | 12 | BGIJKLOPQRUV
1.4432 | 12 | BGIJKLOPQRUV
1.4433 | 12 | BGIJKLOPQRUV
1.4434 | 11 | BGIJKLOPQRU
1.4435 | 10 | BGIJKLOPQR
1.4436 |  9 | BGIJKLPQR
1.4437 |  9 | BGIJKLPQR
1.4438 |  6 | BGIPQR
1.4439 |  5 | BGPQR
1.4440 |  5 | BGPQR
1.4441 |  4 | BGPQ
1.4442 |  4 | BGPQ
1.4443 |  4 | BGPQ
1.4444 |  4 | BGPQ
1.4445 |  4 | BGPQ
1.4446 |  5 | BCGPQ
1.4447 |  5 | BCFGP
1.4448 |  5 | BCFGP
1.4449 |  5 | BCFGP
1.4450 |  5 | BCFGP
1.4451 |  5 | BCFGP
1.4452 |  6 | BCDFGP
1.4453 |  6 | BCDFGP
1.4454 |  6 | BCDFGP
1.4455 |  5 | BCDFP
1.4456 |  4 | BCDF
1.4457 |  4 | BCDF
1.4458 |  4 | BCDF
1.4459 |  5 | BCDEF
1.4460 |  5 | BCDEF
1.4461 |  5 | BCDEF
1.4462 |  5 | BCDEF
1.4463 |  5 | BCDEF
1.4464 |  5 | BCDEF
1.4465 |  3 | BDE
1.4466 |  3 | BDE
1.4467 |  3 | BDE
1.4468 |  3 | BDE
1.4469 |  3 | BDE
1.4470 |  3 | BDE
1.4471 |  3 | BDE
1.4472 |  3 | BDE
1.4473 |  3 | BDE
1.4474 |  3 | BDE
1.4475 |  2 | DE
1.4476 |  2 | DE
1.4477 |  1 | E
1.4478 |  1 | E
1.4482 |  1 | E
1.4483 |  1 | E

这是一个老学校的茎和叶图，它是代表市场概况的规范方式。虽然这些信息是相关的，因为字母代码为您提供了关于“何时何地价格为”的直观指导，但您通常可能只对价格-时间分布感兴趣，这在没有字母代码的图表中很容易查看。如果你的简介涵盖 24 小时，这一点尤其正确，因为很难跟踪这么多的字母代码。在这种简化的情况下，更容易将数据绘制成常规图表，尽管您会丢失交易期间价格变化的信息:

%matplotlib inlinempl.rcParams['interactive'] = False
mpl.rcParams['figure.figsize'] = (16.0, 12.0)
mpl.rcParams['lines.markerfacecolor'] = 'blue'# Define price labels, we print just values ending in 0.0005 or 0.0010 
df.loc[df['price'] % Decimal('0.0005') == 0, 'label'] = df['price']
df['label'].fillna('',inplace=True)
df['label']=df['label'].astype(str)df.plot.barh(x='label', y='tpo_count', legend=None)
plt.xlabel('TPO Count')
plt.ylabel('Price')
plt.title('Market Profile | EURUSD | January 5th, 2010')
plt.show()

注意我们是如何创建一个新的标签列来保存 y 轴刻度标签的。我们将只打印以 0.0005 和 0.0010 结尾的价格，因此我们使用。loc ，。fillna 并最终转换为 str 以使我们的熊猫系列被用作标签。

The graphical alternative removing the code letters enable a quick read on the areas of interest of the trading session. While the letter code is relevant information, if we want to detect areas of high activity in the session this chart is easier to read.

摘要

在文章中，我简要介绍了市场概况。我已经解释了为什么我认为市场概况在今天仍然有意义，以及我为什么这样想的一些理由。我还列举了三个主要的经典书籍，涵盖了理论和一小部分摘录代码如何绘制市场概况。没有给出获取市场概况的例程，因为它非常具体地说明了如何存储数据，但是在这个例子中，用 Python 编写的原型只用了 50 行代码。这只是一页代码。

取得联系

我对这个特定的领域非常感兴趣，所以如果你在这个行业工作，并且对市场概况感兴趣，请随时联系我。我很乐意探索任何与市场概况和数量概况相关的合作(以及服务/雇佣)。

市场反应模型

原文：https://towardsdatascience.com/market-response-models-baf9f9913298?source=collection_archive---------3-----------------------

使用 Python 实现数据驱动的增长

预测促销活动的增量收益

这一系列文章旨在解释如何以一种简单的方式使用 Python，通过将预测方法应用于您的所有行动来推动您公司的发展。它将是编程、数据分析和机器学习的结合。

我将在以下九篇文章中讨论所有主题:

7-市场反应模型

文章将有自己的代码片段，使您可以轻松地应用它们。如果你是编程的超级新手，你可以在这里很好地介绍一下 Python 和 Pandas (一个我们将在任何事情上使用的著名库)。但是仍然没有编码介绍，您可以学习概念，如何使用您的数据并开始从中产生价值:

有时候你必须先跑，然后才能走——托尼·斯塔克

作为先决条件，确保你的电脑上安装了 J upyter Notebook 和 P ython 。代码片段只能在 Jupyter 笔记本上运行。

好吧，我们开始吧。

第 7 部分:市场反应模型

通过使用我们在以前的文章中建立的模型，我们可以轻松地细分客户和预测他们的终身价值 (LTV)以达到目标。顺便提一下，我们也知道我们的销售数字会是多少。但是我们怎样才能增加销售额呢？如果我们今天打折，预计会有多少增量交易？

细分客户和进行 A/B 测试使我们能够尝试许多不同的想法来增加销售额。这是增长黑客技术的基石之一。你需要不断地思考和实验来寻找成长的机会。

将我们要向其发送产品的客户分为测试组和对照组，有助于我们计算增量收益。

让我们看看下面的例子:

在此设置中，目标群体被分为三组，以寻找以下问题的答案:

1-提供报价会增加转化率吗？

2-如果是，什么样的报价表现最好？打折还是买一送一？

假设结果具有统计学意义，折扣(A 组)看起来最好，因为它比对照组增加了 3%的转化率，比买一送一多带来了 1%的转化率。

当然，在现实世界中，事情要复杂得多。一些优惠在特定的细分市场表现更好。因此，您需要为选定的细分市场创建一个产品组合。而且，不能指望转化是成功的唯一标准。总会有成本的权衡。一般来说，当转换率上升时，成本也会增加。这就是为什么有时你需要选择一个成本友好但转化较少的报价。

现在，通过实验，我们知道了哪个报价比其他报价表现得更好。但是预测呢？如果我们预测给出一个报价的效果，我们可以很容易地最大化我们的交易，并对成本有一个预测。市场反应模型帮助我们建立这个框架。但是做这件事的方法不止一种。我们可以把它们分成两类:

1-如果你没有一个控制组(想象你对每个人做了一次公开推广，并在社交媒体上公布)，那么你就无法计算增量。对于这种情况，最好建立一个预测整体销售的回归模型。之前的假设是，该模型将为促销日提供更高的销售数字。

为了建立这种模型，您的数据集应该包括促销和非促销日销售数字，以便机器学习模型可以计算增量。

2-如果您有一个控制组，您可以基于细分或个人级别建立响应模型。对他们两人来说，假设是一样的。给出要约应该会增加转化的概率。个人转化概率的上升会给我们带来增量转化。

让我们开始编码，看看我们如何建立一个个体水平的反应模型。在本例中，我们将在这里使用营销数据集和。但是我做了一些修改，使它与我们的案例更相关(你可以在这里找到****)。)

让我们导入我们需要的库并导入我们的数据:

我们数据的前 10 行:

我们的前 8 列提供个人级别的数据，转换列是我们预测的标签:****

最近:自上次购买以来的月数
历史:历史采购的价值
used_discount/used_bogo:指示客户是否使用了折扣或先买一送一
zip_code:邮政编码的分类，如郊区/城市/农村
is_referral:指示客户是否是从推荐渠道获得的
渠道:客户使用的渠道，电话/网络/多渠道
报价:发送给客户的报价，折扣/买一送一/无报价

我们将建立一个二元分类模型，对所有客户的转换概率进行评分。为此，我们将遵循以下步骤:

构建提升公式
探索性数据分析(EDA)和特征工程
对转换概率进行评分
观察测试集上的结果

隆起公式

首先，我们需要构建一个函数来计算我们的提升。为了简单起见，我们假设每次转换意味着 1 个订单，平均订单价值为 25 美元。

我们将计算三种类型的抬升:

转化率提升:试验组转化率-对照组转化率

订单提升:转换提升 #测试组中已转换的客户*

收入增加:订单增加*平均订单金额

让我们构建我们的calc _ upgrade函数:

def calc_uplift(df):
    #assigning 25$ to the average order value
    avg_order_value = 25

    #calculate conversions for each offer type
    base_conv = df[df.offer == 'No Offer']['conversion'].mean()
    disc_conv = df[df.offer == 'Discount']['conversion'].mean()
    bogo_conv = df[df.offer == 'Buy One Get One']['conversion'].mean()

    #calculate conversion uplift for discount and bogo
    disc_conv_uplift = disc_conv - base_conv
    bogo_conv_uplift = bogo_conv - base_conv

    #calculate order uplift
    disc_order_uplift = disc_conv_uplift * len(df[df.offer == 'Discount']['conversion'])
    bogo_order_uplift = bogo_conv_uplift * len(df[df.offer == 'Buy One Get One']['conversion'])

    #calculate revenue uplift
    disc_rev_uplift = disc_order_uplift * avg_order_value
    bogo_rev_uplift = bogo_order_uplift * avg_order_value

    print('Discount Conversion Uplift: {0}%'.format(np.round(disc_conv_uplift*100,2)))
    print('Discount Order Uplift: {0}'.format(np.round(disc_order_uplift,2)))
    print('Discount Revenue Uplift: ${0}\n'.format(np.round(disc_rev_uplift,2)))

    print('-------------- \n')print('BOGO Conversion Uplift: {0}%'.format(np.round(bogo_conv_uplift*100,2)))
    print('BOGO Order Uplift: {0}'.format(np.round(bogo_order_uplift,2)))
    print('BOGO Revenue Uplift: ${0}'.format(np.round(bogo_rev_uplift,2)))

如果我们将这个函数应用到我们的数据帧，我们将看到下面的结果:

如果我们想获得更多的转化率，折扣似乎是一个更好的选择。与没有收到任何优惠的客户相比，这带来了 7.6%的增长。BOGO(买一送一)也上涨了 4.5%。

让我们开始探索哪些因素是这种增量变化的驱动因素。

EDA 和特征工程

我们逐一检查每个特性，找出它们对转化率的影响

1-新近度

理想情况下，转换率应该下降，而新近度上升，因为不活跃的客户不太可能再次购买:

df_plot = df_data.groupby('recency').conversion.mean().reset_index()
plot_data = [
    go.Bar(
        x=df_plot['recency'],
        y=df_plot['conversion'],
    )
]plot_layout = go.Layout(
        xaxis={"type": "category"},
        title='Recency vs Conversion',
        plot_bgcolor  = 'rgb(243,243,243)',
        paper_bgcolor  = 'rgb(243,243,243)',
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
pyoff.iplot(fig)

直到最近 11 个月，一切都如预期的那样。然后就增加了。这可能是由于许多原因，如在这些桶中的客户数量较少或给定优惠的影响。

2-历史记录

我们将创建一个历史集群并观察其影响。让我们应用 k 均值聚类来定义历史上的重要群体:

kmeans = KMeans(n_clusters=5)
kmeans.fit(df_data[['history']])
df_data['history_cluster'] = kmeans.predict(df_data[['history']])#order the cluster numbers 
df_data = order_cluster('history_cluster', 'history',df_data,True)#print how the clusters look like
df_data.groupby('history_cluster').agg({'history':['mean','min','max'], 'conversion':['count', 'mean']})#plot the conversion by each cluster
df_plot = df_data.groupby('history_cluster').conversion.mean().reset_index()
plot_data = [
    go.Bar(
        x=df_plot['history_cluster'],
        y=df_plot['conversion'],
    )
]plot_layout = go.Layout(
        xaxis={"type": "category"},
        title='History vs Conversion',
        plot_bgcolor  = 'rgb(243,243,243)',
        paper_bgcolor  = 'rgb(243,243,243)',
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
pyoff.iplot(fig)

聚类和图与转换的概述:

****

历史价值较高的客户更有可能转化。

3-二手折扣& BOGO

我们将结合下面的代码行来检查这两个特性:

df_data.groupby(['used_discount','used_bogo','offer']).agg({'conversion':'mean'})

输出:

之前使用过这两种产品的客户拥有最高的转化率。

4-邮政编码

与其他地区相比，农村地区的转化率更高:

df_plot = df_data.groupby('zip_code').conversion.mean().reset_index()
plot_data = [
    go.Bar(
        x=df_plot['zip_code'],
        y=df_plot['conversion'],
        marker=dict(
        color=['green', 'blue', 'orange'])
    )
]plot_layout = go.Layout(
        xaxis={"type": "category"},
        title='Zip Code vs Conversion',
        plot_bgcolor  = 'rgb(243,243,243)',
        paper_bgcolor  = 'rgb(243,243,243)',
    )
fig = go.Figure(data=plot_data, layout=plot_layout)
pyoff.iplot(fig)

5-转介

如下所示，来自推荐渠道的客户转化率较低:

它们显示出几乎少了 5%的转化率。

6 通道

正如我们预期的那样，多通道显示了更高的转化率。使用多个渠道是高参与度的标志。

7-报价类型

获得折扣优惠的客户显示出约 18%的转化率，而 BOGO 的转化率为约 15%。如果客户没有得到优惠，他们的转化率下降约 4%。

这些数据的特征工程将非常简单。我们将应用。get_dummies()** 将分类列转换为数字列:**

df_model = df_data.copy()
df_model = pd.get_dummies(df_model)

是时候建立我们的机器学习模型来评估转换概率了。

评分转换概率

为了构建我们的模型，我们需要遵循我们在文章前面提到的步骤。

让我们从分割特征和标签开始:

#create feature set and labels
X = df_model.drop(['conversion'],axis=1)
y = df_model.conversion

创建训练集和测试集:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=56)

我们将拟合模型并得到转换概率。我们模型的 predit_proba()** 函数为每一行分配概率:**

xgb_model = xgb.XGBClassifier().fit(X_train, y_train)
X_test['proba'] = xgb_model.predict_proba(X_test)[:,1]

让我们看看概率栏是什么样子的:

从上面可以看出，我们的模型为每个客户分配了转换概率(从 0 到 1)。

最后，我们需要了解我们的模型是否运行良好。

测试集的结果

现在我们假设，折现概率、bogo 和控制组的差异应该类似于它们之间的转换差异。

我们需要使用我们的测试集来找出答案。

让我们计算折扣的预测和实际订单增长:

real_disc_uptick = len(X_test)*(X_test[X_test['offer_Discount'] == 1].conversion.mean() - X_test[X_test['offer_No Offer'] == 1].conversion.mean())pred_disc_uptick = len(X_test)*(X_test[X_test['offer_Discount'] == 1].proba.mean() - X_test[X_test['offer_No Offer'] == 1].proba.mean())

对于实际上涨计算，我们使用了转换列。对于预测的那个，我们换成了 proba 。

结果相当不错。真正的订单上升是 966 ，模型预测为 948 (1.8%误差)。****

收入上涨预测对比: 24150 vs 23700。

我们需要检查结果是否对 BOGO 有利:

real_bogo_uptick = len(X_test)*(X_test[X_test['offer_Buy One Get One'] == 1].conversion.mean() - X_test[X_test['offer_No Offer'] == 1].conversion.mean())pred_bogo_uptick = len(X_test)*(X_test[X_test['offer_Buy One Get One'] == 1].proba.mean() - X_test[X_test['offer_No Offer'] == 1].proba.mean())

BOGO 有希望的结果:

订单上升-实际与预测: 563 与 595

收入增长—实际与预测: 14075 对 14875

误差率在 5.6%左右。该模型可以受益于提高对 BOGO 要约类型的预测分数。

计算转换概率在不同领域对我们也有很大帮助。我们已经预测了不同类型优惠的回报，但它也可以帮助我们找到最大限度提升的目标客户。在下一篇文章中，我们将构建自己的提升模型。

你可以在这里找到这篇文章的 Jupyter 笔记本。

需要帮助来发展你的公司吗？点击此处与我预约免费课程。

R (PCA & K-means 聚类)市场细分—第 1 部分

原文：https://towardsdatascience.com/market-segmentation-with-r-pca-k-means-clustering-part-1-d2c338b1dd0b?source=collection_archive---------2-----------------------

已经存在了几十年的市场研究方法的数据科学方法

什么是市场细分？

对于那些营销领域的新手，这里有一个方便的维基百科式的解释:市场细分是营销中使用的一个过程，根据客户的特征(人口统计、购物行为、偏好等)将客户分为不同的群体(也称为细分)。)同一细分市场的顾客往往对营销策略的反应相似。因此，细分过程可以帮助公司了解其客户群体，锁定正确的群体，并为不同的目标群体量身定制有效的营销策略。

个案研究

本文将通过使用 r 的样本调查数据集演示数据科学方法进行市场细分的过程。在本例中，便携式手机充电器制造商 ABC company 希望了解其细分市场，因此它通过调查研究从便携式充电器用户那里收集数据。调查问题包括四种类型:1)态度 2)人口统计 3)购买过程和使用行为 4)品牌认知。在这种情况下，我们将只使用态度数据进行细分。在现实中，决策者选择不同类型的输入变量(人口统计、地理、行为等。)基于它们的个别情况进行分段。尽管如此，无论您选择哪种输入，想法都是一样的！

(注:Thomas W. Miller 在他的书营销数据科学:用 R 和 Python 进行预测分析的建模技术中提出了一个关于使用销售交易数据作为细分输入的很好的观点。简而言之，他警告不要用销售交易数据进行细分，因为销售信息只对当前客户可用。当你有一个新客户时，如果没有他/她的销售数据，你很难利用你获得的洞察力。)

在我们深入研究方法和模型之前，请记住，作为一名负责任的数据分析师，首先要了解您的数据！

检查数据

# Importing and checking Dataraw <- read.csv(“Chargers.csv”)
str(raw)
head(raw)

Data Structure

A snippet of the data

我们数据中的每一行代表一个回答者，每一列代表他/她对相应调查问题的回答。共有 2500 名受访者和 24 个态度问题。所有这些都是评级问题，询问受访者对某一陈述的看法。答案在 1-5 的范围内。这里有一个例子:

请指出您对以下陈述的同意或不同意程度(1 =完全不同意，5 =完全同意)。

在购买便携式手机充电器时，我最看重款式。

…

理解了问题的本质，我们接下来可以验证数据集中的数据。编写一个简单的函数有时会有用:

# Verifying Data describe(raw)
colSums(is.na(raw)) #Checking NAs 
table(unlist(raw[,]) %in% 1:5) #Simple Test

R 中的 validate 包也是一个方便的数据验证工具。它允许您根据自己创建的一组规则来测试数据。然而，我发现在处理大型数据集时，它并不是最方便的。我仍在寻找有效验证数据质量的替代方法(最好是系统)。我将非常感谢任何建议。

现在我们已经验证了我们的数据，我们对它们有信心，让我们继续更有趣的东西！

主成分分析

“维度缩减”这个术语曾经让我感到恐惧。然而，它并不像听起来那么复杂:它只是从无数数据中提取本质的过程，因此新的、更小的数据集可以表示原始数据的独特特征，而不会丢失太多有用的信息。可以把它想象成毕加索的立体主义绘画，他用几条线和几个形状优雅地抓住了一个物体的本质，忽略了许多细节。对我来说，我总是喜欢想起他的吉他。如果你有其他的作品，请评论！！

Guitar 1914 by Pablo Picasso

PCA 是一种降维形式。StatQuest 的这个视频(大声说出我最喜欢的统计/数据科学视频频道)非常直观地解释了这个概念。如果这是你第一次听说 PCA，我强烈建议你观看这个视频。简而言之，PCA 允许您获取具有大量维度的数据集，并将其压缩为具有较少维度的数据集，这仍然可以捕获原始数据中的大多数差异。

你会问，为什么 PCA 有助于将客户分成不同的群体？假设您需要根据客户对这些调查问题的回答来区分他们。您遇到的第一个问题是如何根据它们对 24 个变量的输入来区分它们。当然，你可以试着想出几个主要的主题来总结这些问题，并为每个主题给每个回答者分配一个“分数”，然后根据分数将他们分组。但是你怎么能确定你提出的主题在划分人方面是真正有效的呢？你如何决定每个问题的权重？再者，如果你有 5000 个变量而不是 24 个，你会怎么做？人脑根本无法在短时间内处理这么多信息。至少我的大脑肯定不能。

Photo by ME.ME on Facebook

这就是 PCA 可以介入并为您完成任务的地方。对我们的数据执行 PCA，R 可以将相关的 24 个变量转换成更少的不相关变量，称为主成分。有了更小的压缩变量集，我们可以轻松地执行进一步的计算，并且可以研究数据中一些最初难以发现的隐藏模式。

当有大量的文献/视频/文章提供了关于五氯苯甲醚的详尽解释时，我希望为那些认为这些材料过于专业的人提供一些关于五氯苯甲醚的高层次观点:

可变性使数据变得有用。想象一个有 10，000 个统一值的数据集。它没有告诉你太多，而且很无聊。😑
同样，主成分分析的功能是创建一个更小的变量子集(主成分)，以捕捉原始的、大得多的数据集中的可变性。
每个主成分是初始变量的线性组合。
每个主成分彼此具有正交关系。这意味着它们不相关。
第一个主成分(PC1)捕获数据中最大的可变性。第二主成分(PC2)抓住了第二多的。第三主成分(PC3)抓住了第三最……等等****

此外，如果您计划为您的项目运行 PCA，您应该知道以下几个术语:

****加载描述了原变量和新主成分之间的关系。具体来说，它描述了在计算新的主成分时赋予原始变量的权重。
****分数描述了原始数据和新生成的轴之间的关系。换句话说，score 是主成分空间中数据行的新值。
****方差比例表示每个主成分占总数据可变性的份额。它通常与累积比例一起使用，以评估主成分的有用性。
****累计比例代表累计由连续主成分解释的方差比例。所有主成分解释的累积比例等于 1(解释了 100%的数据可变性)。

在 R 中运行 PCA

在运行 PCA 之前，您应该查看一下您的数据相关性。如果您的数据不是高度相关的，您可能根本不需要 PCA！

# Creating a correlation plot library(ggpcorrplot)
cormat <- round(cor(raw), 2)
ggcorrplot(cormat, hc.order = TRUE, type = “lower”, outline.color = “white”)

Correlation Plot

如图所示，我们的变量非常相关。我们可以愉快地前往✌.的 PCA️

# PCA
pr_out <-prcomp(raw, center = TRUE, scale = TRUE) #Scaling data before PCA is usually advisable! 
summary(pr_out)

PCA Summary

有 24 个新的主成分，因为我们首先有 24 个变量。第一个主成分占数据方差的 28%。第二主成分占 8.8%。第三种占 7.6%…我们可以用一个 scree 图来形象化这一点:

# Screeplot
pr_var <-  pr_out$sdev ^ 2
pve <- pr_var / sum(pr_var)
plot(pve, xlab = "Principal Component", ylab = "Proportion of Variance Explained", ylim = c(0,1), type = 'b')

Scree plot

x 轴描述主成分的数量，y 轴描述每个主成分解释的方差(PVE)的比例。解释的方差在 PC2 后急剧下降。这个点通常被称为拐点，表示应该用于分析的 PC 数量。

# Cumulative PVE plot
plot(cumsum(pve), xlab = "Principal Component", ylab = "Cumulative Proportion of Variance Explained", ylim =c(0,1), type = 'b')

Cumulative Proportion of Variance

如果我们只选择 2 个主成分，它们将产生不到 40%的数据总方差。这个数字也许不够。

选择 PC 数量的另一个规则是选择特征值大于 1 的 PC。这被称为凯泽规则，这是有争议的。你可以在网上找到很多关于这个话题的辩论。

基本上，没有单一的最佳方法来决定电脑的最佳数量。人们出于不同的目的使用 PCA，在做出决定之前，考虑您想从 PCA 分析中获得什么总是很重要的。在我们的案例中，由于我们使用 PCA 来确定有意义且可行的市场细分，我们应该明确考虑的一个标准是我们决定的电脑在现实世界和商业环境中是否有意义。

解释结果

现在让我们挑选前 5 台电脑，因为 5 个组件并不太难处理，而且它遵循凯泽法则。

接下来，我们想让这些电脑有意义。还记得在计算新的主成分时，负荷描述了每个原始变量的权重吗？它们是帮助我们解释 PCA 结果的关键。当直接处理主成分分析负荷可能会很棘手和混乱时，我们可以轮换这些负荷以使解释更容易。

有多种旋转方法，我们将使用一种称为“varimax”的方法。(注意，这一步旋转不是 PCA 的一部分。它只是有助于解释我们的结果。这里的是一个很好的话题。)

# Rotate loadings
rot_loading <- varimax(pr_out$rotation[, 1:5])
rot_loading

Varimax-rotated loadings up to Q12

这是截至 Q12 的 varimax 旋转负载的不完整部分。表中的数字对应于我们的问题(原始变量)和所选组件之间的关系。如果数字为正，则变量对分量的贡献为正。如果是负的，那么它们是负相关的。数字越大，关系越密切。

有了这些数据，我们可以参考我们的调查问卷，了解每台电脑的功能。例如，我们来看看 PC1。我注意到 Q10、Q3 和 Q7 对 PC1 有负面影响。另一方面，我发现 Q8 和 Q11 对 PC1 有积极的贡献。查看问卷，我意识到 Q10、Q3 和 Q7 是与充电器的风格相关的问题，而 Q8 & Q11 关注的是产品的功能。因此，我们可以暂时得出结论，PC1 描述了人们对产品功能的偏好。更看重功能的人可能不太在乎风格，这是有道理的。

然后，您可以转到 PC2，按照相同的步骤解释每台 PC。我不会在这里介绍完整的过程，我希望你已经明白了。一旦你检查了所有的个人电脑，感觉每一台都描述了独特的、逻辑上连贯的特征，并且你相信它们具有商业意义，你就可以进行下一步了。但是，如果您觉得 PCs 中缺少或重复了一些信息，您可以考虑返回并包含更多的 PCs，或者您可以删除一些。您可能需要经历几次迭代，直到获得满意的结果。

我们完了！！

开玩笑的。但是你已经成功了一半。您已经完成了将大型数据集压缩为较小数据集的过程，其中包含一些变量，可以帮助您使用 PCA 识别不同的客户群。在下一篇文章中，我将介绍如何使用聚类方法，根据我们获得的 PC 对我们的客户进行细分。

最后，祝所有了不起的女超人#国际快乐👯👧 💁 👭！

感谢阅读！💚随时和我联系Linkedin！**

Zalando 的营销 A/B 测试

原文：https://towardsdatascience.com/marketing-a-b-testing-at-zalando-c069195bfe14?source=collection_archive---------15-----------------------

Zalando Office Tamara-Danz-Straße, Berlin-Friedrichshain

深入分析

使用聚类分析启用基于位置的 A/B 测试

供稿人:卡斯滕·拉希、托马斯·佩尔、马丁·卡斯滕、让·德·布雷西

Zalando 营销 A/B 测试分析的目标是得出营销行动的增量影响。这些分析的结果形成了在所有营销渠道中优化预算分配的基础，从而形成了高效的营销投资回报导向。这是我们在 Zalando 的需求计划&分析的 A/B 测试团队的任务。

我们的主要测试方法之一是地理实验，在这种实验中，我们将一个市场分成高度相关的区域组。测试组和控制组之间高度相关的销售行为是 geo A/B 实验的前提条件，因为测试和控制区域之间的低相关性会导致预测中的噪声，从而降低识别影响(如果有影响的话)的概率。芬兰是唯一一个营销渠道不以投资回报为导向的市场，因为基于地理位置的 A/B 测试在该国并不简单。这是因为大多数芬兰人生活在南部，仅乌西马地区就有约 30%的人口[1]。因此，订单总额的地区差异很大。芬兰北部地区的每日订单数量很少，因此在根据给定的地区总量(如联邦州、市)比较时间序列时，几乎不可能找到高度相关的组。

因此，我们需要为芬兰找到不同的位置定义。克服这个问题的一个解决方案是，与现有的区域定义相比，将国家分成更小的集群。以这种方式，可以增加区域分裂组合，因此也增加了发现“区域双生子”的可能性。这可以通过使用谷歌营销领域(GMA 的)来实现。但是，GMA 定义不适用于芬兰。

出于这个原因，我们创建了城市集群定义，以使芬兰可测试。这是通过 K-均值聚类分析方法实现的。

在城市位置数据中查找聚类

K-Means 聚类算法是在数据集中发现 K 个不同类别的相似对象的常用方法[2]。在这种情况下，聚类方法依赖于公开可用的城市位置数据[3]，包括带有芬兰 317 个城市的纬度和经度信息的 GPS 坐标[图 1]。

Figure 1: GPS data of 317 Finnish locations, shown in a Cartesian coordinate system (left) and in a cylindrical projection map [4] (right).

为了显示芬兰城市的区域分布，笛卡尔坐标被转换为柱坐标，并通过地理点绘图仪绘制在芬兰地图上[4]。所使用的数据集仅限于由广告投放系统控制的城市列表，如谷歌和脸书。如果输入数据还包括不可操纵的城市，则可能存在由于不干净的 A/B 测试分割而导致聚类结果不可用的风险，并且聚类内的观测值数量可能不足。

除了原始数据之外，算法[图 2]需要聚类数 K 作为输入。原因是，聚类是一种无监督学习方法【5】，意味着算法“从未标记的数据中发现[s]隐藏的结构”[6]，并且不会自动导出最佳 K 参数[7]。

Figure 2: K-Means Clustering Algorithm.

定义 K 参数后，K 均值聚类算法分 3 步进行[8]:

在随机位置初始化 K 个聚类中心(质心);
基于数据点和质心之间的最小欧几里德距离对数据进行分组；
通过平均分配给相应聚类的所有数据点来重新计算聚类中心。

最后两步迭代重复，直到算法收敛到稳定的聚类分配。当簇内方差不能再降低时，达到收敛标准[7]，使得簇尽可能紧凑[9]。

更正式地说，给定 k 个簇的数据点{x1，…，xn}和质心{c1，…，ck}，这意味着“最小化[…]平方误差函数”[7]:

换句话说，等式 1.1 的目标是最小化所有组中聚类内距离平方和的总和。收敛的阈值是 1e-4 [10]。该表达式

上式中是欧氏距离函数，也可以写成[11]:

欧几里德距离是距离测量的常用度量，定义为“两个向量[11] x 和 c 的对应元素之间的平方差之和的平方根”。该度量用于根据数据点之间的最小距离将数据点分配到最近的质心[12]。

值得一提的是，该算法在任何情况下都收敛于局部最小值，而不一定是全局最小值[12]。这意味着不能保证当前结果是可能的最佳输出，因为初始质心的随机选择会导致每次运行的不同聚类结果。为了找到一个可能更好的结果，算法执行应该重复几次，如图 3 所示。

Figure 3: Clustering score for a fixed K (K=7) after 1000 iterations.

图 3 表明，平方距离之和(SSE)在 1000 次迭代步骤中并不完全稳定，这意味着由于随机起始参数，每次运行都可能产生略微不同的 SSE。

选择最佳聚类数

K 参数的值决定了聚类的数量，从而也决定了数据点向聚类的分配。在我们的例子中,“肘方法”被用作估计最佳聚类数 k 的常用技术。第二步，我们通过比较聚类之间的阶数来验证肘方法的结果。平衡聚类的订单量非常重要，因为太小的聚类产生的噪声数据会降低在 geo A/B 测试中获得显著结果的可能性。“弯管法”包括以下步骤[13]:

针对不同的 K 值对数据集执行 K 均值算法，在这种情况下，K 的范围在 1 和 20 之间；
计算每个 K 的城市和质心之间的 SSE
在折线图中绘制结果。

SSE 随着 K 参数的增加而减小。所选择的 K 参数应该在它的值和 SSE 仍然很小的点。有一个 K，上证指数的下跌速度急剧变化，曲线开始变平。这是最佳的 K 参数，称为“肘点”。

Figure 4: Clustering score for a range of different K parameters.

图 4 显示，在这种情况下，拐点并不明显，但可以考虑 K 参数的范围，因为在曲线开始变平之前，从 1 到大约 8 的 K 值越小，SSE 下降的速率越高。为此，对不同 K 参数的这个值范围执行 K 均值算法。这样，通过比较相应的聚类结果并选择 K 值，可以找到最佳 K 参数，该 K 值产生总订单量的聚类内方差尽可能低的聚类分配。组内方差越低，高度相关组的概率越高，从而在 geo A/B 测试中检测到潜在影响的概率越高。

由于至少需要两个集群作为控制或测试组，K 参数 1 可以忽略。介于 2 和 6 之间的 k 值导致城市分组不理想，这反映在聚类之间的订单量差异很大。群集有序级别的高变化意味着该国被划分为人口密集的地区和农村地区。由于地区之间销售行为的差异较大，这可能导致较低的聚类内相关性，从而导致检测潜在影响的可能性较小。对于大于 6 的 K 值，最大的城市坦佩雷和赫尔辛基被单独分组，并且每个聚类的订单数更加均衡，这增加了高度相关的聚类的机会。

K 参数 K=7 被证明是所用数据集的最佳值，因为 K=8 的 K 参数不会导致聚类输出的进一步改善。原因是，这只是导致芬兰北部进一步分裂成一个额外的集群，这意味着该国人口较少的部分被分成更小的集群。结果是订单量的群内方差再次增加。

K 参数的验证

由于初始质心是随机定位的，该算法每次运行都会产生不同的结果[14]。几次迭代之间的平方距离之和的偏差大小可以指示聚类算法的稳定性。为了弄清楚这一点，该算法已经执行了 1000 次，并且对每次运行都绘制了平方距离的总和(见图 3)。图 3 中绘制的线表明，虽然每次运行的算法输出不相同，但是 1000 次迭代之间的平方距离之和的变化很小。这意味着聚类结果仅略有不同，并且对于 K=7，聚类分数相当稳定。

为了分析几次运行的聚类结果之间的聚类分配的可变性，通过对 K=7 的固定 K 值重复该算法，产生了 6 个聚类输出(图 5)。

Figure 5: Clustering results of 6 runs of the K-Means algorithm for K=7 with the 7 city clusters and their centroids (marked as stars).

比较的角度是在 6 次算法运行中质心位置的可变性，以找出哪些聚类变化导致了聚类分数的小波动。聚类输出的比较表明，质心的位置在 6 次运行中保持相当稳定。这意味着聚类分配仅针对几个单独的城市而改变，最大比例的数据点在迭代中保持在同一个聚类中。

只有主要包括拉普兰地区的最北部集群显示出质心位置的可见变化。这是因为该区域的观测数量较少，导致它们之间的距离较大。因此，1000 次迭代之间的平方距离之和的变化(如上所述)可能主要是由位于北部的城市的相对不稳定的组分配引起的。如下所示，由于这些城市的聚类将与其相邻的聚类进行分组，因此可以忽略聚类分配的变化。

聚类结果:可测试的地理分割

K-Means 分类产生了七个城市集群及其中心(图 6 左侧)。为了确保每个聚类中的日订单量处于可测试的水平，五个较小的聚类被分组以形成一个较大的区域(图 6 右侧)。

Figure 6: Result of the K-Means Cluster Analysis, showing the output with 7 clusters (left) and the final grouping into 3 geo testing regions (right).

每日订单数量越少，数据中出现噪音的风险就越高。噪声数据的后果是聚类之间的相关性较低，因此检测潜在影响的概率较低。

结果，我们得到了三个地理分割区域:“赫尔辛基”(区域 1)、“坦佩雷”(区域 2)和“芬兰北部”(区域 3)。这种区域分割证明是一种可测试的设置，因为在 2018 年 10 月至 2019 年 1 月中旬的时间段内，区域时间序列之间的相关性达到约 98%的值(就总订单而言)。此外，在计算 2018 年全年的相关性时，这些值大致保持在相同的范围内(96%-98%)。

由于赫尔辛基是订单总量最大的地区，因此被分配到试验组，坦佩雷和芬兰北部被分配到对照组。测试区域应该具有最高的总订单份额，因为这是被测试通道被打开的组。这确保了测试活动在全国大部分地区运行，从而尽可能减少 geo A/B 测试的总印象数。这对于保证测试后的最佳活动范围非常重要，因为测试总是要求将一些地区从活动目标中排除。

为了验证这种分割，对这些区域进行了可能影响的测试。赫尔辛基(试验组)与两个地区坦佩雷和芬兰北部(对照组)之间的相对效应差异通过抬升分析进行测试。分析得出 0.2%的不显著效应(52%显著性)，两组之间的相关性为 99.5%。该结果证实了高度相关的总顺序行为，并且在测试之前，组之间没有显著差异，因为测量的效果接近于零，并且明显低于 90%的显著性水平。

聚类结果用于实施芬兰的首个地理分割设置。本次地理测试的目的是测量 2019 年 Zalando 赛季开始活动期间展示计划的增量性能。赫尔辛基区域被定义为测试组，在该测试组中，被测通道被打开并运行 4 周。另外两个区域坦佩雷和芬兰北部被设置为控制区域，这意味着在相应的城市中没有打开显示编程。测试停止后，可以计算对总订单的增量影响，这是测试组中观察到的数据和模型预测之间的累积每日差异。

这是 Zalando 芬兰投资回报指导的开始，因为该国的营销预算分配可能首次基于 A/B 测试结果。

局限性和后续步骤

在 2019 年 Zalando 赛季开始活动期间，对显示程序性地理分割测试的分析产生了重要而可信的结果。这意味着所示方法已被证明是在芬兰为 geo A/B 测试创建测试和控制区域的有用方法。尽管使用的测试设置产生了高度相关的组，但是仍然有优化集群的空间。考虑到当前的划分只包含 3 个组，并且尽管进行了测试，但仍应确保最佳的活动范围，因此重新分组的选项非常有限。这增加了发生系统性错误的风险，因为赫尔辛基地区可能会由于大都市和农村地区的人之间潜在的不同行为而导致大都市效应。重新聚类和使用具有更多可测试组的更可变的聚类有助于克服这个问题。为此，人口最稠密的地区赫尔辛基和坦佩雷可以进一步划分成更小的集群。更多数量的区域增加了区域分割组合，从而增加了 geo A/B 测试能力。

参考

[1]欧盟委员会， 赫尔辛基-Uusimaa 地区(2019 年 2 月 15 日)，区域创新监测 Plus。

[2] M. Khan， KMeans 聚类分类(2017 年 8 月 2 日)，走向数据科学。

[3] 芬兰城市&城镇人口(2004–2019)，Tageo -地理坐标信息。**

[4] D .沃特金斯，地理点绘图仪。一个快速绘制出地理坐标列表的工具 (n. d.) 。

[5] P. Sayak，K-用 scikit 表示 Python 中的聚类-learn(2018 年 7 月 5 日)，DataCamp 教程。

[6] G .塞尔丁， 新课程:Python 中的无监督学习(2017 年 2 月 22 日)，DataCamp 教程。**

[7] S. Sayad，《数据科学导论》。K-均值聚类(2010–2019)。**

[8] F. Doukkali， 利用 K-means 算法进行聚类 (12/19/2017)，走向数据科学。

[9] B. Boehmke， UC 商业分析 R 编程指南。 K-means 聚类分析 (n. d .)，辛辛那提大学，大学讲座。

[10]sci kit-学习开发者。sk learn . cluster . k means(2007–2018)。**

[11] S. Borgatti， 距离与相关性(2007 年春季)，多元统计，波士顿学院，大学讲座。

[12] A .特雷维尼奥，学习数据科学，机器学习。K-means 聚类简介(2016 年 12 月 6 日)。**

[13] R. Gove， 利用肘方法确定 k-means 聚类的最优聚类数(2017 年 12 月 26 日)，Robert Gove's Blocks。**

[14] M. V. B. T. Santhi，V. R. N. Sai Leela，P. U. Anitha，& D. Nagamalleswari，增强 K 均值聚类算法 (2011)。国际计算机科学杂志&技术，IJCST ， 2 (4)，73–77。**

营销分析——任何人都可以做到

原文：https://towardsdatascience.com/marketing-analytics-anyone-can-do-it-750d8ca63806?source=collection_archive---------9-----------------------

Marketing Analytics

就在几年前，与营销分析相关的工作还很少。那么现在，这个行业正在蓬勃发展，就业机会正在上升。原因可能是数据科学被广泛采用后，与市场营销自然结合。而且因为直接关系到一个公司的销售业绩，所以越来越受到重视。

我经常收到这些问题。营销分析是做什么的？我该怎么做？营销分析的职业道路是什么？本文就是要解决这些问题。

营销分析通过分析营销数据优化公司投资回报率。
任何拥有数据分析技能、营销和产品意识的人都可以从事营销分析工作。
营销分析部门的工作范围很广，有能力领导一家公司的营销分析职能。

这份工作主要服务于公司的营销部门。就是通过分析各类营销数据来优化回报率，以指导公司的资源配置。营销分析在我看来可以分为两个分支:客户生命周期分析和营销渠道分析(见下图)。

Image Copyright: Dr. Alan Zhang

营销的本质是面对和服务消费者。每个消费者都有他或她的生命周期。因此，营销分析的一个重要分支是客户生命周期分析。就是围绕消费者进行数据分析，产生洞察来指导营销活动。具体来说，它包括市场细分、消费者终身价值分析、获取新客户、维护老客户和提高客户参与度等分析。其中，企业对企业的营销(B2B 营销)，由于其购买过程的独特性，会有一些特定的分析，如需求漏斗分析，线索评分，等等。

营销分析的另一个重要分支是营销渠道分析。营销信息的传播依赖于渠道或媒介，如何高效地让消费者接收信息非常重要。信息的制作和渠道的部署需要资金和人力。因此，每个公司的当务之急是分配资源，使投资回报最大化。要做到这一点，需要一系列研究和分析的支持。

信息从渠道传播出去后，我们需要通过技术进行跟踪，衡量每一条信息/渠道的效果。一般来说，消费者在购买之前会通过多种渠道收到多种营销信息。我们需要准确地归因，以帮助公司获得正确的反馈。在这上面，我们会用一些统计模型比如营销组合建模，从各种因素中剔除无关信息，得到相应的影响参数。这些参数最终将用于优化资源分配的决策。

因为每个渠道/媒体都有其独特性，企业往往需要通过数据分析来优化渠道。例如，在电子邮件营销中，何时发送给哪些消费者会影响打开率和点击率。随着消费者在网上花费越来越多的时间，数字营销分析已经成为许多公司的首要任务，涉及搜索引擎优化、社交媒体优化等分析。程序化广告也是一个方向，目标是优化曝光，最大化转化率。

相关技能有哪些？

在最高级别，它是使用分析方法在复杂多样的数据中发现模式的能力，并生成可供营销人员决策使用的商业见解。我具体阐述如下(见下图)。

Image Copyright: Dr. Alan Zhang

第一，你要有分析常见营销问题的能力。与咨询行业的案例研究一样，它遵循一个特定的框架。例如，电子邮件营销团队需要您帮助开展一项活动。首先，你可能想确定事件的性质，是品牌曝光、促销还是事件。第二，你可以决定哪些指标需要优化，是打开率，点击率，购买率，还是用户参与度。再者，你可以确定目标群体是谁，是潜在客户还是长期不购买的老客户。还有，活动举办后，你需要确定用什么方法来分析活动的效果和影响范围。一些传统的分析方法是细分、群组分析、客户终身价值等。

第二，你应该具备基本的统计学知识，以及建立统计学或机器学习模型来解释和预测行为的能力。扎实的统计知识确保产生的业务洞察具有统计意义，例如 A/B 测试。各种类型的机器学习模型可以帮助你从数据中快速提取模式，预测未来的行为。仅仅知道如何使用一个包或者编写算法是不够的。更重要的是能够提出正确的业务问题，并使用这些工具来解决它们。此外，一些具体的营销分析方法，如营销组合模型和流失模型，也是很好的了解。

再者，你也要有技术能力。它包括使用 SQL 从数据库中提取有用的信息，以及使用 R 或 Python 处理数据和建立预测模型。知道数据可视化工具也是很可爱的，比如 Tableau，Looker，PowerBI 等。，并将分析结果呈现给职能合作伙伴。知道如何使用第三方管理工具更好，例如用于网站流量跟踪的 Google Analytics、用于 CRM 的 Salesforce 等等。

最后但同样重要的是，最关键的能力是向你的听众简明扼要地传达复杂的技术问题，以影响决策。如图 1 所示，营销分析服务于营销职能，但也需要与其他部门合作，如销售、产品、工程等。因此，你能否让招聘经理相信你能有效沟通，将是需要评估的软技能。

如何获得这些技能？

熟能生巧！你可以在网上找资源学习基础知识，比如网络课程、博客、书籍等。，并做一些相关的项目。如果你能找到在该领域更有经验的同行作为导师，学习将更有效率，并有助于避免一路上走弯路。

作者简介:Alan Zhang 博士以前是一名市场营销教授，他的研究兴趣是电子邮件营销、客户生命周期管理和客户终身价值。《哈佛商业评论》报道了他对客户温贝克的研究。他现在是 GitHub 的营销分析经理。

在业余时间，他教授营销分析的各种主题。他在 Udemy 上有一门关于客户终身价值的入门课程。补充这篇文章的是 PASS(数据专业人士社区)邀请他做的一次演讲，主题是营销分析:为什么、做什么和如何做。

营销分析:客户 EDA 回归

原文：https://towardsdatascience.com/marketing-analytics-customer-eda-regression-482e3191549a?source=collection_archive---------17-----------------------

最近，我一直在做一些数据科学营销咨询，并希望分享一些在此过程中应用的技能。在本文中，我们将回顾探索性数据分析(EDA ),以及应用逻辑回归对客户进行的营销活动。

在营销活动中，客户参与度是衡量营销努力的一个关键指标。例如，电子邮件客户参与度可以通过打开或未打开的电子邮件数量来衡量[1]。有利可图的营销活动将创造大量的参与度。另一方面，糟糕的营销会让顾客远离你的生意。我们都经历过——收到烦人的广告。有时，当我确实需要他们的服务时，我会从他们的直接竞争对手那里购买。

EDA 帮助我们理解为什么要使用数据。借助 EDA，您可以分析对结果至关重要的驱动因素。回归是一种工具，可以用来检查驱动因素和预期结果之间的关系。我们将回顾逻辑回归模型来分析是什么创造了更好的客户参与度。有趣的数据科学访谈事实上，逻辑回归是为寻找二元结果而创建的(例如，是/否、癌症/没有癌症、已购买/未购买等)。) [2].

数据集取自:https://www . ka ggle . com/pankajjsh 06/IBM-Watson-marketing-customer-value-data/downloads/IBM-Watson-marketing-customer-value-data . zip/1

加载数据

#Load up packages and data
import matplotlib.pyplot as plt
import pandas as pd
import statsmodels.api as smmdata = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')

#How big the data set is:
mdata.shape

(9134, 24)

#Taking a look at the values
mdata.head()

客户参与的期望输出是 Response 列，它不会被转换为数字。逻辑回归模型喜欢用数字来表示值，所以我们必须帮助它。

#Converting our target/output variable into a numerical
mdata['Engaged'] = mdata['Response'].apply(lambda x: 0 if x == 'No' else 1)

检查参与率

接下来，我们将检查参与率，即接触过我们营销的客户的百分比。

engagement_rate_mdata = pd.DataFrame(mdata.groupby('Engaged').count()['Response'] / mdata.shape[0] * 100.0)
engagement_rate_mdata

有更多的客户没有参与我们的营销，所以从原始数据进行分析是很困难的。为了使分析更容易，我们将构建饼图。

engagement_by_sales_channel_mdata.plot(kind='pie',figsize=(15, 7),startangle=90,
    subplots=True,autopct=lambda x: '%0.1f%%' % x)plt.show()

从这些图表中可以看出，约一半的参与客户来自代理商，而未参与客户分布在不同的渠道。

索赔总额

在我们开始回归分析之前，我们先来看看箱线图中的总索赔额。

ax = mdata[['Engaged', 'Total Claim Amount']].boxplot(
    by='Engaged',showfliers=False,figsize=(7,5))ax.set_xlabel('Engaged')
ax.set_ylabel('Total Claim Amount')
ax.set_title('Total Claim Amount Distributions by Engagements')plt.suptitle("")
plt.show()

箱线图是查看连续变量分布的好方法。矩形代表第一个四分位数到第三个四分位数，绿线代表中位数。末端是最小值和最大值。showfliers=False 允许我们发现可疑的异常值，如下所示:

ax = mdata[['Engaged', 'Total Claim Amount']].boxplot(
    by='Engaged',showfliers=True,figsize=(7,5))ax.set_xlabel('Engaged')
ax.set_ylabel('Total Claim Amount')
ax.set_title('Total Claim Amount Distributions by Engagements')plt.suptitle("")
plt.show()

圆点是基于四分位距(IQR)的可疑异常值。可疑异常值的公式是第三个四分位数以上 1.5 IQR 或第一个四分位数以下 1.5 IQR。

回归分析

在回归中，特征变量需要是连续的，因此可以找到特征的线性组合来估计输出变量。现在，让我们检查一下特征变量，它们符合我们的逻辑回归模型。

mdata.dtypes

连续变量是没有“对象”数据类型的变量。

continuous_vars = ['Customer Lifetime Value', 'Income', 'Monthly Premium Auto', 
    'Months Since Last Claim', 'Months Since Policy Inception', 
    'Number of Open Complaints', 'Number of Policies', 'Total Claim Amount']

接下来，我们需要将分类变量转换成数字变量。一种方法是因式分解。

gender_values, gender_labels = mdata['Gender'].factorize()
print(gender_values)
print(gender_labels)

在因式分解中，变量变成了 1 或 0。但是如果顺序很重要呢？我们可以应用分类函数。

categories = pd.Categorical(
    mdata['Education'], categories=['High School or Below', 'Bachelor', 'College', 'Master', 'Doctor'])

现在，数字 0、1、2、3 和 4 分别适用于高中或以下、学士、大学、硕士和博士的教育。这将允许我们将数据放入逻辑模型中。

mdata['GenderFactorized'] = gender_values
mdata['EducationFactorized'] = categories.codes

让我们把分类变量和连续变量结合起来！

logit = sm.Logit(
    mdata['Engaged'], 
    mdata[['Customer Lifetime Value','Income','Monthly Premium Auto',
        'Months Since Last Claim','Months Since Policy Inception','Number of Open Complaints',
        'Number of Policies','Total Claim Amount','GenderFactorized','EducationFactorized']])logit_fit = logit.fit()logit_fit.summary()

z(z-score 的缩写)是平均值的标准偏差数[3]。P>|z|(表示 P 值)表示偶然观察到关系的可能性。通常，0.05 是 p 值的标准临界值，小于 0.05 的值意味着输入和输出变量之间的这种关系发生巧合的可能性较小。例如，在数字变量中，我们可以看到收入、每月保费汽车、自上次索赔以来的月数、自保单开始以来的月数以及保单数量变量与参与度(输出变量)有显著关系。如果我们观察自上次索赔以来的月份变量，它是显著的(p 值非常低),并且与敬业度负相关(z 值为负)。换句话说，随着索赔时间的推移，客户不太可能参与营销。

从分类变量中，我们可以看到男性(0)不太可能从事营销，这同样适用于较低的教育水平(0 代表高中，4 代表博士)。

结论

很好，现在你有了另一个 EDA 工具——逻辑回归。作为总结，我们以表格形式检查了接洽率，以饼图形式检查了销售渠道以便于解释，以箱线图形式检查了总索赔额以查看范围和潜在异常值，并通过回归分析发现了强劲的趋势。现在，您可以利用逻辑回归来隔离趋势，然后将其输入到另一个机器学习模型中，而不是在输出中使用逻辑回归作为预测模型！

边注:如何堆叠机器学习模型的例子可以看这里: https://towardsdatascience . com/machine-learning-pipelines-nonlinear-model-stacking-668 f2b 720344

免责声明:本文陈述的所有内容都是我个人的观点，不代表任何雇主。

参考

[1] Marketo，参与营销(2019)，https://www.marketo.com/engagement-marketing/

[2] S. Swaminathan，logistic Regression(2018)，https://towards data science . com/logistic-Regression-detailed-overview-46 C4 da 4303 BC

[3] Y. Hwang,《营销数据科学实践》( 2019 年),派克特出版社

营销分析:客户参与，随机森林风格

原文：https://towardsdatascience.com/marketing-analytics-customer-engagement-random-forest-style-7df06a390979?source=collection_archive---------11-----------------------

我们将讨论如何建立一个关于客户营销参与的随机森林预测模型。通过更好地预测客户将如何参与某些营销活动，营销人员可以为不同的受众量身定制策略[1]。我们在这里寻找的官方营销术语是“参与的可能性”一个具体的例子是区分哪种类型的客户会对哪种类型的广告做出反应(例如，20-39 岁的女性对脸书广告和谷歌广告的反应——完全是编造的)。

数据设置

今天的数据由 ka ggle[2]:
https://www . ka ggle . com/pankajjsh 06/IBM-Watson-marketing-customer-value-data/downloads/IBM-Watson-marketing-customer-value-data . zip/1慷慨提供

是时候导入所有的包了。

import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.metrics import roc_curve, auc

接下来，带来数据。

#load data
df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
custd.head()

作为模型输出的“响应”变量不是一个数字。这将被调整成一个数字，否则 Python 会发疯的。

#Encoding output variable
custd['Engaged'] = custd['Response'].apply(lambda x: 1 if x == 'Yes' else 0)

应用功能将“是”的回答转换为“1 ”,将其他所有回答转换为“0”。“是”表示客户参与了，而“否”表示没有参与。所以平均参与率是

custd['Engaged'].mean()

0.1432，意味着我们的平均参与率大约为 14%。现在，你知道为什么他们说销售是一个数字游戏。只有少数人说是。

特征工程

让我们来看看我们的客户参与模型的特性。

#Checking out features
custd.describe()

酷，我们用 describe 隔离了所有的数值或连续列。

continuous_features = ['Customer Lifetime Value', 'Income', 'Monthly Premium Auto',
'Months Since Last Claim', 'Months Since Policy Inception',
'Number of Open Complaints', 'Number of Policies', 'Total Claim Amount']

现在，来处理所有的分类栏目。

columns_to_encode = ['Sales Channel', 'Vehicle Size', 'Vehicle Class', 'Policy', 'Policy Type', 
    'EmploymentStatus', 'Marital Status', 'Education', 'Coverage']categorical_features = []
for col in columns_to_encode:
    encoded_df = pd.get_dummies(custd[col])
    encoded_df.columns = [col.replace(' ', '.') + '.' + x for x in encoded_df.columns]

    categorical_features += list(encoded_df.columns)

    custd = pd.concat([custd, encoded_df], axis=1)

custd['Is.Female'] = custd['Gender'].apply(lambda x: 1 if x == 'F' else 0)categorical_features.append('Is.Female')

在将所有需要的变量编码成数字后，我们需要将所有内容组合回一个数据框架中。

all_features = continuous_features + categorical_features
response = 'Engaged'
sample_custd = custd[all_features + [response]]
sample_custd.columns = [x.replace(' ', '.') for x in sample_custd.columns]
all_features = [x.replace(' ', '.') for x in all_features]

sample_custd.head()

在一些特征工程之后总是检查你的数据以确保你没有错过任何东西，这不是一个坏主意。在我们的例子中，看起来我们成功地将所有东西都转换成了数字。现在来看模型！

构建随机森林

我们需要做的第一件事是在训练集和测试集之间分割数据，以便稍后进行评估。

# model phase - train/test
x_train, x_test, y_train, y_test = train_test_split(sample_custd[all_features], sample_custd[response], test_size=0.3)

现在我们可以训练和拟合随机森林模型。请随意调整模型设置，以获得更好的解决方案。

#Building random forest model
rf_model = RandomForestClassifier(n_estimators=200,max_depth=5)#Features
X = x_train
#Output
y = y_train#Fit model to training data
rf_model.fit(X, y)

另外，在随机森林中，你可以看到一棵树是如何投票的。

#looking at individual trees
rf_model.estimators_

#individual tree setting
rf_model.estimators_[0]

#individual tree prediction
rf_model.estimators_[0].predict(x_test)[:10]

上面的数组是 0 号树对前 10 个样本的投票结果。很酷，对吧？回到 random forest，我们来看看模型是怎么想的，哪些功能对客户参与度最重要。

#Examining what RF thinks are important features
rf_model.feature_importances_

feature_importance_df = pd.DataFrame(list(zip(rf_model.feature_importances_, all_features)))
feature_importance_df.columns = ['feature.importance', 'feature']featsorted = feature_importance_df.sort_values(by='feature.importance', ascending=False)
featsorted

好吧，那是一张长桌子。让我们以图形的形式让它更容易阅读——十大最重要的特性。

featsortedtop10 = featsorted.head(10)featsortedtop10.plot(kind='bar', x='feature')

根据 random forest 模型，退休员工最倾向于参与我们的营销工作。这并不奇怪，因为我们的数据集是关于一家保险公司的营销。

模型评估

in_sample = rf_model.predict(x_train)
out_sample = rf_model.predict(x_test)print('In-Sample Accuracy: %0.4f' % accuracy_score(y_train, in_sample))
print('Out-of-Sample Accuracy: %0.4f' % accuracy_score(y_test, out_sample))

样本内精度:0.8746

样本外精度:0.8814

准确度是正确预测的数量除以预测的总数。基本上，随机森林模型在预测谁将参与营销活动方面是正确的。

print('In-Sample Precision: %0.4f' % precision_score(y_train, in_sample))
print('Out-of-Sample Precision: %0.4f' % precision_score(y_test, out_sample))

样本内精度:0.9574

样本外精度:0.8714

精度是真阳性的数量除以真阳性和假阳性的数量。当你想知道预测有多正确时，你需要精确。例如，有多少客户实际参与了 X 营销活动，而不是那些被预测参与和没有参与的客户。

print('In-Sample Recall: %0.4f' % recall_score(y_train, in_sample))
print('Out-of-Sample Recall: %0.4f' % recall_score(y_test, out_sample))

样本召回率:0.1450

样本外召回:0.1618

召回是真阳性的数量除以真阳性和假阴性的数量。换句话说，有多少模型正确地预测了与 X 活动接触的客户，而不是那些实际接触的客户。

当我学习精确和回忆的区别时，我有点困惑。对我有帮助的是看到一个好的和另一个坏的区别。例如，高精度和低召回率可以发现目标输出，但是会遗漏一些目标输出机会。另一方面，高召回率和低精确度可能导致发现所有目标输出，但是预测实际上没有的目标输出。

# ROC and AUC curves
in_sample = rf_model.predict_proba(x_train)[:,1]
out_sample = rf_model.predict_proba(x_test)[:,1]
in_sample_fpr, in_sample_tpr, in_sample_thresholds = roc_curve(y_train, in_sample)
out_sample_fpr, out_sample_tpr, out_sample_thresholds = roc_curve(y_test, out_sample)
in_sample_roc_auc = auc(in_sample_fpr, in_sample_tpr)
out_sample_roc_auc = auc(out_sample_fpr, out_sample_tpr)print('In-Sample AUC: %0.4f' % in_sample_roc_auc)
print('Out-Sample AUC: %0.4f' % out_sample_roc_auc)

样本内 AUC: 0.8824

样本外 AUC: 0.8623

plt.figure(figsize=(10,7))plt.plot(
    out_sample_fpr, out_sample_tpr, color='darkorange', label='Out-Sample ROC curve (area = %0.4f)' % in_sample_roc_auc
)
plt.plot(
    in_sample_fpr, in_sample_tpr, color='navy', label='In-Sample ROC curve (area = %0.4f)' % out_sample_roc_auc
)
plt.plot([0, 1], [0, 1], color='gray', lw=1, linestyle='--')
plt.grid()
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('RandomForest Model ROC Curve')
plt.legend(loc="lower right")plt.show()

ROC 曲线显示了真阳性和假阳性的比率，您希望曲线最快到达左上角以获得最佳模型性能。我们的样本内和样本外曲线都没问题。如果两者之间的差距越来越大，那么这是一个迹象，表明该模型过于适合训练数据，而没有找到营销参与的一般模式[4]。

结论

恭喜，我们已经从头到尾建立了一个营销客户参与随机森林模型。首先，我们做了一些简单的数据探索，并对数据进行了特征工程处理，使之成为数值。接下来，我们创建了随机森林模型，并查看了各个决策树。之后，我们评估了训练集和测试集的数据，得到了一个非常好的 ROC 曲线。从我们的数据来看，客户退休似乎是一个关键特征，而总索赔和收入接近。向前发展的业务解决方案可以建议总是预先获取这些数据点。

免责声明:本文陈述的所有内容都是我个人的观点，不代表任何雇主。

参考

[1] A. McEachern，什么是客户参与，为什么它很重要？(2019)https://blog . smile . io/什么是客户参与度以及它为什么重要

[2] IBM Watson，营销客户价值数据(n . d .)
https://www . ka ggle . com/pankajjsh 06/IBM-Watson-Marketing-Customer-Value-Data/downloads/IBM-Watson-Marketing-Customer-Value-Data . zip/1

[3] B. Mikulski，Precision vs . recall-explain(n . d .)https://www . mikulskibartosz . name/Precision-vs-recall-explain/

[4] Y. Hwang,《营销数据科学实践》( 2019 年),派克特出版社

通过马尔可夫链进行营销分析

原文：https://towardsdatascience.com/marketing-analytics-through-markov-chain-a9c7357da2e8?source=collection_archive---------11-----------------------

通过马尔可夫链了解客户的下一步行动

Image Source : http://setosa.io/ev/markov-chains/

假设你是一家在市场上销售快速消费品的公司。

让我们假设客户将遵循以下流程进行最终购买:

这些是客户在购买过程中的任何时候都会处于的状态。

现在，如何找出客户在 6 个月后会处于哪种状态？

马尔科夫链来救援了！！

我们先来了解一下什么是马尔可夫链。

马尔可夫链:

马尔可夫链是描述一系列可能事件的随机模型，其中每个事件的概率仅取决于前一个事件达到的状态

马尔可夫链是在概率上彼此相关的连续事件。

这些事件也称为状态

这些状态一起形成了所谓的状态空间。

下一个事件或下一个状态的概率只取决于当前状态，而不取决于先前的状态。马氏链的这个性质叫做无记忆性。它不关心过去发生了什么，只关注当前的信息来预测下一个状态会发生什么。

马尔可夫链——状态、概率和转移矩阵

让我们深入一点。

马尔可夫链提供了

关于当前状态的信息

从一种状态转移到另一种状态的转移概率

利用以上两个信息，我们可以预测下一个状态。

用数学术语来说，当前状态称为初始状态向量

所以，我们得到的是:

最终状态=初始状态*转移矩阵

经典例子

马尔可夫链的一个经典例子是预测天气。我们有两种不同的天气状况:晴天和雨天。让我们假设今天是晴天。我们有以下可能性:

假设今天是晴天，明天是晴天的概率(处于相同状态的概率):0.9

假设今天是晴天，明天下雨的概率:0.1

假设今天下雨，明天是晴天的概率(处于相同状态的概率):0.5

假设今天下雨，明天下雨的概率(处于相同状态的概率):0.5

Source: Wikipedia

这里的初始向量是:

转换矩阵=

第二天的天气=

回忆一下终态=初态*转移矩阵？以上代表相同。

那么推论是什么呢？

第二天有 90%的可能性天气晴朗，10%的可能性下雨。

回到问题

回到问题上来，我们需要知道产品发布 6 个月后客户的状态。

我们可以假设客户在任一时间点可能处于 4 种状态！！

1.意识

2.考虑

3.购买

4.不购买

我们有以下信息:

客户总数= 200，000

每个州/类别的客户数量

从一个状态转移到另一个状态的转移概率

关于在这几个月开展的一些活动或广告的信息(活动/广告的目的是增加购买产品的客户数量)

营销分析目标:

获得 6 个月后所有 4 个州的客户数量

评估该活动在增加购买该产品的顾客数量方面是否有效

所以，让我们深入数学部分。

注:A —认知，C —考虑，P —购买，NP —不购买

初始状态向量=

转换矩阵=

可以更清楚地看到所有 4 个状态之间的运动:

顾客的最终状态=初始状态向量*转移矩阵

结果评估

现在让我们评估我们的结果。

起始向量

最终向量

我们可以注意到,“了解”和“考虑”的人数有所减少。这是一件好事，因为人们实际上从“意识”和“考虑”状态转移到了“购买”状态(增长了近 34%！！)还要注意，处于“不购买”状态的人数减少了(减少了 11%)。

总的来说，我们的分析表明活动/广告奏效了！！

马尔可夫链在营销分析和 NLP 等其他领域有许多其他应用。

敬请关注更多文章…

如果你喜欢我的文章，请给它几个掌声！！！

更多详情，请联系我:

网址:https://www.arymalabs.com/

另外，一定要看看我们在 MMM 上的视频:

领英

推特

Python 中 Markov 链的营销渠道属性——第 2 部分:完整演练

原文：https://towardsdatascience.com/marketing-channel-attribution-with-markov-chains-in-python-part-2-the-complete-walkthrough-733c65b23323?source=collection_archive---------3-----------------------

在渠道属性的背景下，arkov chains 为我们提供了一个框架，以统计方式模拟用户旅程，以及每个渠道如何考虑用户从一个渠道到另一个渠道的旅行，最终转换(或不转换)。通过使用这些转移概率，我们可以确定单个渠道对我们总转化率的统计影响。

关于营销归因和马尔可夫链的更多细节，参见第 1 部分。

在关于这个主题的第一部分中，我们讨论了什么是营销归因，为什么准确和正确的归因越来越重要，以及马尔可夫链背后的理论如何应用于这个领域。

虽然那篇文章包含了如何以编程方式将马尔可夫链应用于 Python 中的示例客户数据集的实际例子，但它也涉及到对 R 包channel attribute的严重依赖。

对于生产应用程序来说，这种对独立软件和语言的依赖程度并不理想，相反，我们希望将整个归属过程放在一个应用程序中——在本例中是 Python。

在本文中，我将通过实际的代码示例来说明如何实现这一点。

数据

对于这个更新的演练，我已经更新了数据集，以便与我们在实际生产环境中可能遇到的数据格式更加一致。数据集可以在 这里下载 。

对于每一个独特的客户和访问我们的数据集这一次包含以下信息在每一行:

Cookie:随机生成的客户 id，使我们能够将后续访问与同一个客户联系起来
时间戳:访问发生的日期和时间
交互作用:分类变量，表示发生的交互作用的类型
Conversion:指示转换是否发生的布尔变量
转换值:潜在转换事件的值
渠道:将客户带到我们网站的营销渠道

该数据集包含约 240，000 名独立客户的约 586，000 个营销接触点，这些接触点产生了约 18，000，000 次转化事件。在表格格式中，数据集将如下所示:

数据预处理

为了将我们的数据转换成适用于马尔可夫链算法的理想格式，我们需要做一些预处理。

我们将从导入熊猫开始，加载我们的数据集，并创建一个列来指示每个用户的接触点顺序:

接下来，我们希望将数据框从长格式格式化为宽格式，因此我们最终将得到一个数据框，其中包含每个用户一行，以及一个接触点列表中按时间顺序排列的用户旅程总数。

我们首先将按时间顺序排列的接触点分组到一个列表中，将最终转换/非转换事件的列表合并到该数据框中，最后在用户旅程列表的末尾添加一个“空”或“转换”事件。

这将为我们提供一个如下所示的数据框架:

马尔可夫链

我们现在可以转向实际的马尔可夫链方法。

马尔可夫链的算法可以总结为两个步骤:

计算状态空间中所有状态之间的转移概率
计算移除效应(关于移除效应的更多信息，参见第 1 部分

我们将从定义所有用户旅程、总转化率和基础转化率的列表开始。所有我们以后会用到的东西:

接下来，我们将定义一个函数来识别所有潜在的状态转换，并输出包含这些转换的字典。在计算转移概率时，我们将使用它作为输入:

并且计算所有转移概率的函数可以定义为:

上面应该给我们留下一个字典，其中包含所有的转换以及给定历史数据时它们各自的转换概率。

最后一步是确定每个营销渠道的去除效果。为此，我们将利用线性代数和矩阵操作，因此让我们将上述转移概率字典转换为数据框架(矩阵):

我们刚刚制作的转换矩阵本身实际上包含了大量有价值的信息。它的一个直接衍生物将是生成一个方向图或转换热图来可视化典型的用户旅程。

Heat map for transition probabilities in our data set

使用历史背景和上面的热图，我们不仅可以深入了解每个营销渠道如何推动用户参与我们的转化活动，还可以获得营销渠道之间如何互动的关键信息。鉴于当今典型的多点接触转化之旅，这些信息可以证明是非常有价值的，并允许我们优化我们的多渠道客户转化之旅。

现在，我们可以迭代地遍历每个通道，并评估如果我们从状态空间中删除一个通道，它将对整体转换产生的影响。我们将这样做，并将产生的移除效果添加到输出词典中:

由此产生的移除效应字典可用于计算我们每个营销渠道的马尔可夫链属性:

为了更好地感受我们的劳动成果，让我们来看一下每个渠道的最终归因转换值。

如果您一直关注我们的原始数据集，您应该会看到下面的条形图，其中显示了通过马尔可夫链算法归属于每个渠道的总转化率:

重要的是要记住，虽然本例中的数据集包含大量数据，但它只包括 5 个营销渠道。在现实世界中，我们可能会使用数倍于此数量的渠道(如果我们应用更细粒度的模型，如特定于活动的归因模型，则数量会更多)，因此增加了典型用户旅程的复杂性，以及对支持这种复杂程度的归因模型的需求。

为营销渠道分配准确的信用可能是一项复杂但有益的任务。使用本文中概述的马尔可夫链方法，可以让你的属性更准确地反映你的用户是如何与你的营销互动的。

关于作者

Morten 是 Wealthsimple 的一名数据科学家，他利用数据科学帮助人们实现财务自由。

Wealthsimple 的数据科学团队一直在寻找新的创新、聪明和有抱负的人加入团队。查看我们的职业页面或联系 LinkedIn 。

基于 Python 的马尔可夫链分析与仿真

原文：https://towardsdatascience.com/markov-chain-analysis-and-simulation-using-python-4507cee0b06e?source=collection_archive---------1-----------------------

用概率解决现实世界的问题

马尔可夫链是一个离散时间的随机过程，它以一定的概率从一个状态前进到另一个状态，这可以用一个图和状态转移矩阵 P 来表示，如下所示:

这样的链，如果它们是一阶马尔可夫链，展示了马尔可夫性质，即下一个状态仅依赖于当前状态，而不依赖于它是如何到达那里的:

在这篇文章中，我们看两个不同的概念，一个是从马尔可夫链模拟，另一个是计算它的平稳分布。稳定分布是当样本数量接近无穷大时，系统在每个状态下花费的时间分数。如果我们有 N 个状态，平稳分布是一个长度为 N 的向量，其值总和为 1，因为它是一个概率分布。

我们还看两个例子，一个简单的玩具例子，以及一个可能的现实世界场景分析问题。

计算平稳分布

注意，在下面的第一个实现中，不是对状态转换的模拟，只是对稳定分布的计算。

让我们从计算分布的迭代方法开始。我们正在做的是将转移矩阵提升到迭代次数的幂:

平稳分布通常被称为π。

因此

import numpy as np
import pandas as pd
from random import seed
from random import random
import matplotlib.pyplot as plt
P = np.array([[0.2, 0.7, 0.1],
              [0.9, 0.0, 0.1],
              [0.2, 0.8, 0.0]])state=np.array([[1.0, 0.0, 0.0]])
stateHist=state
dfStateHist=pd.DataFrame(state)
distr_hist = [[0,0,0]]for x in range(50):
  state=np.dot(state,P)
  print(state)
  stateHist=np.append(stateHist,state,axis=0)
  dfDistrHist = pd.DataFrame(stateHist)
  dfDistrHist.plot()plt.show()

计算很快收敛到稳定分布:

如前所述，π是稳定分布。

在这种情况下，这也可以通过一组超定方程的线性代数解来实现:

A=np.append(transpose(P)-identity(3),[[1,1,1]],axis=0
b=transpose(np.array([0,0,0,1]))
np.linalg.solve(transpose(A).dot(A), transpose(A).dot(b)

这也返回[0.49，0.42，0.09]，平稳分布π。

我们是如何计算的，如下所示:

可以证明，如果πP=π，πi=1，马尔可夫链是平稳的，具有平稳分布π

其中 i 为单位列向量，即概率之和必须恰好为 1，也可以表示为

做一些代数运算:

结合π i =1:

而 b 是除最后一个元素外所有元素都为 0 的向量。

继鲁切-卡佩里之后，

假设增广矩阵[A|b]的秩等于系数矩阵 A 的秩，则 as 可以由此求解 Pi，即平稳分布。

同样，这个算法实现可以被通用化、扩展，并作为一个类来实现。

从马尔可夫链模拟

通过注意到来自任何给定状态(概率矩阵中的对应行)的移动集合形成多项式分布，可以从马尔可夫链进行模拟。因此，可以通过模拟多项式分布来模拟马尔可夫链。

从多项式分布进行模拟的一种方法是将长度为 1 的线分成与概率成比例的区间，然后根据 0 和 1 之间的均匀随机数选取一个区间。

参见维基百科这里https://en.wikipedia.org/wiki/Multinomial_distribution。

这在下面的函数 simulate_multinomial 中进行了说明。我们从

然后我们使用 cs ，即 P 中概率的累积和，以便按比例分配随机数。

import numpy as np
import pandas as pd
from random import seed
from random import random
import matplotlib.pyplot as pltP = np.array([[0.2, 0.7, 0.1],
              [0.9, 0.0, 0.1],
              [0.2, 0.8, 0.0]])stateChangeHist= np.array([[0.0,  0.0,  0.0],
                          [0.0, 0.0,  0.0],
                          [0.0, 0.0,  0.0]])state=np.array([[1.0, 0.0, 0.0]])
currentState=0
stateHist=state
dfStateHist=pd.DataFrame(state)
distr_hist = [[0,0,0]]
seed(4)# Simulate from multinomial distribution
def simulate_multinomial(vmultinomial):
  r=np.random.uniform(0.0, 1.0)
  CS=np.cumsum(vmultinomial)
  CS=np.insert(CS,0,0)
  m=(np.where(CS<r))[0]
  nextState=m[len(m)-1]
  return nextStatefor x in range(1000):
  currentRow=np.ma.masked_values((P[currentState]), 0.0)
  nextState=simulate_multinomial(currentRow) # Keep track of state changes stateChangeHist[currentState,nextState]+=1 # Keep track of the state vector itself
  state=np.array([[0,0,0]])
  state[0,nextState]=1.0 # Keep track of state history
  stateHist=np.append(stateHist,state,axis=0)
  currentState=nextState # calculate the actual distribution over the 3 states so far
  totals=np.sum(stateHist,axis=0)
  gt=np.sum(totals)
  distrib=totals/gt
  distrib=np.reshape(distrib,(1,3)
  distr_hist=np.append(distr_hist,distrib,axis=0)print(distrib)
P_hat=stateChangeHist/stateChangeHist.sum(axis=1)[:,None]
# Check estimated state transition probabilities based on history so far:print(P_hat)dfDistrHist = pd.DataFrame(distr_hist)# Plot the distribution as the simulation progresses over timedfDistrHist.plot(title="Simulation History")
plt.show()

从图中可以看出，在大约 400 个模拟步骤之后，分布开始收敛到稳定分布。

分布收敛到[0.47652348 0.41758242 0.10589411]:

该分布与我们之前通过求解马尔可夫链计算的平稳分布非常接近。其实四舍五入到两位小数是一样的:[0.49，0.42，0.09]。

正如我们在下面看到的，从转换历史中重建状态转换矩阵给了我们预期的结果:

[0.18，0.72，0.10]
【0.91，0.00，0.09】
【0.19，0.80，0.00】

这个算法实现可以是通用的、可扩展的，并作为一个类来实现。

它展示了如何用 Python 实现简洁紧凑的算法。

媒体、电信或类似行业的应用。

比方说，对于与高价值客户一致的特定人口统计，我们在订阅媒体市场(例如付费电视)中有 4 个“竞争对手”，分布相对稳定但不断变化[.55，0.2，0.1，0.15]，最后一组有 15%的人没有任何特定的订阅服务，更喜欢按需消费免费内容。

https://www.livechatinc.com/blog/churn-rate/

第二大竞争对手(b)刚刚推出了一款新的高端产品，现任者怀疑该产品正在侵蚀他们的市场份额。他们想知道如果他们不干预，最终会如何影响他们的市场份额。他们还想了解自己内部的客户流失动态，以及这与他们的市场份额之间的关系。

让我们假设他们知道他们有时会失去竞争对手的客户，包括免费内容，特别是随着他们的高平均每用户收入(ARPU)客户群的发展，他们有时会赢得客户，但他们不了解全貌。

所以，我们想象他们委托我们做一项研究。

为了简单起见，我们在这里对人口动态做了很多隐含的假设。例如，我们假设转移概率保持不变。

首先，我们进行一项市场调查，以了解消费者如何在不同的供应商之间移动，从那里我们可以构建一个概率矩阵如下:

a、b、c、d 代表我们的市场参与者。

市场研究表明，消费者从一个服务提供商转向另一个服务提供商的估计概率如下:

我们感兴趣的第一个问题是，考虑到所有其他流失概率，如果 A 继续以估计的速度流失客户到 B，将会发生什么。

使用我们之前导出的矩阵解，并用 Python 编码，我们可以计算新的平稳分布。

P = np.array([[0.9262, 0.0385, 0.01, 0.0253],
              [0.01, 0.94, 0.01, 0.04],
              [0.01, 0.035, 0.92, 0.04],
              [0.035, 0.035, 0.035, 0.895]])A=np.append(transpose(P)-identity(4),[[1,1,1,1]],axis=0)b=transpose(np.array([0,0,0,0,1]))np.linalg.solve(transpose(A).dot(A), transpose(A).dot(b))

这给了我们新的平稳分布[0.19，0.37，0.18，0.25]

然而，当我们检查系数矩阵和增广矩阵的秩时，我们注意到，与更简单的例子不同，它们并不对应。这意味着分析问题的公式可能没有唯一的解，所以我们想用另一种技术来检验它。

NP . linalg . matrix _ rank(NP . append(A，NP . transpose(b . shape(1，5))，axis=1))
5

np.linalg.matrix_rank(A)
4

可以看出，迭代解(其中我们将转移矩阵提升到 n 的幂)不收敛，这给我们留下了模拟选项。

从上面我们可以估计，长期来看，平稳分布会是这样的:[0.19，0.4，0.18，0.23]，实际上非常接近解析解。

换句话说，现有企业的市场份额预计将下降到 20%左右，而竞争对手的市场份额将上升到 40%左右。

由此也可以看出，对于更复杂的问题，现实世界中看似合理的解析解和模拟解，确实还是对应的。

我希望您喜欢这篇关于如何使用离散马尔可夫链解决现实世界问题的基本介绍，并鼓励您思考自己组织中可以用这种方式回答的问题。您还可以通过计算留住客户的价值来扩展这个示例，从而计算出在留住客户方面投资的价值。

版权所有 2020 Herman Scheepers

特此免费授予任何获得本条款中的代码和相关文档文件所暗示的本软件副本(“软件”)的人不受限制地经营本软件的权利，包括但不限于使用、复制、修改、合并、发布、分发、再许可和/或销售本软件副本的权利，并允许获得本软件的人根据以下条件这样做:

上述版权声明和本许可声明应包含在软件的所有副本或重要部分中。

本软件按“原样”提供，不含任何明示或暗示的担保，包括但不限于对适销性、特定用途适用性和不侵权的担保。在任何情况下，作者或版权所有者都不对任何索赔、损害或其他责任负责，无论是在合同诉讼、侵权诉讼或其他诉讼中，还是在与软件或软件的使用或其他交易相关的诉讼中。

音乐生成的马尔可夫链

原文：https://towardsdatascience.com/markov-chain-for-music-generation-932ea8a88305?source=collection_archive---------15-----------------------

从本文中，您将了解马尔可夫链模型，以及如何将它应用于音乐生成。

什么是马尔可夫链？

马尔可夫链是描述一系列可能事件的模型。这个序列需要满足马尔可夫假设——下一个状态的概率取决于前一个状态，而不是序列中的所有前一个状态。

这听起来像是对真实案例的简化。例如，为了应用马尔可夫链进行天气预测，我们需要假设明天的天气只取决于当前的天气，并假设没有其他因素，如一年中的时间等

尽管在许多情况下这种简化，我们将能够生成有用的预测，但同时，我们将能够通过降低计算成本来更快地解决我们的任务。

马尔可夫链模型在金融、自然语言处理和任何有时间序列数据的地方都有很多应用。

用马尔可夫链生成音乐

有很多优秀的论文和博客文章解释了马尔可夫链。所以不深究理论细节，让我们把这个模型应用到实践上！马尔可夫链最普遍的应用是语言和语音，例如，预测句子中的下一个单词。但是如果我们尝试创造音乐呢？

和自然语言一样，我们可以把音乐想象成一系列音符。但是因为我弹吉他，所以我会用和弦来操作。如果我们研究和弦序列并学习它的模式，我们会发现某些和弦可能更多地跟随特定和弦，而其他和弦很少跟随那个和弦。我们将构建我们的模型来发现和理解这种模式。

好吧，计划是这样的:

取和弦集
计算和弦跟随特定和弦的概率分布
定义第一个和弦或随机选择
考虑概率分布，随机选择下一个和弦
对生成的和弦重复步骤 4
…
随机音乐太棒了！

分步指南:

对于数据源，我准备了一个带有和弦序列的 CSV 文件，这些和弦序列来自利物浦的一个著名乐队。你可以在 GitHub 上找到这个文件。

序列示例:

['F', 'Em7', 'A7', 'Dm', 'Dm7', 'Bb', 'C7', 'F', 'C', 'Dm7',...]

首先，我们制造二元模型:

['F Em7', 'Em7 A7', 'A7 Dm', 'Dm Dm7', 'Dm7 Bb', 'Bb C7', ...]

现在，如果我把和弦 F 作为一个序列中的初始和弦，其他和弦跟随它的概率是多少？

有 18 个以和弦 F 开头的二元组:

['F Em7', 'F C', 'F F', 'F Em7', 'F C', 'F A7sus4', 'F A7sus4', ...]

然后，我们将计算每个独特的二元模型在序列中出现的频率:

{'F Em7': 4, 'F C': 4, 'F F': 3, 'F A7sus4': 4, 'F Fsus4': 2, 'F G7': 1}

如果我们归一化，我们会得到概率:

{'F Em7': 0.222,
 'F C': 0.222,
 'F F': 0.167,
 'F A7sus4': 0.222,
 'F Fsus4': 0.111,
 'F G7': 0.056}

这通常可以用图表的形式来解释:

Weighted graph of possible next chord

这个图的每个节点，除了中间的初始节点 F，代表了我们的序列可以达到的可能状态，在我们的例子中，它们是可能跟随 F 的弦，一些弦比其他弦有更高的概率，一些弦根本不能跟随 F 弦，例如 Am，因为没有二元模型可以将这个弦与 F 组合。

现在，马尔可夫链是一个随机过程，或者你更喜欢随机过程。为了进入下一个状态，我们将随机选择和弦，但是根据概率分布，在我们的例子中，这意味着我们更有可能选择和弦 C 而不是 G7。

对于给定的和弦 F，下一个和弦有 6 个候选和弦:

options
>>> ['Em7', 'C', 'F', 'A7sus4', 'Fsus4', 'G7']

每个和弦都有相应的概率:

probabilities
>>> [0.222, 0.222, 0.167, 0.222, 0.111, 0.056]

Numpy 由于 1.7.0 版本可以根据给定的概率分布执行随机采样，所以我们使用:

import numpy as npchoise = np.random.choice(options, p=probabilities)

假设我们随机选择的结果是 Em7。现在我们有了一个新的状态，可以再次重复整个过程。

整个工作流程如下所示:

# Our current state
chord = 'F'# create list of bigrams which stats with current chord
bigrams_with_current_chord = [bigram for bigram in bigrams if bigram.split(' ')[0]==chord]# count appearance of each bigram
count_appearance = dict(Counter(bigrams_with_current_chord))# convert apperance into probabilities
for ngram in count_appearance.keys():
  count_appearance[ngram] = count_appearance[ngram]/len(bigrams_with_current_chord)# create list of possible options for the next chord
options = [key.split(' ')[1] for key in count_appearance.keys()]
# create  list of probability distribution
probabilities = list(count_appearance.values())# Make random prediction
np.random.choice(options, p=probabilities)

因为这是一个随机过程，每次你运行这个模型，都会得到不同的结果。为了实现可重复性，您可以像这样设置种子:

np.random.seed(42)

我们可以将整个过程概括为两个功能:

def predict_next_state(chord:str, data:list=bigrams):
    """Predict next chord based on current state."""
    # create list of bigrams which stats with current chord
    bigrams_with_current_chord = [bigram for bigram in bigrams if bigram.split(' ')[0]==chord]
    # count appearance of each bigram
    count_appearance = dict(Counter(bigrams_with_current_chord))
    # convert apperance into probabilities
    for ngram in count_appearance.keys():
        count_appearance[ngram] = count_appearance[ngram]/len(bigrams_with_current_chord)
    # create list of possible options for the next chord
    options = [key.split(' ')[1] for key in count_appearance.keys()]
    # create  list of probability distribution
    probabilities = list(count_appearance.values())
    # return random prediction
    return np.random.choice(options, p=probabilities)def generate_sequence(chord:str=None, data:list=bigrams, length:int=30):
    """Generate sequence of defined length."""
    # create list to store future chords
    chords = []
    for n in range(length):
        # append next chord for the list
        chords.append(predict_next_state(chord, bigrams))
        # use last chord in sequence to predict next chord
        chord = chords[-1]
    return chords

现在我们可以生成一个我们想要的长度的序列:

generate_sequence('C')

序列示例:

['Bb',
 'Dm',
 'C',
 'Bb',
 'C7',
 'F',
 'Em7',
 'A7',
 'Dm',
 'Dm7',
 'Bb',
 'Dm',
 'Gm6'
 ...
 ]

我试着用吉他弹奏它，它听起来确实像一首来自利物浦的乐队可能写的歌。唯一缺少的是文本，但我们可以使用在文本语料库上训练的相同模型来为歌曲生成文本:)。

摘要

我们仅仅用简单的马尔可夫链触及了冰山一角，随机模型的世界是如此之大，包括隐马尔可夫链、马尔可夫链蒙特卡罗、哈密顿蒙特卡罗等等。但是在每个模型的本质上都有相同的马尔可夫假设——下一个状态依赖于当前状态，而不依赖于先前的状态序列。

因为这个简单而强大的规则，马尔可夫链模型在许多领域得到了应用，也可以成功地应用于音乐的产生。

这里最酷的事情之一是，我们将根据我们训练模型的语料库得到不同的结果。在来自电台司令和模型的语料库上训练将生成电台司令风格的和弦序列。

代码和数据集可以在我的 GitHub 资源库中找到。

参考资料:

尤金·塞内塔。《马尔可夫和马尔可夫链的创建》(2006) 原始论文 PDF
海因斯布莱恩。"马尔可夫链中的第一个环节."美国科学家 101.2 (2013): 252。原稿 PDF

体育运动中的马尔可夫链模型

原文：https://towardsdatascience.com/markov-chain-models-in-sports-7cb907a6c52f?source=collection_archive---------22-----------------------

一个模型从数学上描述了我们对数据的期望——在这种情况下，来自体育数据。一种简单类型的模型，称为马尔可夫链，在几种不同运动的分析中得到应用——每一种运动都有某种离散的性质，我很快会对此进行精确的解释。属于这一类的运动包括网球、棒球和排球。对于这篇博文，我会考虑网球。

Tennis star Serena Williams

如果一个模型描述了我们对数据的期望，我们必须承认所涉及的数据很难捕捉到游戏的一切。具体来说，网球的马尔可夫链模型描述了我们对有限数据的预期——这些数据只记录了哪个球员在比赛中赢得了每一分。关于其他一切的信息，如球的轨迹，甚至截击的长度或发球的失误，仍然是未知的。此外，数据只涉及两个玩家之间相遇的一小部分。网球比赛分成几组，几组分成几场比赛。所以如果小威赢得了她的第一场比赛，她将需要留下来赢得更多的比赛。我们的模型只关注这些游戏中的一个游戏的分数结果数据。

在网球比赛中，当一名选手达到两个目标时，每场比赛就赢了:她的得分(1)必须至少达到 4 分，并且(2)必须超过对手 2 分。分数以“爱”(0 分)开始，然后是“15”(1 分)、“30”(2 分)、“40”(3 分)。如果双方都至少得了 2 分，比分就是“平手”。如果两个玩家都至少得 2 分，但其中一个领先 1 分，则得分为“优势【那个玩家】”。

每打出一个点，只有两种情况可能发生:一个玩家(姑且称她为“A”)可以赢得该点，或者另一个玩家(姑且称她为“B”)可以赢得该点。该模型将值 p 分配给玩家 A 赢得一分的概率，并将值 q 分配给玩家 B 获胜的概率。对于每个点，不存在其他可能性，所以 p + q = 1。重要的是，该模型假设这些概率永远不会改变，无论游戏如何展开。此外，每个点的结果独立于其他点的结果。

我把游戏的每一个分数放在一个图表上(见下面)，并用箭头指出，哪个分数可以导致下一个分数，导致其他分数。在马尔可夫链术语中，每个分数代表游戏的一个状态，从这个状态可以发生零个或多个转换到其他状态。如上所述，从大多数状态来看，恰好存在两种可能的转换(A 赢得下一点，或者 B 赢得下一点)。在网球中，有 15 种这样的状态，显示为圆圈。马尔可夫链术语称它们为瞬态。从另外两个状态开始，游戏不再继续，也不会发生进一步的转换。我将这些异常的吸收态显示为矩形，分别标记为“A 赢”和“B 赢”我们的建模假设意味着，游戏最终肯定会离开所有的瞬态，进入一个吸收态(因此有了这个术语)。经验证实了这一预期。

A diagram of the Markov chain for tennis

在这个图中，每个圆都有两个箭头。如果玩家 A 赢得这一点，游戏向左转移，沿着标有 p (其概率)的箭头指向“A 赢”。然而，对于概率 q，游戏遵循另一个箭头，(记住 p + q = 1)，向右朝着“B 赢。”

是什么让这个模型成为马尔可夫链？首先，状态之间的特定转换仍然是不确定的，但是，像所有随机现象一样，服从可量化的概率规则。第二，该模型满足被称为马尔可夫属性的条件，该条件向分析师保证，为了预测关于游戏未来的任何事情，游戏的当前状态包括关于游戏的所有相关信息(过去和当前)，这些信息可以帮助做出这样的预测(未来)。

换句话说，Markov 属性断言，假设我们已经知道当前状态，那么通过图采取的先前路径不会给我们提供有用的额外信息来对游戏进行预测。例如，如果 A 赢得了前 3 分，但随后输掉了接下来的 3 分，游戏可能会进入平手状态。或者，A 可能会失去 3 个未回答的点，然后赶上。还存在许多其他平手的途径，实际上是无限的，因为游戏可能会在平手、优势 A 和优势 b 之间无限波动。马尔科夫属性表明，无论采取哪种途径，对未来的预测都只取决于当前状态平手，而不是游戏如何到达那里。

马尔可夫属性仍然只是一个建模假设。关于真正的网球是真的吗？模型不会告诉我们。只有从许多实际游戏中获得大量数据，我们才能评估支持或反对这一假设的证据的强度。相反，体育运动中流行的“动量”概念可能表明，最近得分更多的球员有更有利的未来——比马尔可夫链预测的更有利。或者，一个“重整旗鼓以东山再起的假设”可能暗示，最近输球的玩家比我们的模型所认为的更有机会获胜。不用说，马尔可夫性质明确地否定了这些可能性:根据我们编纂的假设，不存在这样的现象。

统计学家经常重复乔治·博克斯的话，说所有的模型都是错的，但有些是有用的。马尔可夫链可能不能完美地代表网球，但该模型仍然有用，因为它可以产生对比赛的宝贵见解。请注意，该模型只包含一个参数， p 或 q (一个参数，因为这两个量加起来等于 1——一旦知道了其中一个，就可以确定另一个)。有了这些知识，个人的结果仍然是不确定的，但你可以发现任何事件的概率，此外，任何与游戏相关的量的分布。

例如，知道了 p 不会让你知道 A 是否会赢得任何给定的分数，更不用说任何给定的游戏、盘或比赛。当然啦！也就是说，知道了 p ，模型将允许你确定 A 赢得游戏的概率，至少假设建模假设成立。此外，虽然您无法预先知道任何一个特定游戏将持续多长时间，但您可以发现，例如，在一个模型游戏中所玩点数的分布。事实上，您可以计算这种分布的相关统计数据——包括平均值、中值、标准差，甚至超过 10 分的游戏比例。事实上，所有这些计算都可以完成，不仅仅是对单个值的 p ，而是对任何可能的值，这使得模型真正有用，并给建模者带来了希望，即关于模型的一般事实将转化为关于游戏的深刻见解。如果我们碰巧观察到一场或多场比赛持续超过 50 分，在一场有 250 场比赛的锦标赛中，假设所有球员都旗鼓相当，我们应该有多惊讶？用我们的模型对网球进行分析，证实了 Box 的格言，尽管在许多细节上不可避免地存在错误，但仍可能证明是有启发性的。

马尔可夫链蒙特卡罗

原文：https://towardsdatascience.com/markov-chain-monte-carlo-291d8a5975ae?source=collection_archive---------6-----------------------

将您对 MCMC 的理解提升到中级水平

当我学习马尔可夫链蒙特卡罗(MCMC)时，我的导师告诉我们有三种方法来解释 MCMC。

基本知识:MCMC 允许我们利用计算机来做贝叶斯统计。
中级 : MCMC 是一种可以找到我们感兴趣的参数的后验分布的方法。具体来说，这种类型的算法以一种依赖于马尔可夫属性的方式生成蒙特卡罗模拟，然后以一定的速率接受这些模拟以获得后验分布。"
进阶:一堂完整的统计学课。

我写这篇博客的目的是让你达到中级水平。

先从基础的开始吧。

MCMC 到底是什么？要回答这个问题，我们首先需要复习一下贝叶斯统计。贝叶斯统计是建立在这样一个理念上的，即一件事情发生的概率受事先假设的概率和数据显示的某件事情发生的可能性的影响。在贝叶斯统计中，概率用分布来表示。

如果先验和似然概率分布是正态分布，我们就能够用一个函数来描述后验分布。这被称为封闭解。这种类型的贝叶斯如下所示。正如你所看到的，后验分布是由先验分布和似然分布共同形成的，并在中间的某处结束。

Created in Matplotlib inspired by Matt Brems

但是当概率不是很大的时候呢？当概率看起来更像这样时会发生什么？

Rbb [CC BY-SA 3.0 (https://creativecommons.org/licenses/by-sa/3.0)], from Wikimedia Commons

在这种情况下，可能性没有正态分布，所以我们最终得到一个右偏后验分布。因为我们不能用公式来表达，我们必须使用马尔可夫链蒙特卡罗。

马尔可夫链蒙特卡罗的三个部分

一:蒙特卡洛

蒙特卡罗模拟通过生成随机数来模拟复杂系统。
在下面的 gif 的情况下，蒙特卡洛生成一个参数为(0-1，0-1)的随机点，通过确定曲线下结束的点的数量，我们能够近似整个圆的面积，并从π开始。

nicoguaro [CC BY 3.0 (https://creativecommons.org/licenses/by/3.0)], from Wikimedia Commons

二:马尔可夫链

马尔可夫链本质上是一个变量如何在图中“行走”的表示，或者一个随机变量如何随时间从一种状态改变到另一种状态。

image source http://www.mathcs.emory.edu/~cheung/

上图展示了情绪状态的马尔可夫链。在这个链条中，如果你很快乐，有 20%的几率你会把情绪状态变成一般，20%的几率你会变得悲伤，60%的几率你会保持快乐。

马尔可夫链由马尔可夫属性决定

F(Xt+1|Xt) = f(Xt+1|Xt,Xt-1,Xt-2,….)

如果我知道现在正在发生什么，知道发生了什么让我们走到这一步或前一步，等等。没给我提供更多信息。

这方面例子有:

孟德尔遗传学。在下面的例子中，子豆的颜色完全受父豆的颜色影响。第一代的豆子颜色受到前一代的影响，但在确定第二代的颜色时不需要考虑这一点。

Pbroks13 [CC BY-SA 3.0 (https://creativecommons.org/licenses/by-sa/3.0)]

棋盘游戏:当玩大富翁游戏并试图确定玩家去某个空间的概率时，你需要的唯一信息是玩家目前在哪里。玩家之前的回合在哪里并不影响它接下来的走向，除了它决定了这一回合在哪里。

三:接受-拒绝抽样

MCMC 的第三部分是接受-拒绝抽样。当我们对新的观察进行采样时，我们决定它是否在正确的方向上，然后决定我们是保留它还是丢弃它。

两种常见的接受-拒绝算法是 Metropolis-Hasting 算法和不掉头采样器。不准掉头的数学比我在这篇中等文章中解释的要复杂，但是如果你想深入研究，可以看看这篇文章。

这是我对大都市生活的高层次解释

我们在 x 点。
我们对下一步做一个猜测。我们称之为 x*
然后，我们计算 x*/x 的概率比。这是使用似然性和先验分布的乘积计算的。
如果 p(x)/p(x)的比值(也称为接受概率)大于 1，我们接受 x作为新位置。
即使接受概率小于 1，我们也不自动拒绝 x。我们通过从均匀(0，1)分布中选择一个随机数来抛硬币。如果数字小于接受概率，我们接受 x,如果数字大于接受概率，我们拒绝 x*,并重新开始这个过程。

把所有的放在一起

我们随机生成数字:这是蒙特卡罗部分
我们允许我们生成的数字影响下一个生成的数字:这就是马尔可夫链
然后我们决定生成的新数字是否“朝着正确的方向前进”:接受-拒绝算法
然后我们检查收敛性:我们确定我们的数据何时收敛到一个合理的分布。收敛点之后随机生成的值成为我们的后验分布

我希望这有助于您在中级水平上理解 MCMC。

1.(经允许)直接从马特·布莱姆斯的演讲中借用。
2。一个很棒但是很数学的 MCMC 移植:https://blog . stata . com/2016/11/15/Bayesian-statistics-introduction-to-part-2-MCMC-and-the-metropolis-Hastings-algorithm/

马尔可夫链和 hmm

原文：https://towardsdatascience.com/markov-chains-and-hmms-ceaf2c854788?source=collection_archive---------5-----------------------

内部 AI

主要概念、属性和应用

Hidden Markov

在本文中，我们将关注马尔可夫模型，何时何地应该使用它们，以及隐马尔可夫模型。本文将着重于理论部分。在第二篇文章中，我将展示这些主题的 Python 实现。

马尔可夫模型，尤其是隐马尔可夫模型(HMM)用于:

语音识别
书写识别
物体或人脸检测
经济情景生成和特定财务任务
和几个 NLP 任务…

本文原载于我的个人博客:【https://maelfabien.github.io/machinelearning/HMM_1/#

我在这个资源库上发布我所有的文章和相应的代码:

[## mael fabien/机器学习教程

本报告包含练习、代码、教程和我的个人博客文章

github.com](https://github.com/maelfabien/Machine_Learning_Tutorials)

不要犹豫开始回购:)

一.随机模型

Discrete-Time Stochastic Process

让我们从定义什么是随机模型开始。它本质上是一个离散时间过程，在时间 1，2，…取值，称为“状态，观察到:q1，q2，…”。状态简单地对应于过程的实际值，通常由有限空间定义:S=1，…Q。

该过程从初始状态开始 q1。然后，根据转移概率，我们在状态之间移动。我们可以使用贝叶斯法则计算状态序列的概率:

为了描述模型的特征，我们需要:

初始概率 P(q1)
所有的转移概率

正如你可能猜到的，这很难实现，因为我们需要知道很多参数。

二。离散时间马尔可夫链模型(DTMC)

1.什么是马尔可夫链？

DTMC

离散时间马尔可夫链(DTMC)是时间和事件的离散随机过程。马尔可夫链依赖于马尔可夫特性，即在过程中有一个有限的相关性:

让我们来说明这一点:考虑一个简单的迷宫，其中有一只老鼠被困。我们将把 qt 表示在 t 步之后老鼠所处的迷宫的位置。我们假设老鼠对它在迷宫中走过的路程没有记忆(T21)。它只是按照写在每一步棋旁边的概率，随机地走到那个位置。

DTMC Illustration

这里的状态可以代表很多东西，包括在 NLP 中。例如，我们可以:

1 =名词，
2 =动词，
3 =形容词…

例如，我们会对名词后有动词的概率感兴趣。

2.转移概率

如果离散时间马尔可夫链的转移概率不依赖于时间 t，则称其为齐次:

我们可以将该过程概括为一个转移矩阵，表示为 A =【AIJ】，i ∈ 1…Q，j ∈ 1…Q。如果:

所有条目都是非负的
每行总计为 1

在我们的例子中，转移矩阵是:

Transition matrix

注意，如果 a 是随机的，那么 A^n 也是随机的。

3.州

描述一个状态有几种方式。设 pii 为离开 I 后回到状态 I 的概率:

如果 pii <为 1，则状态 I 为瞬态
如果 pii=1，状态 I 是循环的
如果 aii=1，则状态 I 正在吸收

因此，如果返回到表示为 Tii 的相同状态之前的平均时间是有限的，则状态是正循环的。

如果一个状态 j 可以从任何其它状态 I 经过有限步到达，则 DTMC 是不可约的。不可约的 DTMC 实际上是一个强连通的图。

如果离散时间马尔可夫链只能在大于 1 的某个整数的倍数处返回状态，那么该链中的状态就是周期性的。

例如:

Periodic Markov Chain

否则称为非周期性。具有自循环的状态总是非周期性的。

4.逗留时间

设 Ti 是跳到其他状态之前在状态 I 花费的时间。

然后，Ti，即逗留时间，遵循几何分布:

预期花费的平均时间是 E(T)=1 / aii

5.m 步转换

在 m 个步骤中从 I 到 j 的概率表示为:

M-step transition

我们可以将 a22(4)视为时间 t=4 时鼠标位于位置 2 的概率。因此，从 I 到 j 正好 n 步的概率由 fij(n)给出，其中:

6.状态的概率分布

设πi(n)是在时间 n 处于状态 I 的概率:πI(n)= P(Xn = I)

那么，π(n)=[π1(n)，π2(n)，…]是概率分布的向量，它取决于:

初始转移矩阵 A
初始分布π(0)

注意π(n+1) = π(n)A，递归地:

对于不可约/非周期 DTMC，分布π(n)收敛到一个极限向量π，它与π(0)无关，是π = πP 的唯一解

并且∑i πi = 1

πi 也叫定态概率，稳态或均衡分布。

7.生成序列

为了模拟老鼠在迷宫中的路径，我们可能希望生成序列。

当我们想产生一个序列时，我们从一个初始状态 q1=1 开始。总的想法是:

我们选择一个随机数来知道我们应该从哪个状态开始
然后，选择一个随机数来知道我们移动到哪个状态

假设我们有以下简单的模型:

这对应于下面的矩阵 A 和初始概率向量π:

生成器的工作方式如下，通过连续抽取随机数来识别哪个过渡是指。

Sequence Generation, Step-by-step

第一步，我们选择一个随机数，看看它在初始概率向量中的位置。这给了我们第一个状态。

然后，我们选择下面的数字，它对应于状态 q1 的转移概率(矩阵 A 的第一行)。如果值小于 0.3，我们停留在 q1。否则，我们移到 q2。诸如此类…

8.解码序列

解码一个序列的目的是识别通向当前状态的最可能的路径。例如，如果鼠标处于状态 3，并经过 5 步到达那里，您需要确定最可能的路径。

9.用例

可以使用马尔可夫链:

通过解码字符序列并识别最可能的语言来识别句子的语言。
预测宏观经济形势，如市场崩溃和衰退与扩张之间的周期。
预测资产和期权价格，并计算信用风险。
…

三。隐马尔可夫模型

隐马尔可夫模型(HMM)广泛用于:

语音识别
书写识别
物体或人脸检测
词性标注和其他自然语言处理任务…

我推荐看看 Luis Serrano 在 HMM 上做的介绍。

我们将把重点放在词性标注上。词性标注是一个过程，通过这个过程，我们能够将一个给定的单词标注为名词、代词、动词、副词…

例如，PoS 可以用于文本到语音的转换或词义消歧。

在这个具体情况下，同一个单词bear有完全不同的意思，对应的 PoS 也因此不同。

让我们考虑下面的场景。在你的办公室里，有两个同事经常聊天。你知道他们要么谈论工作要么谈论假期。因为他们看起来很酷，你想加入他们。但是你离理解整个对话太远了，你只能听到句子中的一些单词****

在加入对话之前，为了不显得太怪异，你想猜猜他说的是工作还是假期。例如，你的朋友可能会说这样的句子:

1.排放概率

你只听清楚 python 或 bear 这几个字，并试着猜测句子的上下文。由于你的朋友都是 Python 开发人员，所以当他们谈论工作时，他们 80%的时间都在谈论 Python。

这些概率被称为排放概率。

2.转移概率

你听着他们的对话，每分钟都在试图理解这个话题。你朋友的谈话有某种连贯性。事实上，如果一个小时他们谈论工作，下一分钟他们谈论假期的可能性更低。

我们可以为这种情况定义我们称之为的隐马尔可夫模型:

改变或不改变话题的概率被称为转移概率。

你理解的词语被称为观察，因为你观察它们。
他们谈论的主题被称为隐藏状态，因为你无法观察到它。

3.离散时间隐马尔可夫模型

HMM λ是由两个随机过程组合而成的序列:

一个观察到一个:O=o1，o2，…，oT，这里的话
一个隐藏的一:q=q1，q2，…qT，这里是谈话的话题。这被称为过程的状态。

HMM 模型由下式定义:

初始概率的向量 π=[π1，…πq]，其中πi=P(q1=i)
未观察到的序列 a 的转移矩阵:a =[AIJ]= p(Qt = j∣qt1 = j)****
观察值的概率矩阵b =【bki】= p(ot = sk∣Qt = I)****

HMMs 背后的主要假设有哪些？

****观测值对隐藏态的条件独立性:p(O1，…，ot，…，oT ∣ q1，…，qt，…，qT，λ) = ∏i P(ot ∣ qt，λ)
平稳马尔可夫链 : P(q1，q2，…，Qt)= p(q1)p(q2∣q1)p(q3∣q2)…p(qt∣qt−1)
****观测值和状态序列的联合概率:p(O1，o2，…oT，q1，…，qT ∣ λ) = P(o1，…，oT ∣ q1，…，qT，λ) P(q1，…，qT)

HMM 是贝叶斯网络的一个子案例。

4.求转移概率

跃迁概率是基于我们所做的观察。我们可以假设，在仔细听完之后，每一分钟，我们都能理解他们谈论的话题。不过，这并没有给我们提供他们目前正在谈论的话题的全部信息。

在过去的 15 分钟里，你有 15 次观察， W 表示工作， H 表示假期。

我们注意到，在五分之二的情况下，话题工作导致话题假期，这解释了上图中的转移概率。

5.找出排放概率

因为我们对他们讨论的话题有观察，并且我们观察了讨论中使用的词语，我们可以定义排放概率的估计值:

6.随机时间内某个主题的概率

假设你要去喝咖啡，当你回来的时候，他们还在说话。你根本不知道他们在说什么！在那个随机时刻，他们谈论工作或假期的概率是多少？

我们可以从之前的观察中数出:10 次他们谈论假期，5 次谈论工作。因此，它表明我们有 1/3 的机会让他们谈论工作，2/3 的机会让他们谈论假期。

7.如果听到“Python”这个词，每个题目的概率是多少？

如果你听到“Python”这个词，那么这个话题是工作还是假期的概率就是用贝叶斯定理定义的！

接近 57%。

8.如果你听到一个单词序列，每个题目的概率是多少？

让我们从连续两次观察开始。假设我们连续听到“Python”和“Bear”这两个词。有哪些可能的组合？

巨蟒和工作联系在一起，熊和工作联系在一起
蟒蛇和假期联系在一起，熊和工作联系在一起
蟒蛇和假期联系在一起，熊和假期联系在一起
蟒蛇和工作联系在一起，熊和假期联系在一起

这些场景可以这样总结:

所以最有可能隐藏的状态就是节假日和假期。如果你听到两个以上的单词呢？假设是 50？计算所有可能的路径变得非常具有挑战性！这就是为什么维特比算法被引入，以克服这个问题。

9.维特比算法解码

维特比算法**背后的主要思想是，当我们计算最优解码序列时，我们并不保留所有的潜在路径，而是只保留最大似然对应的路径。**

它是这样工作的。我们从一系列观察到的事件开始，比如说Python, Python, Python, Bear, Bear, Python。这个序列简单地对应于一个观察序列:P(o1，o2，…，oT ∣ λm)

对于第一个观察，假设我们观察 Python，主题是 Work 的概率是它是 Work 的概率乘以假设它是 Work，它是 Python 的概率。

最可能的状态序列简单地对应于:

然后我们可以继续下一个观察。接下来会发生什么:

对于每个位置，我们使用前一个主题是工作或假期的事实来计算概率，对于每个情况，我们只保留最大值，因为我们的目标是找到最大可能性。因此，下一步是对假日主题进行同样的估计，并保持两条路径之间的最大值。

如果您解码整个序列，您应该会得到与此类似的东西(我已经对每一步的值进行了舍入，所以您可能会得到稍微不同的结果):

因此，当我们观察Python, Python, Python, Bear, Bear, Python时，最有可能的序列是Work, Work, Work, Holidays, Holidays, Holidays。

如果在这么长时间的跟踪之后，你终于去和你的同事聊天，你应该期待他们谈论假期:)

在时间 T 结束于状态 I 并且对应于观测 o1，…，oT 的潜在状态的最佳序列的联合概率由δT(i)表示。这是上述可能的途径之一。

通过递归，可以表明:

其中 bj 表示观察矩阵 B 的概率，aij 表示未观察序列的转移矩阵的值。这些参数是从一系列观察值和可用状态中估计出来的。δ就是我们在前进的每一步中取的最大值。

我不会在这里详细讨论。你应该简单地记住有两种方法来解决维特比，向前(正如我们已经看到的)和向后。

当我们只观察到部分序列并且面对不完整的数据时，使用 EM 算法。

10.生成序列

正如我们在马尔可夫链中看到的，我们可以用 hmm 生成序列。为此，我们需要:

首先产生隐藏状态 q1
从 q1 开始，生成 o1，例如 Work then Python
然后产生 q1 到 q2 的转换
从 q2 生成 o2
…

流程是如何运作的？如上所述，这是一个两步过程，我们首先生成状态，然后进行观察。

Sequence Generation

结论:

👏👏👏

在本文中，我们介绍了马尔可夫链和 hmm 的基本理论，包括术语、假设、性质、序列生成和解码。

我希望这篇关于马尔可夫链和隐马尔可夫模型的介绍是有帮助的。我在下面的部分列出了我的消息来源。

在下一篇文章中，我将尝试用 Python 来说明这些概念。

来源:

国家高级矿业学院:https://www.emse.fr/~xie/SJTU/Ch4DMC.ppt
MVE220 财务风险:http://www . math . chalmers . se/Stat/grund ub/CTH/mve 220/1617/reding projects 16-17/intromarkovchainsandapplications . pdf
Udacity 的 HMMs:https://www.youtube.com/watch?v=kqSzLo9fenk
个人博客主持人:https://maelfabien.github.io/machinelearning/HMM_1/#
个人博客嗯:https://maelfabien.github.io/machinelearning/HMM_2/#

马尔可夫链:如何训练文本生成像乔治·马丁那样写作

原文：https://towardsdatascience.com/markov-chains-how-to-train-text-generation-to-write-like-george-r-r-martin-cdc42786e4b6?source=collection_archive---------25-----------------------

马尔可夫链已经存在了一段时间，而且还会继续存在。从预测键盘到交易和生物学应用，它们已经被证明是多功能工具。

下面是一些马尔可夫链的行业应用:

文本生成(你是为此而来的)。
金融建模和预测(包括交易算法)。
物流:模拟未来的运输或行程。
搜索引擎:PageRank 可以看作是用马尔可夫链模拟一个随机的互联网冲浪者。

到目前为止，我们可以告诉这个算法是有用的，但到底什么是马尔可夫链？

什么是马尔可夫链？

马尔可夫链是一个随机过程，它模拟一组有限的状态，具有从一个给定状态跳到另一个状态的固定的条件概率。

这意味着，我们将有一个“代理”，它随机地在不同的状态之间跳跃，有一定的概率从一个状态跳到另一个状态。

为了展示马尔可夫链是什么样子，我们可以使用一个有向图，其中每个节点是一个状态(带有标签或相关数据)，从节点 a 到节点 b 的边的权重是从状态 a 跳到状态b的概率。

这里有一个例子，将天气建模为马尔可夫链。

我们可以将从状态 a 到状态 b 的概率表示为矩阵分量，其中整个矩阵表征了我们的马尔可夫链过程，对应于有向图的邻接矩阵。