1、
2、下图所示:input 4个data point的坐标,得到一个红色的vector,再把vector放到decoder中去,得到distribution,再做sample(比如做argmax,决定要输出token 1...),最终看看work不work,结果是不work。比如:训练的时候有50 个点,编号1-50,但是测试的时候有100个点,但是它只能选择 1-50编号的点,后面的点就选不了了。
改进:attention,可以让network动态的决定输出的set有多大
x0,y0代表END这些词,每一个input都会得到一个attention的weight=output的distribution。
3、application:summarization;machine translation;chat-bot
上图中:如果用seq-to-seq可能不能认出人名、地名等词,如果用pointer network就可以从input中选择一些词汇直接贴到response中去。