`
445822357
  • 浏览: 740125 次
文章分类
社区版块
存档分类
最新评论

pig使用记录

 
阅读更多

--如何进入PIG 的local模式

pig -x local

--读出bbb文件内容,并将文件第一列的内容打印在屏幕上

A = load '/home/flankwang/download/bbbb' using PigStorage('|') as (f1:chararray,f2:chararray);

B = foreach A generate f1;--B = foreach A generate $0;这是又一种写法,一样的

dump B;

--记录中包含元组的情况

cat data;
(3,8,9) (4,5,6)
(1,4,7) (3,7,5)
(2,5,8) (9,5,8)

A = load '/home/flankwang/download/data' using PigStorage(' ') AS (t1:tuple(t1a,t1b,t1c),t2:tuple(t2a,t2b,t2c));

B = foreach A generate t1.t1a,t2.t2a;
dump B;

--分组

cat ccc

1 1 2
1 2 3
1 3 4
2 1 5
2 2 4
2 3 6
2 4 9

A = load '/home/flankwang/download/ccc' using PigStorage(' ') AS (f1:int,f2:int,f3:int);

B = group A by f1;
dump B;


分享到:
评论

相关推荐

    预测航班延误:使用Apache Hadoop和Python预测奥黑尔国际机场的航班延误

    将航空公司数据集与UCI Repo的740万飞行记录一起使用 利用Pydoop实现MapReduce以构建特征矩阵 使用Pig脚本生成功能 使用Python,Scikit-Learn,Pig,Hadoop,HDFS,AWS EMR,IPython构建 技术指标 Python 2.7 ...

    dandan-account::pig_face: 不记录任何用户身份信息;专注记账的目的;账单清晰自然,报表易懂易分析;助你理财之路轻松有意义,小程序【单单记账】

    单单记账 无任何信息授权 持续更新 :party_popper:欢迎使用:party_popper: :party_popper:欢迎star && fork:party_popper: 开发/运行 详情查看文档- 贡献

    Hadoop权威指南(中文版)2015上传.rar

    使用Pig和Wukong来探索10亿数量级边的 网络图 测量社区 每个人都在和我说话:Twitter回复关系图 (度)degree 对称链接 社区提取 附录A 安装Apache Hadoop 附录B Cloudera’s Distribution for Hadoop 附录C 准备...

    Hadoop权威指南 第二版(中文版)

     使用Pig和Wukong来探索10亿数量级边的 网络图  测量社区  每个人都在和我说话:Twitter回复关系图  degree(度)  对称链接  社区提取 附录A 安装Apache Hadoop  先决条件  安装  配置  本机模式  伪分布...

    Hadoop实战(陆嘉恒)译

    编程实践6.1 开发MapReduce 程序6.1.1 本地模式6.1.2 伪分布模式6.2 生产集群上的监视和调试6.2.1 计数器6.2.2 跳过坏记录6.2.3 用IsolationRunner重新运行出错的任务6.3 性能调优6.3.1 通过combiner来减少网络流量...

    Pig_Cave_Rails_Client:猪洞!

    此自述文件通常会记录启动和运行应用程序所需的任何步骤。 您可能想要涵盖的内容: Ruby版 系统依赖 配置 数据库创建 数据库初始化 如何运行测试套件 服务(作业队列、缓存服务器、搜索引擎等) 部署说明 … ...

    Hadoop实战中文版

    10.5.3 关系型运算符 10.5.4 执行优化 10.6 用户定义函数 10.6.1 使用UDF 10.6.2 编写UDF 10.7 脚本 10.7.1 注释 10.7.2 参数替换 10.7.3 多查询执行 10.8 Pig 实战——计算相似专利的例子 10.9 小结 第...

    Hadoop实战中文版.PDF

    18910.5.4 执行优化 19610.6 用户定义函数 19610.6.1 使用UDF 19610.6.2 编写UDF 19710.7 脚本 19910.7.1 注释 19910.7.2 参数替换 20010.7.3 多查询执行 20110.8 Pig实战——计算相似专利的例子 ...

    CompositeInputFormat:了解 MapReduce 中的数据连接

    您要加入的所有文件已排序他们都有相同的加入密钥文件太大,无法使用 DistributedCache 加入如果你有 n 个文件按它们的连接键排序,你可以很容易地将它们组合起来,从每个文件中一个一个地读取记录,

    nosql 入门教程

    17.6.1 使用Pig 269 17.6.2 Pig Latin基础 269 17.7 Nodetool 271 17.8 OpenTSDB 272 17.9 SOLANDRA 273 17.10 Hummingbird和C5T 274 17.11 GeoCouch 275 17.12 Alchemy Database 276 17.13 Webdis 276 ...

    Hadoop 分布式集群搭建_部分1.docx

    Hadoop 分布式集群搭建 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件...此外,Hadoop还包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等项目。

    parquet-mr-example

    实木复合地板先生示例如何在 MapReduce 中使用 Parquet 和 Avro 作为... Parquet 的“默认示例”是 Group,但您也可以使用 Thrift、Google Protocol Buffers、Hive 或 Pig。 但是磁盘上的存储格式仍然是 Parquet。 您仍

    Hadoop实战

    18710.5.3 关系型运算符 18910.5.4 执行优化 19610.6 用户定义函数 19610.6.1 使用UDF 19610.6.2 编写UDF 19710.7 脚本 19910.7.1 注释 19910.7.2 参数替换 20010.7.3 多查询执行 20110.8 Pig实战——计算相似专利的...

    Docker学习笔记之k8s部署方法

    本文记录了如何在ubuntu 14.04裸机上部署k8s集群,参考自官方文档。 拓扑结构 1master + 2minion k8s-master 192.168.0.201 master k8s-node1 192.168.0.202 minion k8s-node2 192.168.0.203 minion 准备工作...

    commons-logging.jra包

    记录日志,通常和 log4j.jar共同使用 原因: 在 sun 开发 logger 前,apache 项目已经开发了功能强大的 log4j 日志工具,并向 sun 推荐将其纳入到 jdk 的一部分,可是 sun 拒绝了 apache 的提议,sun 后来自己开发...

    reverse-me

    /usr/bin/node存在,或者使用node reverse 代替 如何运行 git clone git@github.com:c2pig/reverse-me.git && cd reverse-me chmod a+x reverse ./reverse bbc.com 调试 两组日志输出,用于调试目的 app.stream流...

    cerke:Paig Shogi国际象棋大战cerkecetkaikcet2 kaik

    塞克 我们将提供有关虚构世界Faikleone游戏“ Pig Shogi / Desk Battle / cerke / cetkaik / cet2 kaik”的信息。 推特: ...桌上游戏记录验证机(仅与pek1 tam2 py“ Hard Emperor Power”版本兼容)

    Big_Data_Twelve_Step:使用尽可能多的 Hadoop 生态系统工具的字符识别项目

    Hadoop Streaming丢弃无效的 JSON 记录 Hive表用于在使用 Sqoop 传输到 MySQL 之前存储点 MySQL脚本将点复制到另一个表中,同时删除空值 Sqoop传输回 Hive,然后拆分点的 X 和 Y 值 Hive 生成​​的AVRO文件 Pig读取...

    udacity_hadoop_intro:Cloudera Udacity hadoop课程的注释和任务代码

    最好存储所有数据,例如,如果有电话的mp3记录-我们可以进行文本转录,存储和分析,但如果我们也存储原始的mp3,那么就有可能获取更多数据将来(例如分析情绪并从中获取更多数据) Hadoop和MapReduce简介 核HDFS +...

    从零开始学Python AI开发系列401

    1.记录并保存玩家所说的话2.把玩家说的话拆成单词3.遍历每个单词,并将其转换成pig latin的形式 4.把转换后的单词再放回局子里5.输出翻译好的最终的话

Global site tag (gtag.js) - Google Analytics