Data Mining

at Universität Augsburg

Join course
381
Discussion
Documents
Flashcards
Hat jemand zufällig Notizen/ die (möglichen) Antworten zur SoSe 2018 Aufgabe 1 ?
Hat jemand schon einmal die Data Mining Klausur geschrieben und kann mir sagen wie genau ihr beim lernen vorgegangen seid?
Kann mir jemand sagen was $xval bedeutet ? Hab es leider nicht mitbekommen 🙈
Wann findet die PC Übung immer statt?
alle zwei Wochen am Donnerstag zu zwei verschd. Zeiten. Ich habe mir folgende Termine aufgeschrieben: 6.6. , 27.6. und 11.7.2019
danke dir!
War jemand bei den letzten zwei PC-Übungen und kann mir sagen, was ihr dort genau macht? Bearbeitet ihr die Aufgaben alleine oder zusammen mit der Dozentin?
Wäre jemand so lieb und könnte die Mitschrift zum Übungsblatt 1 hochladen? :) Kann leider wegen anderer Veranstaltungen nicht an der PC-Übung teilnehmen.
Hätte jemand Lust auf eine Lerngruppe ? :)
View 17 more comments
Was würdet ihr dann machen, Klausuraufgaben oder Skript durchgehen? 😅
Sowohl als auch ? 😂🙈
Hab leider eine andere Veranstaltung während des Übungstermins, könnte bitte jemand seine Mitschriften hochladen ?
View 1 more comment
von beiden letzten wäre super :) werde wohl jetzt eher zu der übung wechseln
ich schreib leider per pen auf pc, daher is es schwer zu lesen :/ sorry
Wann ist die Data Mining Klausur? Ist es am 14.08?
Ich habe mir 16.08 8.30 Uhr aufgeschrieben. Hast du die 2 Feiertage beachtet ?
Ach nein habe ich nicht danke :)
No area was marked for this question
Danke für die Zusammenfassung! :) Lädst du die Lösung für die Übungsblätter der PC Übung auch hoch?
View 1 more comment
Ok schade!
Ja find ich auch..
was ist der unterschied zwischen der saalübung und den übungen im cip-pool ?
Im cip Pool bearbeitet man die Aufgaben selbstständig, in der saalübung wird die Theorie besprochen und das hat allgemein gemacht soweit ich das verstanden habe.
Hat man eine Formelsammlung für DATA Mining?
Ist open book - gewissermaßen also "ja".
Könnt ihr dieses Fach empfehlen?
View 6 more comments
Mh nein eig nicht. Ganz am Anfang ist eine Einführung, und die erwarten eig keine Grundkenntnisse, nur eben, dass du bereit bist, das auch bissl zu lernen.
Im Grundsatz halten einen Methoden potenziell mehr auf als andere Fächer, weil man das nicht an zwei Tagen vor der Prüfung lernt. Ich würde weder sagen, dass das das einfachste, aber definitiv auch nicht das schwierigste Fach ist. R lernt man dort, es kann praktisch sein, parallel Data Analysis mit R zu machen, da sich die beiden ergänzen und diese Anstrengungen für zwei Fächer in Summe kleiner sind als die jeweils für jedes Fach einzeln (also es überschneidet sich einiges und man hat das dann schon mal gehört).
Wie komme ich bei der allerletzten Teilaufgabe, auf die naive Klassifikationsgüte?
Wo kann ich dem Skript finden?:)
View 1 more comment
Im SoSe 18 geschaut?
Gefunden unter SS18 danke :)
Sind Vorkenntnisse in R zwingend notwendig? (Hatte es bisher noch nicht)
Müsste J nicht gleich 9 sein, entsprechend den Merkmalsvariablen?
Wo bekommt man die Übungsblätter her?
View 1 more comment
Da ist nur das Skript auf 4 Teile aufgeteilt...
Dann bist du vermutlich nicht in der Data Mining Übung Veranstaltung ?
Hallo :) könnte jemand bitte die Lösungswege für die Übungen von Data Mining hochladen? Bin im letzten Semester und muss die Prüfung unbedingt bestehen und konnte das letzte Semester leider nicht in die Übung gehen. Wäre auch bereit, Material zu tauschen von anderen Fächern! Danke im Voraus!! :)
Würde mir auch sehr helfen.
Könnte mir jemand bitte erklären, wie man beim Übungsblatt 3 Aufgabe d) 1. Frage auf die Endknoten (15,10 und 16) und den Prognosewert kommt? Danke :)
Kann sich jemand noch grob an die Aufgabenstellungen/Themen der Klausur im SS2018 erinnern und möchte diese mit uns teilen? :)
View 5 more comments
ja also die Lösungen zu den Übungsblättern stehen alle im R Code drin, auch für die man nichts programmieren muss
danke :)
hallo hier. wiederholt niemand die Klausur ?
View 4 more comments
Könnte jemand biiitte die Übungen hochladen? ? ☺️
oder wollen wir zusammen lernen / ne Lerngruppe machen? :)
Was sagt ihr zu den Ergebnissen?
View 1 more comment
Für Nix wissen gibt's ne 2,3. Also alles beim Alten bei der Versorgung der breiten Bevölkerung mit wertlosen Abschlüssen
Aber die OECD ist glücklich denn unsere Studienquote steigt!
Was sagt ihr zur Klausur?
View 5 more comments
Die Brust habe ich bekommen aber leider noch keine Ergebnisse :(( Aber ich geb dir dann Bescheid wegen der Note ??‍♂️
War ne 4,7 wie befürchtet
No area was marked for this question
Weiß jemand bei wieviel Prozent normalerweise die Bestehensgrenze liegt ? ?
View 15 more comments
65 ist sowas von letztes Semester, hab gehört dieses machen die 70%
Waren exakt 66% die man zum Bestehen brauchte
Schmunzler am Morgen ;) Danke dafür^^
Weiß jemand was der unterschied zwischen einem balancierten und einem unbalancierten DAtensatz ist? Übungsblatt 6, 1b
Antwort aus dem Internet: "Balanciertes Design bedeutet, dass jede Gruppe aus gleich vielen Versuchsobjekten besteht."
Danke dir! passt ja auch zum output
-0,590 :)
Gabriela - habe gesehen, dass Du auch aus München kommst. Sollen wir zusammen mit Bayernticket morgen fahren? Ich schreibe auch noch Entscheidungstheorie in der Früh.
ich fahre mit dem Auto, kannst gerne mitkommen Entscheidungstheorie ist um 18:15 Data Mining ist um 8:30 :)
Das ist doch bei dieser Aufgabe nicht gefragt?. Hier geht es um Splitverfahren, das hat mit Single Linkage nichts zu tun!
View 1 more comment
ich kenne kein konkretes Splitverfahren und finde auch nichts dazu im Skript
die letzten Jahre wurden glaub ich sowohl Chaid als auch Cart verfahren gemacht, ich glaube das ist hier gefragt, für uns aber also irrelevant ;)
Hat jemand die Lösungen von Übungsblatt 5 (Rechnerübung)? Konnte da leider nicht hin. Vielen Dank schon mal!
View 3 more comments
Das wären meine Lösungen für Aufgabe 1 b/c beim Blatt 5... bin mir aber nicht sicher...
Die Distanz für complete linkage ist die Distanz zwischen 10 und 2
Weiß jemand was mit der A-priori Gruppengröße und balancierten/unbalancierten Gruppen bzw. Datensatz gemeint ist?
Es kommt wohl darauf an ob die Daten vollständig sind oder nicht, wenn welche das Unternehmen verlassen haben (left=1) dann werden da evtl daten von den Individuen fehlen. Somit ist der Datensatz unvollständig und dadurch unbalanciert.
Kommt hier nicht 0,33136 raus?
No area was marked for this question
Kann mir jemand erklären wie man den Gower-Koeffizienten berechnet oder hat bei der Musterklausur bei Aufgabe 4 1.b eine Lösung mit eingesetzten Zahlen? Vielen Dank schonmal!
View 3 more comments
Hoffe man kann es lesen, passt leider nicht in eine Zeile
Danke ich habe meinen Fehler gefunden. :)
Was ist jetzt entscheidend für die Güte beim Clustering: die between SS oder die within SS?
View 2 more comments
was sagt mir denn der Quotient Between_SS/total_SS ? das steht so auf Folie 159 im Übungsskript..
Das gibt Auskunft über die Streuung des Clusteranalyseverfahrens, je größer, desto besser. Wenn der Anteil der Streuung innerhalb des Clusters im Vergleich zur gesamten Streuung gering ist, dann bedeutet das, dass die Cluster innerhalb sehr homogen sind (Punkte desselben Clusters liegen alle sehr nah beieinander) und außerhalb sehr heterogen (=die einzelnen Cluster sind voneinander sehr verschieden).
Kann mir jemand die Folie 120 aus der Vorlesung erklären?
Nach meinem Verständnis wird in der Tabelle betrachtet, wie oft eine gewisse Kombination auftritt. Beispielsweise für die linke obere Zelle der unteren Tabelle: "Wie oft haben beide beobachteten Objekte den Wert 1 als Ausprägung einer Variable?" Wenn man also Objekt 1 und 2 vergleicht, ist das nur in der 2. Spalte (der oberen Tabelle) der Fall. Daher wird in die linke obere Zelle der unteren Tabelle eine 1 eingetragen. Würde man Objekt 4 und 5 vergleichen würde hier eine 2 stehen, da sowohl in der linken und mittleren Spalte sowohl 4 als auch 5 eine 1 als Ausprägung stehen haben.
Ist die Klausur open-book?
Lt. VL-Skript Seite 2: ja
Warum sollte man variablen mit hoher Korrelation aus dem Clusteringprozess ausschließen?
Wenn die Korrelation zwischen zwei X-Variablen sehr hoch ist ( Habe in der Übung den Wert 0,8 aufgeschrieben) kann man eine der Variablen weglassen, da sie durch die andere abgebildet werden kann. Extremfall ist Corr=1 d.h. Multikollinearität
Kann nochmal jemand den Unterschied zwischen Training Test und Holdout Data im Bezug auf neuronale Netzwerke erklären?
Das was ich mir aufgeschrieben ist: training test: die Gewichte werden geschätzt für ein gegebenes Objekt z.b. q=5 q=6 q=7 und so weiter. test data: E^2 für q=5 q=6 q=7, wir suchen der kleinste R^2 z.b. der kleinste ist für q=7, d.h. q=7 ist optimal. hold out data: E^2 für q=6 und dann vergleichen wir mit LR, Cart oder andere Mehode
Weiß jemand, wie maxcompete, maxsurrogate und usesurrogate bei rpart.control() zu interpretieren sind? Die Beschreibung von R bringt mich leider nicht sonderlich weiter..
Genau weis ich das leider auch nicht. Aber in der Übung hatte es geheißen, dass diese Parameter unwichtig sind und wir diese nicht interpretieren müssen. Vielleicht hilft dir das ja weiter.
Danke für die Info:)
Hallo zusammen, wird uns den Schwellenwert in der Klausur immer gegeben, da ich mir keine Notizen dazu gemacht habe (Seite 92) würde ich mich auf eure Meldungen freuen. Danke
Grundsätzlich muss er gegeben werden denn ansonsten kann man gewisse Entscheidungen gar nicht treffen . Wenn er nicht gegeben wird dann werden wir den für die Bearbeitung der Aufgabe nicht brauchen .
Ok super, danke dir
Hallo zusammen, habe eine Frage: Es geht um 3.2.2. Modellierungsergebnis und -interpretation (S. 91 Saalübung) Da haben wir summary(BaumCredit), das was rauskommt ist mir nicht ganz klar,also besser gesagt was bedeutet CP - ist das die p-Wert oder... dann rel error, xerror und xstd? Wenn mir jemand helfen könnte wäre ich sehr dankbar.
View 2 more comments
Wird WAHRSCHEINLICH durch den R Output gegeben sein. Ich GLAUBE nicht, dass wir ihn ausrechnen müssen. Aber man berechnet ihn über "relative Verbesserung in MSE zum Null-Modell (improvement im Vergleich zum Knoten 1)" (Folie 79). Die Berechnung des "improvement" steht auf Folie 77
Danke
Übungsblatt 5 c) die Distanzen anhand der Distanzmatrix (3. bis 5. Punkt): Hat da jemand ne Lösung? bzw ist das Streudiagramm weiterhin gegeben und ich kann in diesem kucken welche Distanzen ich aus der Distanzmatrix rauslesen muss?
Kann mir jemand sagen, was na.omit() macht Ich habe es ausprobiert, aber kapiere es nicht DANKE
View 1 more comment
Entfernt alle Zeilen eines Datensatzes welcher NA-Werte, also fehlende Werte, enthält.
danke
Kann jemand bitte die Mitschrift zur Übung mit Neuronalen Netzen hochladen? Das wär mega ;)
Was wird denn von uns erwartet? Muss man R programmieren können oder nur interpretieren können? Oder sowohl als auch? Und muss ich statistisch fit sein? LIEBE GRÜßE EUCH ALLEN:-*
View 2 more comments
Ich habe es so verstanden, dass die Klausur genau so aussehen würde wie vorher. Unterschied: Anstatt das alte Programm wird R kommen Aber da muss ich nicht programmieren können (wie in Statistik) sondern nur verstehen, was die Daten besagen Ist das so richtig, oder habe ich alles falsch verstanden? Danke für die bevorstehende Antworten :)
Hab das auch so verstanden dass wir R nur verstehen müssen aber nicht selber programmieren müssen.
Hallo zusammen, da ich heute (aus gesundheitlichen Gründe) nicht zur Uni kommen. Da die Frage - haben wir nächste Woche Vorlesung, oder sind wir durch? Danke wir.
Keine Vorlesung nächste Woche, aber vermutlich eine Fragestunde eine Woche vor der Klausur.
Also, d.h. nächste Woche keine Vorlesung. Danke
Ein paar Fragen, da ich die Vorlesung nicht besuchen konnte, die Klausur aber schreiben will (Statistik bereits geschrieben sowie SPSS Vorkenntnisse). 1) Klausur ist open-book laut Vorlesungsfolien? 2) Was ist Eurer Meinung nach relevant um die Klausur gut zu überstehen? Bestimmte Themenbereiche? SPSS-Knowledge? Vielen Dank Euch!
Und wie ging die Sache aus? Mich hat die Klausur ziemlich zerbröselt..
Die Klausur ist mit R! Nix SPSS!
Wäre jemand bereit die Übungen fortlaufend hochzulanden?
View 1 more comment
Hallo @Lisa S., ich kann leider nur zu Rechnerübung gehen, da die Saalübung genau um die Uhrzeit stattfindet wie Vorlesung Spieltheorie, was sehr unangenehm finde.... nur eine Saalübungsangebot.... Würde gerne auch jemanden bieten die Übungen von der Saalübung hochzuladen. Danke im Voraus.
Ich bin bereit die Übungen welche andere mitschreiben laufend runterzuladen! Der Sommer wird viel zu schön um diesen mit eigener Arbeit zu verschwenden!
Fällt die Übung heute aus?
Die Rechnerübung is heute nicht
ach deswegen ist fast keiner da..., danke dir
Load more